Corpus et prototypes

Constitution et gestion de corpus/bases de données

Développés par le CECL (Centre for English Corpus Linguistics)
• Corpus d’apprenants qui rassemblent des données issues des productions d’étudiants en langue étrangère :

ICLE : International Corpus of Learner English www.uclouvain.be/en-cecl-icle.html

LINDSEI : Louvain International Database of Spoken English Interlanguage www.uclouvain.be/en-cecl-lindsei.html

LONGDALE : Longitudinal Database of Learner English www.uclouvain.be/en-cecl-longdale.html

VESPA : Varieties of English for Specific Purposes dAtabase www.uclouvain.be/en-cecl-vespa.html

• Corpus qui rassemble du matériel pédagogique (manuels scolaires, par exemple) :

TeMa : www.uclouvain.be/en-cecl-tema.html

• Corpus multilingues qui compilent des données issues de différentes langues:

PLECI : Poitiers-Louvain Échange de Corpus Informatisés www.uclouvain.be/en-cecl-pleci.html

Mult-Ed: Multilingual Editorial Corpus www.uclouvain.be/en-cecl-multed.html

• Corpus d’écrits d’étudiants en anglais natif

LOCNESS www.uclouvain.be/en-cecl-locness.html

• Corpus d’écrits en français langue étrangère

FRIDA : French Interlanguage Database www.uclouvain.be/en-cecl-frida.html

• Corpus de textes scientifiques en anglais dans trois disciplines : business, linguistique et médecine

LOCRA: Louvain Corpus of Research Articles www.uclouvain.be/en-cecl-locra.html

Développés et/ou alimentés par Valibel (Centre de recherche Discours et Variation)

Développés et/ou alimentés par Valibel (Centre de recherche Discours et Variation)
• Corpus de données orales

CIEL-F : corpus international écologique de la langue française

Corpage : corpus de référence sur le langage des personnes âgées

CorpAGEst : corpus multimodal sur le langage des personnes âgées

C-Prom : corpus de français parlé annoté pour l’étude des proéminences prosodiques
http://sites.google.com/site/corpusprom/

MOCA: Multimodal Oral Corpora Administration www.uclouvain.be/valibel-corpus.html

VALIBEL : banque de données textuelles orales du français en Belgique
900 enregistrements d’événements communicatifs variés, leurs transcriptions (plus de 4 millions de mots) et les méta-données associées (profils des locuteurs, etc.).
www.uclouvain.be/81834.htm

• D'autres corpus écrits peuvent être mis à disposition sous certaines conditions
www.uclouvain.be/320561.html

ComparaF : corpus équilibré (littérature, théâtre, presse) en français de France et de Belgiqu
CAFLaM : corpus d'écrits argumentatifs à l'université
Corpus d'écrits argumentatifs d'apprenants du français L2 (extension du corpus FRIDA du CECL)
Corpus de traduction français-néerlandais / néerlandais/français (littérature, presse économique)
Corpus de presse en ligne
LCN : Leerdercorpus Nederlands (corpus d'apprenants du néerlandais)
CNO : Corpus Nederlandse Opstellen

Prototypes

Base de données terminologique trilingue

Outil terminologique trilingue (français, anglais, néerlandais) portant sur le vocabulaire propre au monde universitaire développé par le CECL, en collaboration avec le professeur S. Verlinde de la Katholieke Universiteit Leuven.
http://sites.uclouvain.be/lexique/lexique.php

BDLP Belgique

(Base de données lexicographiques panfrancophone)

Contribution belge à la base de données lexicales panfrancophone, afin de permettre :
- des consultations de cette base « isolées » ou « combinées » (avec d’autres bases de la BDLP)
- des comparaisons entre la variété belge (Com. française) et d’autres variétés de français.
www.bdlp.org
Coordination : Michel Francard

Julibel

Collection d’exemples pédagogique (écrits littéraires, publicités, corpus oraux, etc.) susceptibles d'être exploités dans les classes de français pour illustrer des phénomènes variés, tels que l'ironie, les connecteurs, les figures de style, etc.
www.uclouvain.be/97199.html

LEAD (Louvain English for Academic Purposes Dictionary)

Dictionnaire d'anglais scientifique doublé d'un outil d'aide à la rédaction en anglais disponible en ligne après identification. Développé par le CECL.
http://sites.uclouvain.be/lead-dictionary/public/mydictionary.php

MOCA (Multimodal Oral Corpora Administration)

Le logiciel MOCA permet l’archivage, la consultation et l’annotation de données orales (sons, transcriptions et métadonnées) pour l’étude linguistique. La base de données peut être interrogée en fonction de nombreux descripteurs (sur le locuteur, sur la situation, sur le contenu linguistique) et les données sont ensuite exportables dans différents formats d’analyse.
www.uclouvain.be/260466.html