Séminaires du CENTAL (Archives 2014-2015)

PROGRAMME 2014-2015

PREMIER QUADRIMESTRE

Vendredi 17 octobre 2014 de 14h à 15h

Xavier Jacques-Jourion (Archives de la RTBF)

De l'information à la connaissance et vice-versa, ou comment reconnaitre une suédoise ?

Résumé :

Seront abordés divers problèmes concrets liés à la navigation au sein d'informations contenues dans des médias riches et variés au sein des collections d'archives (et d'informations) de la RTBF.
Différentes pistes de solutions reflétant l'état actuel des recherches de Xavier Jacques-Jourion seront évoquées.

Télécharger la présentation

Vendredi 24 octobre 2014 de 14h à 15h

Oto A. Vale (Cental)

OpinExpress: un lexique d’expression d’opinion sous la forme de Grammaires Locales

Résumé :

Le projet présenté a pour but la construction d’un lexique d’unités multiword qui expriment l’opinion en portugais du Brésil. L’hypothèse de départ est que les expressions sont des formes privilégiées pour trouver des indices d’opinion du locuteur du texte. Pour cela, il faut élaborer des listes d’expressions ayant un degré élevé de polarité et établir un classement à partir de l’usage de ces expressions dans un grand corpus. La représentation de ces expressions sera réalisée sous la forme de grammaires locales.

Vendredi 14 novembre 2014 de 14h à 15h

Sophie Roekhaut (Cental, ILC)
Un cours d'orthographe à destination des étudiants de l'UCL : développement pédagogique de la plateforme PLATON

Résumé :

PLATON est une plateforme d'apprentissage de l'orthographe dont l'exercice principal est la dictée. Dans ce séminaire, nous présenterons les développements réalisés dans le cadre d'un projet de fonds de développement pédagogique (FDP) dont l'objectif est de proposer, avec PLATON, un cours d'orthographe aux étudiants de l'UCL. Nous aborderons d'une part les défis pédagogiques du projet : la dictée comme exercice d'apprentissage, l'étiquetage des erreurs, le lien avec des grammaires de référence et d'autre part les défis TAL de la plateforme : la correction automatique de la dictée et la génération automatique d'explications d'erreurs, la possibilité d'accepter des variantes orthographiques, la sélection automatique de textes de dictée, la génération automatique d'exercices d'entrainement. Nous réaliserons également une démonstration de la plateforme.

Télécharger la présentation

Vendredi 21 novembre 2014 de 14h à 15h

Jean-Philippe Fauconnier (IRIT, Toulouse III)

Acquisition de relations sémantiques à partir d'éléments de mise en forme des textes

Résumé :

Les méthodes d'extraction de relations reposent généralement sur l'analyse du texte à un niveau phrastique. Dans ce travail, nous proposons une approche complémentaire utilisant la structure du document pour prendre en compte les relations exprimées sur plusieurs niveaux. Trois points seront discutés dans cette présentation. (i) La première partie proposera un modèle organisant hiérarchiquement les unités logiques élémentaires (e.g.: titres, paragraphes, items, etc.) telles qu'elles apparaissent liées dans la cohésion du document afin de faciliter l'identification d'unités logiques complexes (e.g.: sections, définitions, structures énumératives, etc.). (ii) La seconde partie présentera une expérience menée sur des documents au format PDF et une méthode de parsing en dépendance pour identifier leur structure. (iii) Enfin, nous présenterons le travail en cours sur les structures énumératives, objets textuels qui présentent des discontinuités dans leurs composants mais qui sont riches en relations sémantiques.

Télécharger la présentation

Vendredi 28 novembre 2014 de 14h à 15h

Guy Deville, Laurence Dumortier et Jean-Roch Meurisse (UNamur)

CoBRA, un outil interactif de lecture de textes en néerlandais et en anglais : aide à levée d'ambiguïté dans l'étiquetage préalable des textes

Résumé :

CoBRA (Corpus-Based Reading Assistant) est un outil interactif d'aide à la lecture de textes en langues étrangères (anglais et néerlandais) à l'usage d'apprenants francophones de tous niveaux. Pour chaque texte, l'utilisateur accède par un clic à la traduction française de chaque mot ou expression selon son contexte de lecture original. Cette traduction est illustrée à l'aide de concordances issues de très grands corpus bilingues alignés, qui recouvrent la langue usuelle et différents domaines de spécialité. Une telle approche de lecture 'contextualisée' exige la levée des ambiguïtés lors de l'étiquetage préalable du texte. En particulier, l'étape de balisage semi-automatique des lemmes d'un texte (au sens strict d'items constitués d’une seule chaîne de caractères) constitue le 'goulet d’étranglement' dans la production des ressources par CoBRA. L'exposé portera sur la mise en oeuvre d'un outil d'aide à la levée des ambiguïtés qui optimise cette phase coûteuse de l'étiquetage des textes dans CoBRA.

Jeudi 4 décembre de 14h30 à 15h30

Clément Jonquet (LIRMM, Montpellier)

Terminology extraction and semantic annotation in the context of the Semantic Indexing of French Biomedical Data Resources (SIFR) project

Résumé :

Simply indexing biomedical data with keywords has obvious limits such as the use of synonyms, polysemy, lack of domain knowledge, parent/child relations. Biomedical data integration and semantic interoperability is necessary to enable new scientific discoveries that could be made by merging different available data. This is even truer if we consider multilingual data. A key aspect in addressing semantic interoperability for life sciences is the use of terminologies and ontologies as a common denominator to structure biomedical data and make them interoperable.
In this talk, I will present some of the research we achieve within the SIFR project (http://www.lirmm.fr/sifr) on automatic term extraction and semantic annotation of biomedical data. First, I will introduce our new NLP-based workflow for terminology extraction, called BioTex (http://tubo.lirmm.fr/biotex) that obtains very good results in extracting multi-word terms either on French or English text data. Second, I will contextualize this in the context of deploying an ontology-based annotation service, to identify English/French ontology concepts within text data using NCBO BioPortal technology in the backend.

DEUXIEME QUADRIMESTRE

Vendredi 20 mars 2015 de 14h à 15h

Laurent Kevers (DBIT, éditions Larcier)

Savez-vous catégoriser (à la mode, à la mode...) ?
Étude de cas d'un projet de catégorisation automatique

Résumé :

La catégorisation automatique de documents est une tâche qui a inspiré un grand nombre de travaux de recherche depuis de nombreuses années, débouchant sur des méthodes et algorithmes permettant d'atteindre des résultats très satisfaisants. Or, si de bonnes performances ont effectivement été enregistrées au cours de ces diverses recherches, on peut également constater que la mise en oeuvre des technologies de catégorisation dans un contexte industriel n'est pas toujours aussi satisfaisante qu'espéré. Cette présentation propose une étude de cas réelle - la catégorisation automatique de textes juridiques par rapport à un ensemble défini de catégories - au cours de laquelle nous essayerons d'identifier quelques facteurs qui ont une influence positive ou négative sur les résultats obtenus.

Télécharger la présentation

Vendredi 27 mars 2015 de 14h à 15h

Piet Desmet (KUL)

Sept façons de rendre l’ALAO plus intelligent. Vers une intégration efficace des techniques du TAL

Résumé :

L’utilisation du TAL en apprentissage des langues assisté par ordinateur (ALAO) est loin d’être une pratique courante, en raison d’un ensemble de contraintes technologiques et pédagogiques. Cependant, le vaste domaine de l’ICALL (intelligent computer-assisted language learning) a réalisé des progrès substantiels et certains résultats de recherches et de développements en cours tendent actuellement vers une intégration étendue dans l’enseignement-apprentissage des langues étrangères.

Notre objectif est de proposer une ébauche de typologie des fonctions que le TAL pourrait assumer pour l’ALAO, en se focalisant exclusivement sur la compréhension et la production écrites. Nous voyons au moins sept rôles possibles pour des applications en ICALL :

1. Présentation de matériel en langue cible : sélection (semi-)automatique de documents écrits compréhensibles et authentiques, sur la base de leur lisibilité et de leur complexité formelle, d’une analyse sémantique ou d’une catégorisation du texte.
2. Accès au ressources : création de matériels de références, comme des moteurs de recherche sur des corpus bilingues ou des dictionnaires d’apprenant enrichis par corpus.
3. Accompagnement et assistance du processus de lecture : en aidant les étudiants à comprendre les matériaux en langue cible par des couches d’annotation, tant sur le plan formel que sur le plan sémantique.
4. Génération d’exercices et de tests : génération (semi-)automatique de questions d’examen et d’exercices à partir de l’analyse de matériaux textuels en langue cible et/ou de l’analyse des erreurs de l’apprenant.
5. Détection d’erreurs et génération de feedback correctif dans des tâches productives semi-ouvertes : analyse de la production de l’apprenant, à travers des approches TAL symboliques ou statistiques, afin de dépasser les techniques (plus limitées) de reconnaissance approximative de chaines de caractères.
6. Accompagnement du processus d’écriture : en aidant l’apprenant de langue étrangère à écrire un texte fonctionnel et correctement rédigé.
7. Agencement adaptatif des items : création personnalisée d’environnements d’apprentissage adaptés au profil de l’apprenant.

Pour chacune de ces fonctions, nous présenterons une esquisse conceptuelle ainsi que des exemples d’applications résultant de recherches et développements du monde académique. Ceci comprendra, sans y être limité, des résultats de notre propre équipe de recherche. Cette vue d’ensemble permettra de dresser un portrait équilibré des défis et opportunités qu’offre l’ICALL. Nous affirmerons qu’il y a aujourd’hui des raisons d’afficher un optimisme prudent face aux potentialités du TAL pour l’enseignement-apprentissage des langues étrangères.

Télécharger la présentation

Vendredi 08 mai 2015 de 14h à 15h

Pho Van-Minh (LIMSI, Paris)

Validation automatique de distracteurs dans un cadre pédagogique

Résumé :

Les questionnaires à choix multiples représentent une forme d'évaluation largement utilisée. Cependant, la rédaction des items évaluant correctement le niveau de connaissances d'apprenants est une tâche complexe. Plusieurs consignes de création manuelle d'items ont été développées, mais l'évaluation automatique de la qualité des items constituerait un outil pratique pour assister le travail des enseignants.
Dans cette présentation, nous présentons une méthode d'évaluation de la qualité de distracteurs (c'est-⁠à-⁠dire les options incorrectes) combinant plusieurs critères d'homogénéité syntaxique et sémantique, fondée sur des méthodes de Traitement Automatique des Langues. Nous effectuons une évaluation de cette méthode sur un grand corpus de QCM et montrons que la combinaison de plusieurs mesures nous permet de valider les distracteurs.

Télécharger la présentation

Vendredi 29 mai 2015 de 14h à 15h au c.211

Jorge Baptista (U. Algarve, Faro)

Le système STRING (Statistical and Rule-based Natural Language Processing System for Portuguese) - présentation et état actuel

Résumé :

Dans cette présentation, on prendra contact avec le système STRING, développé pour le traitement automatique du portugais par L2F/INESC-ID Lisboa. Il s’agit d’un système hybride qui emploie à la fois des techniques statistiques et basés en règles pour traiter des textes, en réalisant toutes les opérations basiques de TAL: segmentation du texte et analyse lexicale, désambiguisation morphosyntaxique, par règles et par apprentissage automatique (hmm), et analyse syntaxique de surface (chunking) et profonde (deep parsing). Le système réalise aussi des operations de désambiguisation de constructions verbales, résolution d’anaphores, reconnaissance d’entités nommées, identification et normalisation d’expressions temporelles, extraction et linéarisation d’événements. Le système est à la base des applications du système REAP.PT, destiné à l’apprentissage de Portugais-Langue Étrangère.