CENTAL Seminars (2008-09)

> Archives 2008 - 2009

- Vendredi 3 octobre 2008 de 11h30 à 12h30
Laurence Danlos, Université Paris 7, France.
Architecture et formalisme de génération de textes.

Résumé:
Après avoir rappelé l'architecture standard d'un système de génération de textes, nous présenterons G-TAG, un formalisme de génération basé sur les TAG (Tree Adjoining Grammar). Ce formalisme a été implémenté dans des applications industrielles.

Affiche , support de la présentation

- Vendredi 17 octobre 2008 de 11h à 12h15
Marianna Apidianaki, Université de Paris 7, France.
Induction automatique de sens pour la désambiguïsation lexicale en traduction

Résumé:
La désambiguïsation lexicale constitue une étape intermédiaire de traitement dans les applications de TAL, qui sert à améliorer leur performance. Néanmoins, les besoins des applications en matière de désambiguïsation divergent et devraient être pris en considération lors du choix de la méthode de désambiguïsation et de l’inventaire de sens utilisé. Les problèmes posés par l’exploitation de ressources sémantiques prédéfinies et l’inadéquation de méthodes indépendantes des applications dans certains contextes ont provoqué le développement de méthodes non supervisées d’induction de sens et de désambiguïsation, orientées vers des applications précises.
Nous présentons une méthode d’induction de sens dirigée par les données et opératoire dans un contexte bilingue. Les sens d’un mot ambigu sont identifiés en combinant des informations distributionnelles et traductionnelles provenant d’un corpus parallèle d’apprentissage. Ces informations servent au clustering des équivalents de traduction du mot ambigu sur la base de leur similarité sémantique. Les clusters créés sont projetés sur le mot ambigu et servent à déterminer ses sens. La méthode proposée étant entièrement fondée sur des données, elle est, par conséquent, indépendante de la langue et permet l’élaboration d’inventaires sémantiques relatifs aux domaines représentés dans les corpus traités.
L’inventaire construit est exploité par une méthode de désambiguïsation lexicale, afin d’attribuer un sens à de nouvelles instances de mots ambigus en contexte, et par une méthode de sélection lexicale, qui propose leur traduction la plus adéquate.

Affiche, support de la présentation

- Vendredi 7 novembre 2008 de 11h à 12h15
Cédrick Fairon, Université catholique de Louvain, Belgique.
La mise à jour des dictionnaires électroniques : le cas du DELAF

Résumé
Les dictionnaires électroniques DELA ont été parmi les premières ressources lexicales à large couverture pour le français (Courtois 1990). Ils sont aujourd'hui diffusés sous une licence LGPL qui fixe clairement les conditions d'utilisation et facilite dès lors leur réemploi dans toutes sortes de projets. Malheureusement, l'absence de mises à jour systématiques depuis le début des années 2000 a conduit ce dictionnaire à prendre quelques rides : ne cherchez pas les mots blog, biodiversité, cybercriminalité, microcrédit, téraoctet, bancassureur ou paralympique, ils n'y sont pas, même si les réalités qu'ils dénotent sont devenues, elles, très communes. Il est donc utile de se pencher sur ce problème et d'apporter aussi vite que possible des compléments permettant de... rattraper la néologie.

Nous présenterons une expérience réalisée avec des étudiants du Master en linguistique à l'UCL (Belgique), dans le cadre d'un cours de lexicologie, et visant à identifier et étudier les "mots inconnus" d'un corpus de presse couvrant la période 2000-2006 (le DELAF servant de "corpus d'exclusion). Nous présenterons la méthodologie de collecte des candidats qui repose sur l'usage d'un logiciel de "veille linguistique" (Fairon et Paumier 2006) et les critères de sélection des nouvelles entrées lexicales. En particulier, nous soumettrons au débat la problématique des "mots composés". Outre l'apport concret d'une liste de mots nouveaux pour le DELAF, cette expérience permet de prendre une mesure du phénomène de la néologie sur une période de 5 ans.
Le dictionnaire constitué dans le cadre de cette expérience sera prochainement livré pour une intégration dans le DELAF.

Affiche

- Vendredi 21 novembre 2008 de 11h à 12h15
Camilla Clausen, Université de Bergen, Norvège.
"Une mise en défi": La dynamique lexicale et le traitement automatique de la langue.

Résumé:
Pour le traitement automatique de la langue, l’instabilité des unités lexicales représente un défi considérable. Même si on fait l’inventaire de lexique et note les divers traits sémantiques et syntaxiques pour telle et telle unité, leur emploi se fait - en fin de compte - toujours au gré des locuteurs qui, eux, peuvent former, réformer voire déformer la langue et les mots à leurs propres fins et même sans s’en rendre compte. Dans cette dynamique lexicale, certaines unités sont repérées et répertoriées en tant que néologismes, d’autres pas. Dans cet exposé, nous allons voir comment les constructions nominales une mise en place, une mise en scène, une mise en boîte et d’autres de ce type reflètent bien cette dynamique, tout en posant des inconvénients et difficultés par rapport aux notions ‘néologie’ et ‘productivité lexicale’.

Affiche , Présentation, Exemplier .

- Vendredi 5 décembre 2008 de 11h à 12h15
Pierre Lison, Universität des Saarlandes, Saarbrücken, Germany.
Vers la conception de robots conversationnels.

Résumé:
Est-il possible de concevoir des robots capables d'interagir avec des êtres humains au moyen de langues naturelles ? Plus précisément, est-il possible de rendre un robot capable de comprendre la signification d'un dialogue parlé, et de participer lui-même à ce dialogue, en contribuant à l'interaction de manière pertinente?
Dans cet exposé, nous présentons les questions fondamentales qui sont abordées dans le cadre d'interactions hommes-robots. Nous décrivons l'architecture générale de systèmes de dialogue pour des robots parlants, ainsi que les difficultés rencontrées dans le développement de tels systèmes.

Nous portons en particulier notre attention sur les relations que ce domaine de recherche entretient avec les sciences cognitives, la philosophie du langage, et bien sûr la linguistique.

Affiche , support de la présentation .

Mémoire complet.

- Vendredi 6 février 2009 de 11h à 12h15
Benoît Crabbé, Université Paris 7, France.
Analyse syntaxique statistique du Français : constituants et dépendances

Résumé
L'exposé traitera de l'analyse syntaxique statistique de textes journalistiques Français en constituants et en dépendances.
Nous commencerons par présenter le corpus utilisé (le corpus arboré de LLF/Paris 7)
Après un exposé des motivations sous-jacentes à la démarche, nous présenterons et motiverons une architecture d'analyse ainsi que les algorithmes utilisés.
L'analyse en constituants est réalisée par un algorithme d'apprentissage semi-supervisé reposant sur un calcul d'annotations latentes.
L'annotation fonctionnelle est réalisée en pipeline de l'analyse en constituants par des machines à vecteurs support.
On terminera en montrant comment extraire des dépendances des analyses, en présentant divers résultats d'évaluation et en indiquant les limitations techniques et formelles de l'approche présentée.

Affiche , support de la présentation .

- Vendredi 20 février 2009 de 11h à 12h15
Joël Van Hoolandt, KPMG, Belgique.
La gestion des connaissances dans un Big Four: retour d'expérience et mise en pratique.

Résumé:
L’exposé visera à présenter une vue d’ensemble reprenant les différents aspects de gestion des connaissances mis en place chez KPMG en Belgique depuis dix ans. Après une rapide introduction de l’entreprise et de ses départements, nous détaillerons les solutions mises en place afin de répondre aux attentes de ce groupe concernant sa gestion de l’information. Enfin, nous conclurons l’exposé par une session de questions / réponses, ainsi que la présentation de certaines sources d’information utilisées au quotidien, là où les recherches en linguistique offrent des perspectives nouvelles.

Affiche , support de la présentation .

- Vendredi 6 mars 2009 de 11h à 12h15
Stéphanie Weiser, Université Paris 10, France.
Pages Web touristiques : repérage automatique d'informations temporelles et comparaison avec guides touristiques papier

Résumé:
Dans le cadre de la réalisation d'un portail touristique sur Internet, les expressions temporelles sont primordiales. Elles ont des caractéristiques précises : elles ont une visée informative et sont assez spécifiques. Notre travail consiste à extraire ces informations des pages Web et à les annoter afin d'alimenter une base de connaissance. Après avoir caractérisé les informations que nous voulons détecter, nous verrons les difficultés qui peuvent se poser, au moment de l'extraction ou de l'annotation.

Sur un plan technique nous présenterons notre méthode d'extraction, et les transducteurs qui ont été réalisés à l'aide d'Unitex pour les besoins du projet.

Sur un plan théorique, nous ferons une étude comparative des expressions temporelles touristiques sur Internet et dans les guides touristiques papier. Nous étudierons également la façon dont le temps est représenté sur le Web : informations sans cesse actualisées, dates relatives, etc.

Affiche , support de la présentation .

- Vendredi 20 mars 2009 de 11h à 12h15
Anne-Sophie Gasser, Acapela Group, Belgique.
Synthèse vocale: nouveaux développements

Résumé:
Lors de cet exposé, Anne-Sophie Gasser nous présentera une brève introduction générale à la synthèse vocale. Elle détaillera ensuite les nouveautés sur lesquelles son équipe travaille au sein d'Acapela Group: synthèse émotionnelle, Acapela TV, création de voix à la demande.

Affiche , support de la présentation .

- Vendredi 24 avril 2009
Fiammetta Namer, UMR « ATILF » et Université de Nancy2, France.
Morphologie, sens lexical et TAL : ou comment définir automatiquement le sens des néologismes construits

Résumé:
Cet exposé présente DériF (« Dérivation en Français »), un système d’analyse automatique du vocabulaire morphologiquement construit du français (Namer, 2005). La présentation se focalise sur l’usage de cet analyseur dans la prédiction :
(1) de la définition de noms, verbes et adjectifs inconnus du vocabulaire général, calculée en fonction du sens de la base morphologique de ces lexèmes inconnus, ainsi que
(2) des informations que la morphologie est capable d’affecter aux lexèmes qu’elle met en relation (transitivité des verbes, nature sémantique des noms …) (Namer, 2002).

Résumé complet , Affiche , support de la présentation .

> Autres séminaires :

Séminaire du LADL (Univ. Marne-la-Vallée)
Séminaire du LLI (Univ. Paris 13)
Séminaire du Talana (Univ. Paris 7)