Apprentissage automatique d’un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC

Adèle Désoyer, Frédéric Landragin, Isabelle Tellier


Abstract
Cet article présente CROC 1 (Coreference Resolution for Oral Corpus), un premier système de résolution des coréférences en français reposant sur des techniques d’apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l’état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l’apprentissage, et nous présentons un ensemble d’expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l’état de l’art des systèmes conçus pour l’écrit. Nous concluons alors en donnant des perspectives sur la réalisation d’un système end-to-end valable à la fois pour l’oral transcrit et l’écrit.
Anthology ID:
2015.jeptalnrecital-court.19
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2015
Address:
Caen, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
123–129
Language:
URL:
https://www.aclweb.org/anthology/2015.jeptalnrecital-court.19
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2015.jeptalnrecital-court.19.pdf