Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan (Converting POS-tag and Lemma Annotations into the Universal Dependencies Format : A Case Study on Alsatian and Occitan )

Aleksandra Miletić, Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat, Marianne Vergez-Couret


Abstract
Cet article présente un retour d’expérience sur la transformation de corpus annotés pour l’alsacien et l’occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l’accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l’annotation.
Anthology ID:
2019.jeptalnrecital-court.29
Volume:
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Month:
7
Year:
2019
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
427–436
Language:
French
URL:
https://www.aclweb.org/anthology/2019.jeptalnrecital-court.29
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2019.jeptalnrecital-court.29.pdf