Etiquetage morpho-syntaxique de tweets avec des CRF

Tian Tian, Dinarelli Marco, Tellier Isabelle, Cardoso Pedro


Abstract
Nous nous intéressons dans cet article à l’apprentissage automatique d’un étiqueteur mopho-syntaxique pour les tweets en anglais. Nous proposons tout d’abord un jeu d’étiquettes réduit avec 17 étiquettes différentes, qui permet d’obtenir de meilleures performances en exactitude par rapport au jeu d’étiquettes traditionnel qui contient 45 étiquettes. Comme nous disposons de peu de tweets étiquetés, nous essayons ensuite de compenser ce handicap en ajoutant dans l’ensemble d’apprentissage des données issues de textes bien formés. Les modèles mixtes obtenus permettent d’améliorer les résultats par rapport aux modèles appris avec un seul corpus, qu’il soit issu de Twitter ou de textes journalistiques.
Anthology ID:
2015.jeptalnrecital-court.43
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2015
Address:
Caen, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
291–297
Language:
URL:
https://www.aclweb.org/anthology/2015.jeptalnrecital-court.43
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2015.jeptalnrecital-court.43.pdf