Évaluation intrinsèque et extrinsèque du nettoyage de pages Web

Gaël Lejeune, Romain Brixtel, Charlotte Lecluze


Abstract
Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.
Anthology ID:
2015.jeptalnrecital-court.15
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2015
Address:
Caen, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
95–101
Language:
URL:
https://www.aclweb.org/anthology/2015.jeptalnrecital-court.15
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2015.jeptalnrecital-court.15.pdf