Impact de la structure logique des documents sur les modèles distributionnels : expérimentations sur le corpus TALN (Impact of document structure on distributional semantics models: a case study on NLP research articles )

Ludovic Tanguy, Cécile Fabre, Yoann Bard


Abstract
Nous présentons une expérience visant à mesurer en quoi la structure logique d’un document impacte les représentations lexicales dans les modèles de sémantique distributionnelle. En nous basant sur des documents structurés (articles de recherche en TAL) nous comparons des modèles construits sur des corpus obtenus par suppression de certaines parties des textes du corpus : titres de section, résumés, introductions et conclusions. Nous montrons que malgré des différences selon les parties et le lexique pris en compte, ces zones réputées particulièrement informatives du contenu d’un article ont un impact globalement moins significatif que le reste du texte sur la construction du modèle.
Anthology ID:
2020.jeptalnrecital-taln.10
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
122–135
Language:
French
URL:
https://www.aclweb.org/anthology/2020.jeptalnrecital-taln.10
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2020.jeptalnrecital-taln.10.pdf