Beatriz Sanchez Cardenas


2015

pdf bib
Caractériser les discours académiques et de vulgarisation : quelles propriétés ?
Amalia Todirascu | Beatriz Sanchez Cardenas
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’article présente une étude des propriétés linguistiques (lexicales, morpho-syntaxiques, syntaxiques) permettant la classification automatique de documents selon leur genre (articles scientifiques et articles de vulgarisation), dans deux domaines différentes (médecine et informatique). Notre analyse, effectuée sur des corpus comparables en genre et en thèmes disponibles en français, permet de valider certaines propriétés identifiées dans la littérature comme caractéristiques des discours académiques ou de vulgarisation scientifique. Les premières expériences de classification évaluent l’influence de ces propriétés pour l’identification automatique du genre pour le cas spécifique des textes scientifiques ou de vulgarisation.