Delphine Battistelli


2020

pdf bib
Age Recommendation for Texts
Alexis Blandin | Gwénolé Lecorvé | Delphine Battistelli | Aline Étienne
Proceedings of the 12th Language Resources and Evaluation Conference

The understanding of a text by a reader or listener is conditioned by the adequacy of the text’s characteristics with the person’s capacities and knowledge. This adequacy is critical in the case of a child since her/his cognitive and linguistic skills are still under development. Hence, in this paper, we present and study an original natural language processing (NLP) task which consists in predicting the age from which a text can be understood by someone. To do so, this paper first exhibits features derived from the psycholinguistic domain, as well as some coming from related NLP tasks. Then, we propose a set of neural network models and compare them on a dataset of French texts dedicated to young or adult audiences. To circumvent the lack of data, we study the idea to predict ages at the sentence level. The experiments first show that the sentence-based age recommendations can be efficiently merged to predict text-based recommendations. Then, we also demonstrate that the age predictions returned by our best model are better than those provided by psycholinguists. Finally, the paper investigates the impact of the various features used in these results.

pdf bib
Recommandation d’âge pour des textes (Age recommendation for texts)
Alexis Blandin | Gwénolé Lecorvé | Delphine Battistelli | Aline Étienne
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Cet article étudie une première tentative pour prédire une recommandation d’âge estimant à partir de quand un enfant pourrait comprendre un texte donné. À ce titre, nous présentons d’abord des descripteurs issus de divers domaines scientifiques, puis proposons différentes architectures de réseaux de neurones et les comparons sur un ensemble de données textuelles en français, dédiées à des publics jeune ou adulte. Pour contourner la faible quantité de données de ce type, nous étudions l’idée de prédire les âges au niveau de la phrase. Les expériences montrent que cette hypothèse, quoique forte, conduit d’ores et déjà à de bons résultats, meilleurs que ceux fournis par des experts psycholinguistes, y compris lorsque les phrases isolées sont remplacées par textes complets.

pdf bib
L’expression des émotions dans les textes pour enfants : constitution d’un corpus annoté (Expressing emotions in texts for children: constitution of an annotated corpus)
Aline Étienne | Delphine Battistelli | Gwénolé Lecorvé
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Cet article présente une typologie de divers modes d’expression linguistique des émotions, le schéma d’annotation sous Glozz qui implémente cette typologie et un corpus de textes journalistiques pour enfants annoté à l’aide de ce schéma. Ces travaux préliminaires s’insèrent dans le contexte d’une étude relative au développement des capacités langagières des enfants, en particulier de leur capacité à comprendre un texte selon des critères émotionnels.

pdf bib
Mama/Papa, Is this Text for Me?
Rashedur Rahman | Gwénolé Lecorvé | Aline Étienne | Delphine Battistelli | Nicolas Béchet | Jonathan Chevelu
Proceedings of the 28th International Conference on Computational Linguistics

Children have less linguistic skills than adults, which makes it more difficult for them to understand some texts, for instance when browsing the Internet. In this context, we present a novel method which predicts the minimal age from which a text can be understood. This method analyses each sentence of a text using a recurrent neural network, and then aggregates this information to provide the text-level prediction. Different approaches are proposed and compared to baseline models, at sentence and text levels. Experiments are carried out on a corpus of 1, 500 texts and 160K sentences. Our best model, based on LSTMs, outperforms state-of-the-art results and achieves mean absolute errors of 1.86 and 2.28, at sentence and text levels, respectively.

2018

pdf bib
Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)
Gwénolé Lecorvé | Hugo Ayats | Fournier Benoît | Jade Mekki | Jonathan Chevelu | Delphine Battistelli | Nicolas Béchet
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.

pdf bib
Identification de descripteurs pour la caractérisation de registres (Feature identification for register characterization)
Jade Mekki | Delphine Battistelli | Gwénolé Lecorvé | Nicolas Béchet
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

L’article présente une étude des descripteurs linguistiques pour la caractérisation d’un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d’un état de l’art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.

2016

pdf bib
Covering various Needs in Temporal Annotation: a Proposal of Extension of ISO TimeML that Preserves Upward Compatibility
Anaïs Lefeuvre-Halftermeyer | Jean-Yves Antoine | Alain Couillault | Emmanuel Schang | Lotfi Abouda | Agata Savary | Denis Maurel | Iris Eshkol | Delphine Battistelli
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

This paper reports a critical analysis of the ISO TimeML standard, in the light of several experiences of temporal annotation that were conducted on spoken French. It shows that the norm suffers from weaknesses that should be corrected to fit a larger variety of needs inNLP and in corpus linguistics. We present our proposition of some improvements of the norm before it will be revised by the ISO Committee in 2017. These modifications concern mainly (1) Enrichments of well identified features of the norm: temporal function of TIMEX time expressions, additional types for TLINK temporal relations; (2) Deeper modifications concerning the units or features annotated: clarification between time and tense for EVENT units, coherence of representation between temporal signals (the SIGNAL unit) and TIMEX modifiers (the MOD feature); (3) A recommendation to perform temporal annotation on top of a syntactic (rather than lexical) layer (temporal annotation on a treebank).

pdf bib
Fouille de motifs et CRF pour la reconnaissance de symptômes dans les textes biomédicaux (Pattern mining and CRF for symptoms recognition in biomedical texts)
Pierre Holat | Nadi Tomeh | Thierry Charnois | Delphine Battistelli | Marie-Christine Jaulent | Jean-Philippe Métivier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Dans cet article, nous nous intéressons à l’extraction d’entités médicales de type symptôme dans les textes biomédicaux. Cette tâche est peu explorée dans la littérature et il n’existe pas à notre connaissance de corpus annoté pour entraîner un modèle d’apprentissage. Nous proposons deux approches faiblement supervisées pour extraire ces entités. Une première est fondée sur la fouille de motifs et introduit une nouvelle contrainte de similarité sémantique. La seconde formule la tache comme une tache d’étiquetage de séquences en utilisant les CRF (champs conditionnels aléatoires). Nous décrivons les expérimentations menées qui montrent que les deux approches sont complémentaires en termes d’évaluation quantitative (rappel et précision). Nous montrons en outre que leur combinaison améliore sensiblement les résultats.

pdf bib
Appariement d’articles en ligne et de vidéos : stratégies de sélection et méthodes d’évaluation (Pairing On-line News Articles to Videos : Selection Strategies and Evaluation Methods)
Adèle Désoyer | Delphine Battistelli | Jean-Luc Minel
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article, nous proposons une méthode d’appariement de contenus d’actualité multimédias, considérant les exigences à la fois sémantiques et temporelles du besoin d’information. La pertinence d’une vidéo pour un article de presse est mesurée par deux indices, l’un saisissant la similarité de leurs contenus, l’autre la cohérence de leurs dates d’édition. Nous présentons également une méthodologie d’évaluation s’affranchissant des standards comparant les résultats du système à des résultats de référence, en soumettant les paires de documents proposées automatiquement à un panel d’utilisateurs chargé de juger de leur pertinence.

2014

pdf bib
Symptom extraction issue
Laure Martin | Delphine Battistelli | Thierry Charnois
Proceedings of BioNLP 2014

2013

pdf bib
Analyzing modal and enunciative discursive heterogeneity: how to combine semantic resources and a syntactic parser analysis
Delphine Battistelli | Marine Damiani
Proceedings of the IWCS 2013 Workshop on Annotation of Modal Meanings in Natural Language (WAMM)

pdf bib
Enunciative and modal variations in newswire texts in French: From guideline to automatic annotation
Marine Damiani | Delphine Battistelli
Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse

2010

pdf bib
Resources for Calendar Expressions Semantic Tagging and Temporal Navigation through Texts
Charles Teissèdre | Delphine Battistelli | Jean-Luc Minel
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)

The linguistic resources presented in this paper are designed for the recognition and semantic tagging of calendar expressions in French. While existing resources generally put the emphasis on describing calendar bases pointed out by calendar expressions (which are considered as named entities), our approach tries to explicit how references to calendar are linguistically built up, taking into account not only the calendar bases but as well the prepositions and units that operate on them, as they provide valuable information on how texts refer to the calendar. The modelling of these expressions led us to consider calendar expressions as a conjunction of operators interacting with temporal references. Though the resources aim to be generic and easily reusable, we illustrate the interest of our approach by using the resources output to feed a text navigation tool that is currently being improved, in order to offer users a way of temporally progressing or navigating in texts.

2008

pdf bib
Representing and Visualizing Calendar Expressions in Texts
Delphine Battistelli | Javier Couto | Jean-Luc Minel | Sylviane R. Schwer
Semantics in Text Processing. STEP 2008 Conference Proceedings