Nicolas Béchet


2020

pdf bib
Mama/Papa, Is this Text for Me?
Rashedur Rahman | Gwénolé Lecorvé | Aline Étienne | Delphine Battistelli | Nicolas Béchet | Jonathan Chevelu
Proceedings of the 28th International Conference on Computational Linguistics

Children have less linguistic skills than adults, which makes it more difficult for them to understand some texts, for instance when browsing the Internet. In this context, we present a novel method which predicts the minimal age from which a text can be understood. This method analyses each sentence of a text using a recurrent neural network, and then aggregates this information to provide the text-level prediction. Different approaches are proposed and compared to baseline models, at sentence and text levels. Experiments are carried out on a corpus of 1, 500 texts and 160K sentences. Our best model, based on LSTMs, outperforms state-of-the-art results and achieves mean absolute errors of 1.86 and 2.28, at sentence and text levels, respectively.

2018

pdf bib
EXPR at SemEval-2018 Task 9: A Combined Approach for Hypernym Discovery
Ahmad Issa Alaa Aldine | Mounira Harzallah | Giuseppe Berio | Nicolas Béchet | Ahmad Faour
Proceedings of The 12th International Workshop on Semantic Evaluation

In this paper, we present our proposed system (EXPR) to participate in the hypernym discovery task of SemEval 2018. The task addresses the challenge of discovering hypernym relations from a text corpus. Our proposal is a combined approach of path-based technique and distributional technique. We use dependency parser on a corpus to extract candidate hypernyms and represent their dependency paths as a feature vector. The feature vector is concatenated with a feature vector obtained using Wikipedia pre-trained term embedding model. The concatenated feature vector fits a supervised machine learning method to learn a classifier model. This model is able to classify new candidate hypernyms as hypernym or not. Our system performs well to discover new hypernyms not defined in gold hypernyms.

pdf bib
Two Multilingual Corpora Extracted from the Tenders Electronic Daily for Machine Learning and Machine Translation Applications.
Oussama Ahmia | Nicolas Béchet | Pierre-François Marteau
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

pdf bib
Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)
Gwénolé Lecorvé | Hugo Ayats | Fournier Benoît | Jade Mekki | Jonathan Chevelu | Delphine Battistelli | Nicolas Béchet
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.

pdf bib
Identification de descripteurs pour la caractérisation de registres (Feature identification for register characterization)
Jade Mekki | Delphine Battistelli | Gwénolé Lecorvé | Nicolas Béchet
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

L’article présente une étude des descripteurs linguistiques pour la caractérisation d’un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d’un état de l’art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.

2014

pdf bib
Music period detection of music collections using learning techniques (Détection de périodes musicales d’une collection de musique par apprentissage) [in French]
Rémy Kessler | Nicolas Béchet | Audrey Laplante | Dominic Forest
Proceedings of TALN 2014 (Volume 2: Short Papers)

2010

pdf bib
How to Expand Dictionaries by Web-Mining Techniques
Nicolas Béchet | Mathieu Roche
Proceedings of the 2nd Workshop on Cognitive Aspects of the Lexicon