Nicolas Ballier


2020

pdf bib
The Learnability of the Annotated Input in NMT Replicating (Vanmassenhove and Way, 2018) with OpenNMT
Nicolas Ballier | Nabil Amari | Laure Merat | Jean-Baptiste Yunès
Proceedings of the 12th Language Resources and Evaluation Conference

In this paper, we reproduce some of the experiments related to neural network training for Machine Translation as reported in (Vanmassenhove and Way, 2018). They annotated a sample from the EN-FR and EN-DE Europarl aligned corpora with syntactic and semantic annotations to train neural networks with the Nematus Neural Machine Translation (NMT) toolkit. Following the original publication, we obtained lower BLEU scores than the authors of the original paper, but on a more limited set of annotations. In the second half of the paper, we try to analyze the difference in the results obtained and suggest some methods to improve the results. We discuss the Byte Pair Encoding (BPE) used in the pre-processing phase and suggest feature ablation in relation to the granularity of syntactic and semantic annotations. The learnability of the annotated input is discussed in relation to existing resources for the target languages. We also discuss the feature representation likely to have been adopted for combining features.

pdf bib
A Manually Annotated Resource for the Investigation of Nasal Grunts
Aurélie Chlébowski | Nicolas Ballier
Proceedings of the 12th Language Resources and Evaluation Conference

This paper presents an annotation framework for nasal grunts of the whole French CID corpus (Bertrand et al., 2008). The acoustic components under scrutiny are justified and the annotation guidelines are described. We carefully characterise the acoustic cues and visual cues followed by the annotator, especially for non-modal phonation types. The conventions followed for the annotation of interactional and positional properties of grunts are explained. The resulting datasets after data extraction with Praat scripts (Boersma and Weenink, 2019) are analysed with R (R Core Team, 2017), focusing on duration. We analyse the effect of non-modal phonation (especially ingressive phonation) on duration and discuss a specialisation of grunts observed in the CID for grunts with ingressive phonation. The more general aim of this research is to establish putative core and additive properties of grunts and a tentative typology of grunts in spoken interactions.

pdf bib
C’est “mm-hm, oui” ou “mm-hm, non” ? Propositions pour une grammaire des composantes acoustiques des interactions nasalisées (A modest proposal for the pragmatic of nasal grunts in the CID corpus)
Aurélie Chlébowski | Nicolas Ballier
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Cet article se propose d’envisager l’existence d’une grammaire spécifique aux interactions nasalisées (Chlébowski et Ballier, 2015). Notre proposition se fonde sur une annotation des composantes acoustiques de cette sous-catégorie de sons non-lexicaux (Ward, 2006) dans le corpus CID (Bertrand et al., 2008). Nous voudrions présenter les contraintes combinatoires et régularités qui semblent s’appliquer à ces composantes acoustiques, ainsi que discuter leur structuration. Les résultats préliminaires de l’analyse des composantes acoustiques semblent suggérer des plages de valeurs par défaut pour les réalisations des IN (notamment pour la durée). La violation de ces usages peut donner lieu à une analyse de type gricienne d’implicature.

pdf bib
Un prototype en ligne pour la prédiction du niveau de compétence en anglais des productions écrites (A prototype for web-based prediction of English proficiency levels in writings)
Thomas Gaillat | Nicolas Ballier | Annanda Sousa | Manon Bouyé | Andrew Simpkin | Bernardo Stearns | Manel Zarrouk
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux

Cet article décrit un prototype axé sur la prédiction du niveau de compétence des apprenants de l’anglais. Le système repose sur un modèle d’apprentissage supervisé, couplé à une interface web.

pdf bib
From Linguistic Research Projects to Language Technology Platforms: A Case Study in Learner Data
Annanda Sousa | Nicolas Ballier | Thomas Gaillat | Bernardo Stearns | Manel Zarrouk | Andrew Simpkin | Manon Bouyé
Proceedings of the 1st International Workshop on Language Technology Platforms

This paper describes the workflow and architecture adopted by a linguistic research project. We report our experience and present the research outputs turned into resources that we wish to share with the community. We discuss the current limitations and the next steps that could be taken for the scaling and development of our research project. Allying NLP and language-centric AI, we discuss similar projects and possible ways to start collaborating towards potential platform interoperability.

2016

pdf bib
Variabilité des syllabes réalisées par des apprenants de l’anglais (Analysing syllable variability in a French learner corpus of English)
Nicolas Ballier | Philippe Martin | Maelle Amand
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Cette contribution analyse la segmentation syllabique des francophones du corpus d’apprenant d’anglais ANGLISH (Tortel 2009). A partir d’une méthode d’alignement par alignement forcé, on montre la pertinence d’une analyse de l’interlangue fondée sur la comparaison des durées des syllabes. La comparaison des réalisations est ici centrée sur une typologie des syllabes fondée sur des propriétés distributionnelles, accentuelles et où l’interlangue tient sa place (risques d’isosyllabicité les plus manifestes pour les réalisations des francophones). La variabilité des réalisations des syllabes est appréciée en fonction des propriétés positionnelles, accentuelles et structurelles des syllabes. L’étude démontre l’intérêt d’une approche fonctionnelle des syllabes, plus pertinente que les intervalles interconsonantiques et intervocaliques inspirés de Ramus et al. (1999) pour la discrimination du niveau des locuteurs.