Gabriel Illouz


2020

pdf bib
Simplification automatique de texte dans un contexte de faibles ressources (Automatic Text Simplification : Approaching the Problem in Low Resource Settings for French)
Sadaf Abdul Rauf | Anne-Laure Ligozat | Francois Yvon | Gabriel Illouz | Thierry Hamon
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

La simplification de textes a émergé comme un sous-domaine actif du traitement automatique des langues, du fait des problèmes pratiques et théoriques qu’elle permet d’aborder, ainsi que de ses nombreuses applications pratiques. Des corpus de simplification sont nécessaires pour entrainer des systèmes de simplification automatique ; ces ressources sont toutefois rares et n’existent que pour un petit nombre de langues. Nous montrons ici que dans un contexte où les ressources pour la simplification sont rares, il reste néanmoins possible de construire des systèmes de simplification, en ayant recours à des corpus synthétiques, par exemple obtenus par traduction automatique, et nous évaluons diverses manières de les constituer.

pdf bib
La réécriture monolingue ou bilingue facilite-t-elle la compréhension ? (Does monolingual or bilingual rewriting facilitate comprehension ?)
Yuming Zhai | Gabriel Illouz | Anne Vilnat
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

La capacité en compréhension écrite est importante à développer pour les apprenants de langues étrangères. Cet article présente une expérience pour vérifier si les paraphrases fournies en contexte facilitent la compréhension des apprenants. Les paraphrases ont été extraites automatiquement d’un corpus parallèle bilingue. Suite à l’analyse des résultats, nous proposons des pistes d’enrichissement d’un outil conçu préalablement, pour automatiser la sélection de réécritures dans un futur travail, tout en caractérisant mieux différents types de réécritures.

pdf bib
Detecting Non-literal Translations by Fine-tuning Cross-lingual Pre-trained Language Models
Yuming Zhai | Gabriel Illouz | Anne Vilnat
Proceedings of the 28th International Conference on Computational Linguistics

Human-generated non-literal translations reflect the richness of human languages and are sometimes indispensable to ensure adequacy and fluency. Non-literal translations are difficult to produce even for human translators, especially for foreign language learners, and machine translations are still on the way to simulate human ones on this aspect. In order to foster the study on appropriate and creative non-literal translations, automatically detecting them in parallel corpora is an important step, which can benefit downstream NLP tasks or help to construct materials to teach translation. This article demonstrates that generic sentence representations produced by a pre-trained cross-lingual language model could be fine-tuned to solve this task. We show that there exists a moderate positive correlation between the prediction probability of being human translation and the non-literal translations’ proportion in a sentence. The fine-tuning experiments show an accuracy of 80.16% when predicting the presence of non-literal translations in a sentence and an accuracy of 85.20% when distinguishing literal and non-literal translations at phrase level. We further conduct a linguistic error analysis and propose directions for future work.

2019

pdf bib
Classification automatique des procédés de traduction (Automatic Classification of Translation Processes)
Yuming Zhai | Gabriel Illouz | Anne Vilnat
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

En vue de distinguer la traduction littérale des autres procédés de traduction, des traducteurs et linguistes ont proposé plusieurs typologies pour caractériser les différents procédés de traduction, tels que l’équivalence idiomatique, la généralisation, la particularisation, la modulation sémantique, etc. En revanche, les techniques d’extraction de paraphrases à partir de corpus parallèles bilingues n’ont pas exploité ces informations. Dans ce travail, nous proposons une classification automatique des procédés de traduction en nous basant sur des exemples annotés manuellement dans un corpus parallèle (anglais-français) de TED Talks. Même si le jeu de données est petit, les résultats expérimentaux sont encourageants, et les expériences montrent la direction à suivre dans les futurs travaux.

2016

pdf bib
Évaluation de l’apprentissage incrémental par analogie (Incremental Learning From Scratch Using Analogical Reasoning )
Vincent Letard | Gabriel Illouz | Sophie Rosset
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article examine l’utilisation du raisonnement analogique dans le contexte de l’apprentissage incrémental. Le problème d’apprentissage sous-jacent développé est le transfert de requêtes formulées en langue naturelle vers des commandes dans un langage de programmation. Nous y explorons deux questions principales : Comment se comporte le raisonnement par analogie dans le contexte de l’apprentissage incrémental ? De quelle manière la séquence d’apprentissage influence-t-elle la performance globale ? Pour y répondre, nous proposons un protocole expérimental simulant deux utilisateurs et différentes séquences d’apprentissage. Nous montrons que l’ordre dans la séquence d’apprentissage incrémental n’a d’influence notable que sous des conditions spécifiques. Nous constatons également la complémentarité de l’apprentissage incrémental avec l’analogie pour un nombre d’exemples d’apprentissage minimal.

2014

pdf bib
A Mapping-Based Approach for General Formal Human Computer Interaction Using Natural Language
Vincent Letard | Sophie Rosset | Gabriel Illouz
Proceedings of the ACL 2014 Student Research Workshop

pdf bib
Multiple Choice Question Corpus Analysis for Distractor Characterization
Van-Minh Pho | Thibault André | Anne-Laure Ligozat | Brigitte Grau | Gabriel Illouz | Thomas François
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

In this paper, we present a study of MCQ aiming to define criteria in order to automatically select distractors. We are aiming to show that distractor editing follows rules like syntactic and semantic homogeneity according to associated answer, and the possibility to automatically identify this homogeneity. Manual analysis shows that homogeneity rule is respected to edit distractors and automatic analysis shows the possibility to reproduce these criteria. These ones can be used in future works to automatically select distractors, with the combination of other criteria.

2013

pdf bib
LIMSI’s participation to the 2013 shared task on Native Language Identification
Thomas Lavergne | Gabriel Illouz | Aurélien Max | Ryo Nagata
Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications

2012

pdf bib
Validation sur le Web de reformulations locales: application à la Wikipédia (Assisted Rephrasing for Wikipedia Contributors through Web-based Validation) [in French]
Houda Bouamor | Aurélien Max | Gabriel Illouz | Anne Vilnat
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

pdf bib
A contrastive review of paraphrase acquisition techniques
Houda Bouamor | Aurélien Max | Gabriel Illouz | Anne Vilnat
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

This paper addresses the issue of what approach should be used for building a corpus of sententential paraphrases depending on one's requirements. Six strategies are studied: (1) multiple translations into a single language from another language; (2) multiple translations into a single language from different other languages; (3) multiple descriptions of short videos; (4) multiple subtitles for the same language; (5) headlines for similar news articles; and (6) sub-sentential paraphrasing in the context of a Web-based game. We report results on French for 50 paraphrase pairs collected for all these strategies, where corpora were manually aligned at the finest possible level to define oracle performance in terms of accessible sub-sentential paraphrases. The differences observed will be used as criteria for motivating the choice of a given approach before attempting to build a new paraphrase corpus.

2011

pdf bib
Web-based Validation for Contextual Targeted Paraphrasing
Houda Bouamor | Aurélien Max | Gabriel Illouz | Anne Vilnat
Proceedings of the Workshop on Monolingual Text-To-Text Generation

2004

pdf bib
The Ongoing Evaluation Campaign of Syntactic Parsing of French: EASY
Anne Vilnat | Patrick Paroubek | Laura Monceaux | Isabelle Robba | Véronique Gendner | Gabriel Illouz | Michèle Jardino
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

This paper presents EASY (Evaluation of Analyzers of SYntax), an ongoing evaluation campaign of syntactic parsing of French, a subproject of EVALDA in the French TECHNOLANGUE program. After presenting the elaboration of the annotation formalism, we describe the corpus building steps, the annotation tools, the evaluation measures and finally, plans to produce a validated large linguistic resource, syntactically annotated

2003

pdf bib
PEAS, the first instantiation of a comparative framework for evaluating parsers of French
Véronique Gendner | Gabriel Illouz | Michèle Jardino | Laura Monceaux | Patrick Paroubek | Isabelle Robba | Anne Vilnat
10th Conference of the European Chapter of the Association for Computational Linguistics

2002

pdf bib
A Protocol for Evaluating Analyzers of Syntax (PEAS)
Véronique Gendner | Gabriel Illouz | Michèle Jardino | Laura Monceaux | Patrick Paroubek | Isabelle Robba | Anne Vilnat
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

2001

pdf bib
Terminological Variants for Document Selection and Question/Answer Matching
Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Gabriel Illouz | Christian Jacquemin
Proceedings of the ACL 2001 Workshop on Open-Domain Question Answering

2000

pdf bib
Sublanguage Dependent Evaluation: Toward Predicting NLP performances
Gabriel Illouz
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)

pdf bib
TyPTex: Inductive Typological Text Classification by Multivariate Statistical Analysis for NLP Systems Tuning/Evaluation
Helka Folch | Serge Heiden | Benoît Habert | Serge Fleury | Gabriel Illouz | Pierre Lafon | Julien Nioche | Sophie Prévost
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)