Hervé Blanchon

Also published as: Herve Blanchon


2018

pdf bib
Traduction automatique de corpus en anglais annotés en sens pour la désambiguïsation lexicale d’une langue moins bien dotée, l’exemple de l’arabe (Automatic Translation of English Sense Annotated Corpora for Word Sense Disambiguation of a Less Well-endowed Language, the Example of Arabic)
Marwa Hadj Salah | Loïc Vial | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les corpus annotés en sens sont des ressources cruciales pour la tâche de désambiguïsation lexicale (Word Sense Disambiguation). La plupart des langues n’en possèdent pas ou trop peu pour pouvoir construire des systèmes robustes. Nous nous intéressons ici à la langue arabe et présentons 12 corpus annotés en sens, fabriqués automatiquement à partir de 12 corpus en langue anglaise. Nous évaluons la qualité de nos systèmes de désambiguïsation grâce à un corpus d’évaluation en arabe nouvellement disponible.

pdf bib
Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l’arabe. Elle reste peu connue et utilisée certainement parce que le projet s’est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l’accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s’agit d’une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l’alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu’elle deviendra un standard pour l’évaluation de la désambiguïsation lexicale de l’arabe.

2016

pdf bib
Word2Vec vs DBnary: Augmenting METEOR using Vector Representations or Lexical Resources?
Christophe Servan | Alexandre Bérard | Zied Elloumi | Hervé Blanchon | Laurent Besacier
Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers

This paper presents an approach combining lexico-semantic resources and distributed representations of words applied to the evaluation in machine translation (MT). This study is made through the enrichment of a well-known MT evaluation metric: METEOR. METEOR enables an approximate match (synonymy or morphological similarity) between an automatic and a reference translation. Our experiments are made in the framework of the Metrics task of WMT 2014. We show that distributed representations are a good alternative to lexico-semanticresources for MT evaluation and they can even bring interesting additional information. The augmented versions of METEOR, using vector representations, are made available on our Github page.

pdf bib
Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l’évaluation en traduction automatique (Word2Vec vs DBnary or how to bring back together vector representations and lexical resources ? A case study for machine translation evaluation)
Christophe Servan | Zied Elloumi | Hervé Blanchon | Laurent Besacier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article présente une approche associant réseaux lexico-sémantiques et représentations distribuées de mots appliquée à l’évaluation de la traduction automatique. Cette étude est faite à travers l’enrichissement d’une métrique bien connue pour évaluer la traduction automatique (TA) : METEOR. METEOR permet un appariement approché (similarité morphologique ou synonymie) entre une sortie de système automatique et une traduction de référence. Nos expérimentations s’appuient sur la tâche Metrics de la campagne d’évaluation WMT 2014 et montrent que les représentations distribuées restent moins performantes que les ressources lexico-sémantiques pour l’évaluation en TA mais peuvent néammoins apporter un complément d’information intéressant à ces dernières.

pdf bib
Amélioration de la traduction automatique d’un corpus annoté (Improvement of the automatic translation of an annotated corpus)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de 2,9 points en terme de score F1 sur une tâche de désambiguïsation lexicale ce qui prouve l’efficacité de notre méthode.

2015

pdf bib
Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dotée
Mohammad Nasiruddin | Andon Tchechmedjiev | Hervé Blanchon | Didier Schwab
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons une méthode pour créer rapidement un système de désambiguïsation lexicale (DL) pour une langue L peu dotée pourvu que l’on dispose d’un système de traduction automatique statistique (TAS) d’une langue riche en corpus annotés en sens (ici l’anglais) vers L. Il est, en effet, plus facile de disposer des ressources nécessaires à la création d’un système de TAS que des ressources dédiées nécessaires à la création d’un système de DL pour la langue L. Notre méthode consiste à traduire automatiquement un corpus annoté en sens vers la langue L, puis de créer le système de désambiguïsation pour L par des méthodes supervisées classiques. Nous montrons la faisabilité de la méthode et sa généricité en traduisant le SemCor, un corpus en anglais annoté grâce au Princeton WordNet, de l’anglais vers le bangla et de l’anglais vers le français. Nous montrons la validité de l’approche en évaluant les résultats sur la tâche de désambiguïsation lexicale multilingue de Semeval 2013.

2014

pdf bib
Word Sense Induction for Lexical Resource Enrichment (Induction de sens pour enrichir des ressources lexicales) [in French]
Mohammad Nasiruddin | Didier Schwab | Andon Tchechmedjiev | Gilles Sérasset | Hervé Blanchon
Proceedings of TALN 2014 (Volume 2: Short Papers)

2013

pdf bib
GETALP System : Propagation of a Lesk Measure through an Ant Colony Algorithm
Didier Schwab | Andon Tchechmedjiev | Jérôme Goulian | Mohammad Nasiruddin | Gilles Sérasset | Hervé Blanchon
Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013)

2012

pdf bib
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN
Georges Antoniadis | Hervé Blanchon | Gilles Sérasset
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

pdf bib
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 4: Invited Conferences
Laurent Besacier | Hervé Blanchon | Marie-Paule Jacques | Nathalie Vallée | Gilles Sérasset
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 4: Invited Conferences

pdf bib
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 5: Software Demonstrations
Laurent Besacier | Hervé Blanchon | Gilles Sérasset
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 5: Software Demonstrations

pdf bib
Collection of a Large Database of French-English SMT Output Corrections
Marion Potet | Emmanuelle Esperança-Rodier | Laurent Besacier | Hervé Blanchon
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

Corpus-based approaches to machine translation (MT) rely on the availability of parallel corpora. To produce user-acceptable translation outputs, such systems need high quality data to be efficiency trained, optimized and evaluated. However, building high quality dataset is a relatively expensive task. In this paper, we describe the data collection and analysis of a large database of 10.881 SMT translation output hypotheses manually corrected. These post-editions were collected using Amazon's Mechanical Turk, following some ethical guidelines. A complete analysis of the collected data pointed out a high quality of the corrections with more than 87 % of the collected post-editions that improve hypotheses and more than 94 % of the crowdsourced post-editions which are at least of professional quality. We also post-edited 1,500 gold-standard reference translations (of bilingual parallel corpora generated by professional) and noticed that 72 % of these translations needed to be corrected during post-edition. We computed a proximity measure between the differents kind of translations and pointed out that reference translations are as far from the hypotheses than from the corrected hypotheses (i.e. the post-editions). In light of these last findings, we discuss the adequation of text-based generated reference translations to train setence-to-sentence based SMT systems.

pdf bib
Ant Colony Algorithm for the Unsupervised Word Sense Disambiguation of Texts: Comparison and Evaluation
Didier Schwab | Jérôme Goulian | Andon Tchechmedjiev | Hervé Blanchon
Proceedings of COLING 2012

2011

pdf bib
The LIGA (LIG/LIA) Machine Translation System for WMT 2011
Marion Potet | Raphaël Rubino | Benjamin Lecouteux | Stéphane Huet | Laurent Besacier | Hervé Blanchon | Fabrice Lefèvre
Proceedings of the Sixth Workshop on Statistical Machine Translation

pdf bib
Oracle-based Training for Phrase-based Statistical Machine Translation
Marion Potet | Emmanuelle Esperança-Rodier | Hervé Blanchon | Laurent Besacier
Proceedings of the 15th Annual conference of the European Association for Machine Translation

2010

pdf bib
The LIG Machine Translation System for WMT 2010
Marion Potet | Laurent Besacier | Hervé Blanchon
Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR

pdf bib
Ontology driven content extraction using interlingual annotation of texts in the OMNIA project
Achille Falaise | David Rouquet | Didier Schwab | Hervé Blanchon | Christian Boitet
Proceedings of the 4th Workshop on Cross Lingual Information Access

2008

pdf bib
SECTra_w.1: an Online Collaborative System for Evaluating, Post-editing and Presenting MT Translation Corpora
Cong-Phap Huynh | Christian Boitet | Hervé Blanchon
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

SECTra_w is a web-oriented system mainly dedicated to the evaluation of MT systems. After importing a source corpus, and possibly reference translations, one can call various MT systems, store their results, and have a collection of human judges perform subjective evaluation online (fluidity, adequacy). It is also possible to perform objective, task-oriented evaluation by letting humans post-edit the MT results, using a web translation editor, and measuring an edit distance and/or the post-editing time. The post-edited results can be added to the set of reference translations, or constitute it if there were no references. SECTra_w makes it possible to show not only tables of figures as results of an evaluation campaign, but also the real data (source, MT outputs, references, post-edited outputs), and to make the post-edition effort sensible by transforming the trace of the edit distance computation in an intuitive presentation, much like a “revision” presentation in Word. The system is written in java under Xwiki and uses the Ajax technique. It can handle large, multilingual and multimedia corpora: EuroParl, BTEC, ERIM (bilingual interpreted dialogues with audio and text), Unesco-B@bel, and a test corpus by France Telecom have been loaded together and used in tests.

2002

pdf bib
A Pattern-based Analyzer for French in the Context of Spoken Language Translation: First Prototype and Evaluation
Hervé Blanchon
COLING 2002: The 19th International Conference on Computational Linguistics

1994

pdf bib
Perspectives of DBMT for monolingual authors on the basis of LIDIA-1, an implemented mock-up
Herve Blanchon
COLING 1994 Volume 1: The 15th International Conference on Computational Linguistics

1992

pdf bib
A Solution for the Problem of Interactive Disambiguation
Herve Blanchon
COLING 1992 Volume 4: The 15th International Conference on Computational Linguistics