Mathieu Lafourcade


2020

pdf bib
Inferences for Lexical Semantic Resource Building with Less Supervision
Nadia Bebeshina | Mathieu Lafourcade
Proceedings of the 12th Language Resources and Evaluation Conference

Lexical semantic resources may be built using various approaches such as extraction from corpora, integration of the relevant pieces of knowledge from the pre-existing knowledge resources, and endogenous inference. Each of these techniques needs human supervision in order to deal with the potential errors, mapping difficulties or inferred candidate validation. We detail how various inference processes can be employed for the less supervised lexical semantic resource building. Our experience is based on the combination of different inference techniques for multilingual resource building and evaluation.

pdf bib
Réduire l’effort humain d’amélioration des ressources lexicales grâce aux inférences (Reducing the Knowledge Resource Enhancement Human Effort through Inferences)
Nadia Bebeshina | Mathieu Lafourcade
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Les inférences translingues représentent une piste intéressante pour la construction des ressources lexico-sémantiques multilingues. Cependant, la validation des éléments candidats nécessite un effort humain considérable. Nous décrivons une façon de construire des ressources lexico-sémantiques via des inférences monolingue et translingue. Son intérêt principal consiste à implémenter dans le contexte d’une ressource lexico-sémantique multilingue une approche où le processus de construction est un processus auto-apprenant car l’évaluation participe à la construction de celle-ci.

pdf bib
Recherche de similarité thématique en temps réel au sein d’un débat en ligne (Thematic similarity real-time computation during an online debate)
Mathieu Lafourcade | Noémie-Fleur Sandillon-Rezer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Cet article se focalise sur l’utilisation d’un large réseau lexico-sémantique français pour le calcul de similarité thématique d’interventions au cours d’un débat en ligne dans les lycées, proche du temps réel. Pour cela, notre système extrait des informations sémantiques du réseau et crée à la volée des vecteurs enrichis pour chaque fragment de texte. Les données récupérées sont contextualisées via un algorithme de propagation. Les vecteurs résultat permettent aux fragments de texte d’être comparés. Notre méthode aide à trouver les thématiques émergentes des débats et à identifier des clusters d’opinion. La contrainte temps réel nous force à sélectionner précisément les informations que nous incluons, aussi bien pour les temps de calcul des vecteurs créés que la qualité de ceux-ci.

pdf bib
DEFT 2020 - Extraction d’information fine dans les données cliniques : terminologies spécialisées et graphes de connaissance (Fine-grained Information Extraction in Clinical Data : Dedicated Terminologies and Knowledge Graphs )
Thomas Lemaitre | Camille Gosset | Mathieu Lafourcade | Namrata Patel | Guilhem Mayoral
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes

Nous présentons dans cet article notre approche à base de règles conçue pour répondre à la tâche 3 de la campagne d’évaluation DEFT 2020. Selon le type d’information à extraire, nous construisons (1) une terminologie spécialisée à partir de ressources médicales et (2) un graphe orienté basé sur les informations extraites de la base de connaissances généraliste et de grande taille - JeuxDeMots.

pdf bib
A Dataset for Anaphora Analysis in French Emails
Hani Guenoune | Kevin Cousot | Mathieu Lafourcade | Melissa Mekaoui | Cédric Lopez
Proceedings of the Third Workshop on Computational Models of Reference, Anaphora and Coreference

In 2019, about 293 billion emails were sent worldwide every day. They are a valuable source of information and knowledge for professionals. Since the 90’s, many studies have been done on emails and have highlighted the need for resources regarding numerous NLP tasks. Due to the lack of available resources for French, very few studies on emails have been conducted. Anaphora resolution in emails is an unexplored area, annotated resources are needed, at least to answer a first question: Does email communication have specifics that must be addressed to tackle the anaphora resolution task? In order to answer this question 1) we build a French emails corpus composed of 100 anonymized professional threads and make it available freely for scientific exploitation. 2) we provide annotations of anaphoric links in the email collection.

pdf bib
Game Design Evaluation of GWAPs for Collecting Word Associations
Mathieu Lafourcade | Le Brun Nathalie
Workshop on Games and Natural Language Processing

GWAP design might have a tremendous effect on its popularity of course but also on the quality of the data collected. In this paper, a comparison is undertaken between two GWAPs for building term association lists, namely JeuxDeMots and Quicky Goose. After comparing both game designs, the Cohen kappa of associative lists in various configurations is computed in order to assess likeness and differences of the data they provide.

2019

pdf bib
Inférence des relations sémantiques dans un réseau lexico-sémantique multilingue (Inferring semantic relations in a multilingual lexical semantic network)
Nadia Bebeshina-Clairet | Mathieu Lafourcade
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Les méthodes endogènes se trouvent au coeur de la construction des ressources de connaissance telles que les réseaux lexico-sémantiques. Dans le cadre de l’expérience décrite dans le présent article, nous nous focalisons sur les méthodes d’inférence des relations. Nous considérons, en particulier, les cas d’inférence des relations sémantiques et des raffinements de sens. Les différents mécanismes d’inférence des relations sémantiques y compris dans le contexte de polysémie de termes ont été décrits par Zarrouk (2015) pour le contexte monolingue. À notre connaissance, il n’existe pas de travaux concernant l’inférence des relations sémantiques et des raffinements dans le contexte d’amélioration d’une ressource multilingue.

pdf bib
Using a Lexical Semantic Network for the Ontology Building
Nadia Bebeshina-Clairet | Sylvie Despres | Mathieu Lafourcade
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019)

Building multilingual ontologies is a hard task as ontologies are often data-rich resources. We introduce an approach which allows exploiting structured lexical semantic knowledge for the ontology building. Given a multilingual lexical semantic (non ontological) resource and an ontology model, it allows mining relevant semantic knowledge and make the ontology building and enhancement process faster.

2018

pdf bib
Utilisation d’une base de connaissances de spécialité et de sens commun pour la simplification de comptes-rendus radiologiques (Radiological text simplification using a general knowledge base)
Lionel Ramadier | Mathieu Lafourcade
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Dans le domaine médical, la simplification des textes est à la fois une tâche souhaitable pour les patients et scientifiquement stimulante pour le domaine du traitement automatique du langage naturel. En effet, les comptes rendus médicaux peuvent être difficile à comprendre pour les non spécialistes, essentiellement à cause de termes médicaux spécifiques (prurit, par exemple). La substitution de ces termes par des mots du langage courant peut aider le patient à une meilleure compréhension. Dans cet article, nous présentons une méthode de simplification dans le domaine médical (en français) basée sur un réseau lexico-sémantique. Nous traitons cette difficulté sémantique par le remplacement du terme médical difficile par un synonyme ou terme qui lui est lié sémantiquement à l’aide d’un réseau lexico-sémantique français. Nous présentons dans ce papier, une telle méthode ainsi que son évaluation.

pdf bib
JeuxDeLiens: Word Embeddings and Path-Based Similarity for Entity Linking using the French JeuxDeMots Lexical Semantic Network
Julien Plu | Kevin Cousot | Mathieu Lafourcade | Raphaël Troncy | Giuseppe Rizzo
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Entity linking systems typically rely on encyclopedic knowledge bases such as DBpedia or Freebase. In this paper, we use, instead, a French lexical-semantic network named JeuxDeMots to jointly type and link entities. Our approach combines word embeddings and a path-based similarity resulting in encouraging results over a set of documents from the French Le Monde newspaper.

2017

pdf bib
Parcourir, reconnaître et réfléchir. Combinaison de méthodes légères pour l’extraction de relations sémantiques (Browse, recognize and think)
Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La capture de relations sémantiques entre termes à partir de textes est un moyen privilégié de constituer/alimenter une base de connaissances, ressource indispensable pour l’analyse de textes. Nous proposons et évaluons la combinaison de trois méthodes de production de relations lexicosémantiques.

pdf bib
Si les souris étaient des reptiles, alors les reptiles pourraient être des mammifères ou Comment détecter les anomalies dans le réseau JDM ? (If mice were reptiles, then the reptiles could be mammals, or How to detect errors in a lexical network?)
Alain Joubert | Mathieu Lafourcade | Nathalie Le Brun
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

La correction des erreurs dans une collection de données est un problème délicat. Elle peut être réalisée manuellement par un expert, ou en utilisant des méthodes de crowdsourcing, ou encore automatiquement au moyen d’algorithmes. Nous présentons ici des méthodes automatiques permettant de détecter les erreurs potentielles « secondaires » induites par les mécanismes automatiques d’inférences de relations, lorsqu’ils s’appuient sur des relations erronées « initiales » détectées manuellement. Des résultats encourageants, mesurés sur le réseau JeuxDeMots, nous invitent à envisager également des stratégies qui permettraient de détecter automatiquement les relations erronées « initiales », ce qui pourrait conduire à une détection automatique de la majorité des erreurs présentes dans le réseau.

pdf bib
Extracting semantic relations via the combination of inferences, schemas and cooccurrences
Mathieu Lafourcade | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Extracting semantic relations from texts is a good way to build and supply a knowledge base, an indispensable resource for text analysis. We propose and evaluate the combination of three ways of producing lexical-semantic relations.

pdf bib
If mice were reptiles, then reptiles could be mammals or How to detect errors in the JeuxDeMots lexical network?
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

Correcting errors in a data set is a critical issue. This task can be either hand-made by experts, or by crowdsourcing methods, or automatically done using algorithms. Although the rate of errors present in the JeuxDeMots network is rather low, it is important to reduce it. We present here automatic methods for detecting potential secondary errors that would result from automatic inference mechanisms when they rely on an initial error manually detected. Encouraging results also invite us to consider strategies that would automatically detect “erroneous” initial relations, which could lead to the automatic detection of the majority of errors in the network.

pdf bib
Ambiguss, a game for building a Sense Annotated Corpus for French
Mathieu Lafourcade | Nathalie Le Brun
IWCS 2017 — 12th International Conference on Computational Semantics — Short papers

pdf bib
Explicative Path Finding in a Semantic Network
Kévin Cousot | Mathieu Lafourcade
Proceedings of the Computing Natural Language Inference Workshop

pdf bib
Identifying Polysemous Words and Inferring Sense Glosses in a Semantic Network
Maxime Chapuis | Mathieu Lafourcade
Proceedings of the Computing Natural Language Inference Workshop

2016

pdf bib
Semantic Relation Extraction with Semantic Patterns Experiment on Radiology Reports
Mathieu Lafourcade | Lionel Ramadier
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

This work presents a practical system for indexing terms and relations from French radiology reports, called IMAIOS. In this paper, we present how semantic relations (causes, consequences, symptoms, locations, parts...) between medical terms can be extracted. For this purpose, we handcrafted some linguistic patterns from on a subset of our radiology report corpora. As semantic patterns (de (of)) may be too general or ambiguous, semantic constraints have been added. For instance, in the sentence néoplasie du sein (neoplasm of breast) the system knowing neoplasm as a disease and breast as an anatomical location, identify the relation as being a location: neoplasm r-lieu breast. An evaluation of the effect of semantic constraints is proposed.

pdf bib
Construire un lexique de sentiments par crowdsourcing et propagation (Building a sentiment lexicon through crowdsourcing and spreading)
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article présente une méthode de construction d’une ressource lexicale de sentiments/émotions. Son originalité est d’associer le crowdsourcing via un GWAP (Game With A Purpose) à un algorithme de propagation, les deux ayant pour support et source de données le réseau lexical JeuxDeMots. Nous décrivons le jeu permettant de collecter des informations de sentiments, ainsi que les principes et hypothèses qui sous-tendent le fonctionnement de l’algorithme qui les propage au sein du réseau. Enfin, nous donnons les résultats quantitatifs et expliquons les méthodes d’évaluation qualitative des données obtenues, à la fois par le jeu et par la propagation par l’algorithme. Ces méthodes incluent une comparaison avec Emolex, une autre ressource de sentiments/émotions.

pdf bib
Patrons sémantiques pour l’extraction de relations entre termes - Application aux comptes rendus radiologiques (Here the title in English)
Lionel Ramadier | Mathieu Lafourcade
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article nous nous intéressons à la tâche d’extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L’identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d’information, génération de résumé, etc). Nous proposons une approche fondée sur l’utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.

2015

pdf bib
Collecting and Evaluating Lexical Polarity with A Game With a Purpose
Mathieu Lafourcade | Alain Joubert | Nathalie Le Brun
Proceedings of the International Conference Recent Advances in Natural Language Processing

pdf bib
Medical imaging report indexing: enrichment of index through an algorithm of spreading over a lexico-semantic network
Mathieu Lafourcade | Lionel Ramadier
Proceedings of the International Conference Recent Advances in Natural Language Processing

pdf bib
Vous aimez ?...ou pas ? LikeIt, un jeu pour construire une ressource lexicale de polarité
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

En analyse de discours ou d’opinion, savoir caractériser la connotation générale d’un texte, les sentiments qu’il véhicule, est une aptitude recherchée, qui suppose la constitution préalable d’une ressource lexicale de polarité. Au sein du réseau lexical JeuxDeMots, nous avons mis au point LikeIt, un jeu qui permet d’affecter une valeur positive, négative, ou neutre à un terme, et de constituer ainsi pour chaque terme, à partir des votes, une polarité résultante. Nous présentons ici l’analyse quantitative des données de polarité obtenues, ainsi que la méthode pour les valider qualitativement.

pdf bib
Augmentation d’index par propagation sur un réseau lexical Application aux comptes rendus de radiologie
Mathieu Lafourcade | Lionel Ramadier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les données médicales étant de plus en plus informatisées, le traitement sémantiquement efficace des rapports médicaux est devenu une nécessité. La recherche d’images radiologiques peut être grandement facilitée grâce à l’indexation textuelle des comptes rendus associés. Nous présentons un algorithme d’augmentation d’index de comptes rendus fondé sur la propagation d’activation sur un réseau lexico-sémantique généraliste.

2014

pdf bib
About Inferences in a Crowdsourced Lexical-Semantic Network
Mathieu Lafourcade | Manel Zarrouk | Alain Joubert
Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics

pdf bib
Inferring Knowledge with Word Refinements in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade
Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers

pdf bib
Annotations and inference of relations in a lexical semantic network : Applied to radiology (Annotations et inférences de relations dans un réseau lexico-sémantique: application à la radiologie) [in French]
Lionel Ramadier | Manel Zarrouk | Mathieu Lafourcade | Antoine Micheau
Proceedings of TALN 2014 (Volume 1: Long Papers)

pdf bib
Colors of People (Les couleurs des gens) [in French]
Mathieu Lafourcade | Nathalie Le Brun | Virginie Zampa
Proceedings of TALN 2014 (Volume 2: Short Papers)

pdf bib
Propa-L: a semantic filtering service from a lexical network created using Games With A Purpose
Mathieu Lafourcade | Karën Fort
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

This article presents Propa-L, a freely accessible Web service that allows to semantically filter a lexical network. The language resources behind the service are dynamic and created through Games With A Purpose. We show an example of application of this service: the generation of a list of keywords for parental filtering on the Web, but many others can be envisaged. Moreover, the propagation algorithm we present here can be applied to any lexical network, in any language.

pdf bib
Relation Inference in Lexical Networks ... with Refinements
Manel Zarrouk | Mathieu Lafourcade
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

Improving lexical network’s quality is an important issue in the creation process of these language resources. This can be done by automatically inferring new relations from already existing ones with the purpose of (1) densifying the relations to cover the eventual lack of information and (2) detecting errors. In this paper, we devise such an approach applied to the JeuxDeMots lexical network, which is a freely available lexical and semantic resource for French. We first present the principles behind the lexical network construction with crowdsourcing and games with a purpose and illustrated them with JeuxDeMots (JDM). Then, we present the outline of an elicitation engine based on an inference engine using schemes like deduction, induction and abduction which will be referenced and briefly presented and we will especially highlight the new scheme (Relation Inference Scheme with Refinements) added to our system. An experiment showing the relevance of this scheme is then presented.

2013

pdf bib
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013

pdf bib
Inductive and deductive inferences in a Crowdsourced Lexical-Semantic Network (Inférences déductives et réconciliation dans un réseau lexico-sémantique) [in French]
Manel Zarrouk | Mathieu Lafourcade | Alain Joubert
Proceedings of TALN 2013 (Volume 1: Long Papers)

2012

pdf bib
A new dynamic approach for lexical networks evaluation
Alain Joubert | Mathieu Lafourcade
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

Since September 2007, a large scale lexical network for French is under construction with methods based on popular consensus by means of games (under the JeuxDeMots project). To assess the resource quality, we decided to adopt an approach similar to its construction, that is to say an evaluation by laymen on open class vocabulary with a Tip of the Tongue tool.

pdf bib
Long Tail in Weighted Lexical Networks
Mathieu Lafourcade | Alain Joubert
Proceedings of the 3rd Workshop on Cognitive Aspects of the Lexicon

2008

pdf bib
Evolutionary Basic Notions for a Thematic Representation of General Knowledge
Alain Joubert | Mathieu Lafourcade
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

In the field of Natural Language Processing, in order to work out a thematic representation system of general knowledge, methods relying on thesaurus have been used for about twenty years. A thesaurus consists of a set of concepts which define a generating system of a vector space modelling general knowledge. These concepts, often organized in a treelike structure, constitute a fundamental, but completely fixed tool. Even if the concepts evolve (we think for example of the technical fields), a thesaurus as for it can evolve only at the time of a particularly heavy process, because it requires the collaboration of human experts. After detailing the characteristics which a generating system of the vector space of knowledge modelling must have, we define the “basic notions”. Basic notions, whose construction is initially based on the concepts of a thesaurus, constitute another generating system of this vector space. We then approach the determination of the acceptions expressing the basic notions. Lastly, we clarify how, being freed from the concepts of the thesaurus, the basic notions evolve progressively with the analysis of new texts by an iterative process.

2006

pdf bib
Conceptual Vector Learning - Comparing Bootstrapping from a Thesaurus or Induction by Emergence
Mathieu Lafourcade
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

In the framework of the Word Sense Disambiguation (WSD) and lexical transfer in Machine Translation (MT), the representation of word meanings is one critical issue. The conceptual vector model aims at representing thematic activations for chunks of text, lexical entries, up to whole documents. Roughly speaking, vectors are supposed to encode ideas associated to words or expressions. In this paper, we first expose the conceptual vectors model and the notions of semantic distance and contextualization between terms. Then, we present in details the text analysis process coupled with conceptual vectors, which is used in text classification, thematic analysis and vector learning. The question we focus on is whether a thesaurus is really needed and desirable for bootstrapping the learning. We conducted two experiments with and without a thesaurus and are exposing here some comparative results. Our contribution is that dimension distribution is done more regularly by an emergent procedure. In other words, the resources are more efficiently exploited with an emergent procedure than with a thesaurus terms (concepts) as listed in a thesaurus somehow relate to their importance in the language but nor to their frequency in usage neither to their power of discrimination or representativeness.

2002

pdf bib
UNL Lexical Selection with Conceptual Vectors
Mathieu Lafourcade | Christian Boitet
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

pdf bib
Antonymy and Conceptual Vectors
Didier Schwab | Mathieu Lafourcade | Violaine Prince
COLING 2002: The 19th International Conference on Computational Linguistics

1996

pdf bib
Structured lexical data: how to make them widely available, useful and reasonably protected? A practicalexample with a trilingual dictionary
Mathieu Lafourcade
COLING 1996 Volume 2: The 16th International Conference on Computational Linguistics

1994

pdf bib
Manipulating human-oriented dictionaries with very simple tools
Jean Gaschler | Mathieu Lafourcade
COLING 1994 Volume 1: The 15th International Conference on Computational Linguistics