Emmanuel Cartier


2018

pdf bib
Néonaute, Enrichissement sémantique pour la recherche d’information ()
Emmanuel Cartier | Loïc Galand | Peter Stirling | Sara Aubry
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Avec l’explosion du nombre de documents numériques accessibles, les besoins en outils pour l’enrichissement sémantique des données textuelles, ainsi que des fonctionnalités avancées de recherche et d’exploration des collections, se font sentir. Cette combinaison entre les domaines de la recherche d’information et du traitement automatique des langues est l’une des caractéristiques du projet Néonaute. Ce projet, financé par la DGLFLF 1 en 2017 (appel Langues et numérique), regroupe la Bibliothèque nationale de France (BnF), le LIPN - RCLN (CNRS UMR 7030) et l’Université de Strasbourg (LILPA, EA 1339). Son objectif principal est de doter les observateurs de la langue française d’un moteur de recherche s’appuyant sur une collection de sites de presse d’actualité, collectés automatiquement par la BnF au titre de sa mission de dépôt légal de l’internet. Sur cette collection, le projet vise à proposer un moteur de recherche de nouvelle génération, disposant d’une indexation enrichie par l’analyse automatique des textes (analyse morphosyntaxique, entités nommées, thématiques), d’une part, et d’outils de recherche, d’exploration et de visualisation multidimensionnelle interactive des résultats, d’autre part.

2017

pdf bib
Neoveille, a Web Platform for Neologism Tracking
Emmanuel Cartier
Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics

This paper details a software designed to track neologisms in seven languages through newspapers monitor corpora. The platform combines state-of-the-art processes to track linguistic changes and a web platform for linguists to create and manage their corpora, accept or reject automatically identified neologisms, describe linguistically the accepted neologisms and follow their lifecycle on the monitor corpora. In the following, after a short state-of-the-art in Neologism Retrieval, Analysis and Life-tracking, we describe the overall architecture of the system. The platform can be freely browsed at www.neoveille.org where detailed presentation is given. Access to the editing modules is available upon request.

pdf bib
Character Based Pattern Mining for Neology Detection
Gaël Lejeune | Emmanuel Cartier
Proceedings of the First Workshop on Subword and Character Level Models in NLP

Detecting neologisms is essential in real-time natural language processing applications. Not only can it enable to follow the lexical evolution of languages, but it is also essential for updating linguistic resources and parsers. In this paper, neology detection is considered as a classification task where a system has to assess whether a given lexical item is an actual neologism or not. We propose a combination of an unsupervised data mining technique and a supervised machine learning approach. It is inspired by current researches in stylometry and on token-level and character-level patterns. We train and evaluate our system on a manually designed reference dataset in French and Russian. We show that this approach is able to largely outperform state-of-the-art neology detection systems. Furthermore, character-level patterns exhibit good properties for multilingual extensions of the system.

2015

pdf bib
Extraction automatique de relations sémantiques dans les dé finitions : approche hybride, construction d’un corpus de relations sémantiques pour le français
Emmanuel Cartier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, autres relations sémantiques. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes statistiques, ainsi qu’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites.

pdf bib
Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL
Michel Mathieu-Colas | Emmanuel Cartier | Aude Grezka
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.

2003

pdf bib
Demonstration of the CROSSMARC System
Vangelis Karkaletsis | Constantine D. Spyropoulos | Dimitris Souflis | Claire Grover | Ben Hachey | Maria Teresa Pazienza | Michele Vindigni | Emmanuel Cartier | Jose Coch
Companion Volume of the Proceedings of HLT-NAACL 2003 - Demonstrations

2002

pdf bib
Multilingual Summarization by Integrating Linguistic Resources in the MLIS-MUSI Project
Alessandro Lenci | Roberto Bartolini | Nicoletta Calzolari | Ana Agua | Stephan Busemann | Emmanuel Cartier | Karine Chevreau | José Coch
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)