Ewa Kijak


2016

pdf bib
Distributional Thesauri for Information Retrieval and vice versa
Vincent Claveau | Ewa Kijak
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

Distributional thesauri are useful in many tasks of Natural Language Processing. In this paper, we address the problem of building and evaluating such thesauri with the help of Information Retrieval (IR) concepts. Two main contributions are proposed. First, following the work of [8], we show how IR tools and concepts can be used with success to build a thesaurus. Through several experiments and by evaluating directly the results with reference lexicons, we show that some IR models outperform state-of-the-art systems. Secondly, we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validates the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences bring these evaluation habits into question.

pdf bib
Direct vs. indirect evaluation of distributional thesauri
Vincent Claveau | Ewa Kijak
Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers

With the success of word embedding methods in various Natural Language Processing tasks, all the field of distributional semantics has experienced a renewed interest. Beside the famous word2vec, recent studies have presented efficient techniques to build distributional thesaurus; in particular, Claveau et al. (2014) have already shown that Information Retrieval (IR) tools and concepts can be successfully used to build a thesaurus. In this paper, we address the problem of the evaluation of such thesauri or embedding models and compare their results. Through several experiments and by evaluating directly the results with reference lexicons, we show that the recent IR-based distributional models outperform state-of-the-art systems such as word2vec. Following the work of Claveau and Kijak (2016), we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validates the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences bring these evaluation habits into question.

pdf bib
Médias traditionnels, médias sociaux : caractériser la réinformation (Traditional medias, social medias : characterizing reinformation)
Cédric Maigrot | Ewa Kijak | Vincent Claveau
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Les médias traditionnels sont de plus en plus présents sur les réseaux sociaux, mais ces sources d’informations sont confrontées à d’autres sources dites de réinformation. Ces dernières ont parfois tendance à déformer les informations relayées pour correspondre aux idéologies qu’elles souhaitent défendre, les rendant partiellement ou totalement fausses. Le but de cet article est, d’une part, de présenter un corpus que nous avons constitué à partir de groupes Facebook de ces deux types de médias. Nous présentons d’autre part quelques expériences de détection automatique des messages issus des médias de réinformation, en étudiant notamment l’influence d’attributs de surface et d’attributs portant plus spécifiquement sur le contenu de ces messages.

2015

pdf bib
Stratégies de sélection des exemples pour l’apprentissage actif avec des champs aléatoires conditionnels
Vincent Claveau | Ewa Kijak
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Beaucoup de problèmes de TAL sont désormais modélisés comme des tâches d’apprentissage supervisé. De ce fait, le coût des annotations des exemples par l’expert représente un problème important. L’apprentissage actif (active learning) apporte un cadre à ce problème, permettant de contrôler le coût d’annotation tout en maximisant, on l’espère, la performance de la tâche visée, mais repose sur le choix difficile des exemples à soumettre à l’expert. Dans cet article, nous examinons et proposons des stratégies de sélection des exemples pour le cas spécifique des champs aléatoires conditionnels (Conditional Random Fields, CRF), outil largement utilisé en TAL. Nous proposons d’une part une méthode simple corrigeant un biais de certaines méthodes de l’état de l’art. D’autre part, nous détaillons une méthode originale de sélection s’appuyant sur un critère de respect des proportions dans les jeux de données manipulés. Le bien- fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données, incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens.

2014

pdf bib
Improving distributional thesauri by exploring the graph of neighbors
Vincent Claveau | Ewa Kijak | Olivier Ferret
Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers

pdf bib
Exploring the neighbor graph to improve distributional thesauri (Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels) [in French]
Vincent Claveau | Ewa Kijak | Olivier Ferret
Proceedings of TALN 2014 (Volume 1: Long Papers)

pdf bib
Generating and using probabilistic morphological resources for the biomedical domain
Vincent Claveau | Ewa Kijak
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

In most Indo-European languages, many biomedical terms are rich morphological structures composed of several constituents mainly originating from Greek or Latin. The interpretation of these compounds are keystones to access information. In this paper, we present morphological resources aiming at coping with these biomedical morphological compounds. Following previous work (Claveau et al. 2011,Claveau et al. 12), these resources are automatically built using Japanese terms in Kanjis as a pivot language and alignment techniques. We show how these alignment information can be used for segmenting compounds, attaching semantic interpretation to each part, proposing definitions (gloses) of the compounds... When possible, these tasks are compared with state-of-the-art tools, and the results show the interest of our automatically built probabilistic resources.

2011

pdf bib
Morphological Analysis of Biomedical Terminology with Analogy-Based Alignment
Vincent Claveau | Ewa Kijak
Proceedings of the International Conference Recent Advances in Natural Language Processing 2011