Olga Seminck


2019

pdf bib
Modèles de langue appliqués aux schémas Winograd français (Language Models applied to French Winograd Schemas)
Olga Seminck | Vincent Segonne | Pascal Amsili
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Les schémas Winograd sont des problèmes de résolution d’anaphores conçus pour nécessiter un raisonnement sur des connaissances du monde. Par construction, ils sont insensibles à des statistiques simples (co-occurrences en corpus). Pourtant, aujourd’hui, les systèmes état de l’art pour l’anglais se basent sur des modèles de langue pour résoudre les schémas (Trinh & Le, 2018). Nous présentons dans cet article une étude visant à tester des modèles similaires sur les schémas en français. Cela nous conduit à revenir sur les métriques d’évaluation utilisées dans la communauté pour les schémas Winograd. Les performances que nous obtenons, surtout comparées à celles de Amsili & Seminck (2017b), suggèrent que l’approche par modèle de langue des schémas Winograd reste limitée, sans doute en partie à cause du fait que les modèles de langue encodent très difficilement le genre de raisonnement nécessaire à la résolution des schémas Winograd.

2018

pdf bib
A Gold Anaphora Annotation Layer on an Eye Movement Corpus
Olga Seminck | Pascal Amsili
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2017

pdf bib
Schémas Winograd en français: une étude statistique et comportementale (Winograd schemas in French : a statistical and behavioral study)
Pascal Amsili | Olga Seminck
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Nous présentons dans cet article une collection de schémas Winograd en français, adaptée de la liste proposée par Levesque et al. (2012) pour l’anglais. Les schémas Winograd sont des problèmes de résolution d’anaphore conçus pour être IA-complets. Nous montrons que notre collection vérifie deux propriétés cruciales : elle est robuste vis-à-vis de méthodes statistiques simples (“Google-proof”), tout en étant largement dépourvue d’ambiguïté pour les sujets humains que nous avons testés.

pdf bib
A Computational Model of Human Preferences for Pronoun Resolution
Olga Seminck | Pascal Amsili
Proceedings of the Student Research Workshop at the 15th Conference of the European Chapter of the Association for Computational Linguistics

We present a cognitive computational model of pronoun resolution that reproduces the human interpretation preferences of the Subject Assignment Strategy and the Parallel Function Strategy. Our model relies on a probabilistic pronoun resolution system trained on corpus data. Factors influencing pronoun resolution are represented as features weighted by their relative importance. The importance the model gives to the preferences is in line with psycholinguistic studies. We demonstrate the cognitive plausibility of the model by running it on experimental items and simulating antecedent choice and reading times of human participants. Our model can be used as a new means to study pronoun resolution, because it captures the interaction of preferences.

pdf bib
A Google-Proof Collection of French Winograd Schemas
Pascal Amsili | Olga Seminck
Proceedings of the 2nd Workshop on Coreference Resolution Beyond OntoNotes (CORBON 2017)

This article presents the first collection of French Winograd Schemas. Winograd Schemas form anaphora resolution problems that can only be resolved with extensive world knowledge. For this reason the Winograd Schema Challenge has been proposed as an alternative to the Turing Test. A very important feature of Winograd Schemas is that it should be impossible to resolve them with statistical information about word co-occurrences: they should be Google-proof. We propose a measure of Google-proofness based on Mutual Information, and demonstrate the method on our collection of French Winograd Schemas.

2016

pdf bib
Un modèle simple de coût cognitif de la résolution d’anaphores (A Simple Model of Cognitive Cost of Anaphora Resolution)
Olga Seminck
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL

Nous présentons un travail en cours sur un projet de recherche en TAL et en psycholinguistique. Le but de notre projet est de modéliser le coût cognitif que représente la résolution d’anaphores. Nous voulons obtenir une mesure du coût cognitif continue et incrémentale qui peut, à un stade de recherche plus avancé, être corrélée avec des mesures d’occulométrie sur corpus. Pour cela, nous proposons une modélisation inspirée par des techniques venues du TAL. Nous utilisons un solveur d’anaphores probabiliste basé sur l’algorithme couples de mentions et la notion d’entropie pour établir une mesure du coût cognitif des anaphores. Ensuite, nous montrons par des visualisations quelles sont les prédictions de cette première modélisation pour les pronoms personnels de troisième personne dans le corpus ANCOR Centre.