Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. 19es REncontres jeunes Chercheurs en Informatique pour le TAL (RECITAL 2017)

Iris Eshkol-Taravella, Jean-Yves Antoine (Editors)


Anthology ID:
2017.jeptalnrecital-recital
Month:
6
Year:
2017
Address:
Orléans, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. 19es REncontres jeunes Chercheurs en Informatique pour le TAL (RECITAL 2017)
Iris Eshkol-Taravella | Jean-Yves Antoine

pdf bib
Machine Translation of Speech-Like Texts: Strategies for the Inclusion of Context
Rachel Bawden

Whilst the focus of Machine Translation (MT) has for a long time been the translation of planned, written texts, more and more research is being dedicated to translating speech-like texts (informal or spontaneous discourse or dialogue). To achieve high quality and natural translation of speechlike texts, the integration of context is needed, whether it is extra-linguistic (speaker identity, the interaction between speaker and interlocutor) or linguistic (coreference and stylistic phenomena linked to the spontaneous and informal nature of the texts). However, the integration of contextual information in MT systems remains limited in most current systems. In this paper, we present and critique three experiments for the integration of context into a MT system, each focusing on a different type of context and exploiting a different method: adaptation to speaker gender, cross-lingual pronoun prediction and the generation of tag questions from French into English.

pdf bib
Construction de lexiques pour l’extraction des mentions de maladies dans les forums de santé (Building lexica for extraction of mentions of diseases from healthcare fora)
Elise Bigeard

Les forums de discussion et les réseaux sociaux sont des sources potentielles de différents types d’information, qui ne sont en général pas accessibles par ailleurs. Par exemple, dans les forums de santé, il est possible de trouver les informations sur les habitudes et le mode de vie des personnes. Ces informations sont rarement partagées avec les médecins. Il est donc possible de se fonder sur ces informations pour évaluer les pratiques réelles des patients. Il s’agit cependant d’une source d’information difficile à traiter, essentiellement à cause des spécificités linguistiques qu’elle présente. Si une première étape pour l’exploration des forums consiste à indexer les termes médicaux présents dans les messages avec des concepts issus de terminologies médicales, cela s’avère extrêmement compliqué car les formulations des patients sont très différentes des terminologies officielles. Nous proposons une méthode permettant de créer et enrichir des lexiques de termes et expressions désignant une maladie ou un trouble, avec un intérêt particulier pour les troubles de l’humeur. Nous utilisons des ressources existantes ainsi que des méthodes non supervisées. Les ressources construites dans le cadre du travail nous permettent d’améliorer la détection de messages pertinents.

pdf bib
Création automatique d’une grammaire syntaxico-sémantique (Syntactic-semantic grammar automatic creation)
Emilie Colin

Nous proposons une nouvelle méthode pour la création automatique de grammaires lexicalisées syntaxico-sémantiques. A l’heure actuelle, la création de grammaire résulte soit d’un travail manuel soit d’un traitement automatisé de corpus arboré. Notre proposition est d’extraire à partir de données VerbNet une grammaire noyau (formes canoniques des verbes et des groupes nominaux) de l’anglais intégrant une sémantique VerbNet. Notre objectif est de profiter des larges ressources existantes pour produire un système de génération de texte symbolique de qualité en domaine restreint.

pdf bib
Exploration de traits pour la reconnaissance d’entités nommées du Français par apprentissage automatique (Feature exploration for French Named Entity Recognition with Machine Learning)
Yoann Dupont

Dans cet article, nous explorons divers traits proposés dans la littérature afin de fournir un détecteur d’entités nommées pour le Français appris automatiquement sur le French Treebank. Nous étudions l’intégration de connaissances en domaine, l’apport de la classification des verbes, la gestion des mots inconnus et l’intégration de traits non locaux. Nous comparons ensuite notre système aux récents réseaux de neurones.

pdf bib
Aligner production et normalisation : une première approche pour l’étude d’écrits scolaires (To align production and normalization : first approach to study school learner’s writings)
Claire Wolfarth

L’émergence des corpus scolaires et la volonté d’outiller ces corpus spécifiques font apparaitre de nouvelles problématiques de recherche pour le traitement automatique des langues (TAL). Nous exposons ici une recherche qui vise le traitement de productions d’apprenants en début d’apprentissage de l’écriture, en vue d’une annotation et d’une exploitation ultérieure. À cette fin, nous proposons d’envisager cette étape comme une tâche d’alignement entre la production de l’apprenant et une normalisation produite manuellement. Ce procédé permet d’augmenter significativement les scores d’identification des formes et lemmes produits et améliore les perspectives d’annotation.

pdf bib
Générer une grammaire d’arbres adjoints pour l’arabe à partir d’une méta-grammaire (Generate a tree adjoining grammar for arabic from a meta-grammar)
Cherifa Ben Khelil

La rareté des ressources numériques pour la langue arabe, telles que les grammaires et corpus, rend son traitement plus difficile que les autres langues naturelles. A ce jour il n’existe pas une grammaire formelle à large couverture de l’arabe. Dans ce papier, nous présentons une nouvelle approche qui facilite la description de l’arabe avec le formalisme des grammaires d’arbres adjoints en utilisant une méta-grammaire. Nous exposons les premiers résultats de notre grammaire ainsi que les problèmes rencontrés pour son évaluation.

pdf bib
Déterminants et quantificateurs généralisés dynamiques (Determiners and dynamic generalised quantifiers)
Clément Beysson

Dans cet article, nous proposons une classification des déterminants en étudiant leur capacité à introduire de nouveaux référents du discours et l’accessibilité de ces référents. Cette classification se fonde sur des aspects de logique dynamique (Groenendijk & Stokhof, 1991) dans la tradition montagovienne. Nous montrons ensuite que ces classes raffinent d’autres classifications plus linguistiques en étudiant chaque espèce de déterminants une à une. L’analyse de ces propriété est un première étape dans la définition des quantificateurs généralisés dynamiques nécessaires pour dénoter la sémantique des déterminants.

pdf bib
Détection de l’incertitude et de la négation : un état de l’art (Identifying uncertainty and negation’s cues and scope : State of the art One of the goals of our endeavours is to turn a corpus of medical documents into more easily readable structured data)
Clément Dalloux

L’un des objectifs de nos travaux, à terme, est de transformer un corpus de documents médicaux en données structurées pour en faciliter l’exploitation. Ainsi, il est nécessaire non seulement de détecter les concepts médicaux évoqués, mais aussi d’intégrer un processus capable d’identifier le contexte dans lequel est évoqué chaque concept médical. Dans cet article, nous revenons principalement sur les systèmes par apprentissage supervisé qui ont été proposé pour la détection de l’incertitude et de la négation. Ces dix dernières années, les travaux pour détecter l’incertitude et la négation dans les textes en anglais ont donné des résultats satisfaisants. Cependant, il existe encore une marge de progression non-négligeable.

pdf bib
Normalisation de termes complexes par sémantique distributionnelle guidée par une ontologie (Normalization of complex terms with distributional semantics guided by an ontology)
Arnaud Ferré

Nous proposons dans cet article une méthode semi-supervisée originale pour la création de représentations vectorielles pour des termes (complexes ou non) dans un espace sémantique pertinent pour une tâche de normalisation de termes désignant des entités dans un corpus. Notre méthode s’appuie en partie sur une approche de sémantique distributionnelle, celle-ci générant des vecteurs initiaux pour chacun des termes extraits. Ces vecteurs sont alors plongés dans un autre espace vectoriel construit à partir de la structure d’une ontologie. Pour la construction de ce second espace vectoriel ontologique, plusieurs méthodes sont testées et comparées. Le plongement s’effectue par entraînement d’un modèle linéaire. Un calcul de distance (en utilisant la similarité cosinus) est enfin effectué pour déterminer la proximité entre vecteurs de termes et vecteurs de concepts de l’ontologie servant à la normalisation. La performance de cette méthode a atteint un rang honorable, ouvrant d’encourageantes perspectives.

pdf bib
Annotation automatique des lieux dans l’oral spontané transcrit (Automatic annotation of places in the transcribed oral)
Hélène Flamein

Cet article a pour but de présenter une démarche généraliste pour l’annotation automatique des lieux dans l’oral transcrit. Cette annotation est effectuée sur le corpus ESLO (Enquête SocioLinguistique à Orléans) et suppose une réflexion sur les caractéristiques propres à la désignation d’un lieu à l’oral. Avant d’expliciter la méthode employée pour traiter automatiquement notre corpus, nous présenterons le travail préparatoire de la constitution d’une convention d’annotation et d’un corpus de référence indispensable pour l’évaluation du système.

pdf bib
Vers détection automatique des affirmations inappropriées dans les articles scientifiques (Towards automatic detection of inadequate claims in scientific articles)
Anna Koroleva

Dans cet article nous considérons l’apport du Traitement Automatique des Langues (TAL) au problème de la détection automatique de « l’embellissement » (en anglais « spin ») des résultats de recherche dans les publications scientifiques du domaine biomédical. Nous cherchons à identifier les affirmations inappropriées dans les articles, c’est-à-dire les affirmations où l’effet positif du traitement étudié est plus grand que celui effectivement prouvé par la recherche. Après une description du problème de point de vue du TAL, nous présentons les pistes de recherche qui nous semblent les plus prometteuses pour automatiser la détection de l’embellissement. Ensuite nous analysons l’état de l’art sur les tâches comparables et présentons les premiers résultats obtenus dans notre projet avec des méthodes de base (grammaires locales) pour la tâche de l’extraction des entités spécifiques à notre objectif.

pdf bib
Finding Missing Categories in Incomplete Utterances
Mehdi Mirzapour

Finding Missing Categories in Incomplete Utterances This paper introduces an efficient algorithm (O(n4 )) for finding a missing category in an incomplete utterance by using unification technique as when learning categorial grammars, and dynamic programming as in Cocke–Younger–Kasami algorithm. Using syntax/semantic interface of categorial grammar, this work can be used for deriving possible semantic readings of an incomplete utterance. The paper illustrates the problem with running examples.

pdf bib
Expressions polylexicales verbales : étude de la variabilité en corpus (Verbal MWEs : a corpus-based study of variability)
Caroline Pasquer

La reconnaissance et le traitement approprié des expressions polylexicales (EP) constituent un enjeu pour différentes applications en traitement automatique des langues. Ces expressions sont susceptibles d’apparaître sous d’autres formes que leur forme canonique, d’où l’intérêt d’étudier leur profil de variabilité. Dans cet article, nous proposons de donner un aperçu de motifs de variation syntaxiques et/ou morphologiques d’après un corpus de 4441 expressions polylexicales verbales (EPV) annotées manuellement. L’objectif poursuivi est de générer automatiquement les différentes variantes pour améliorer la performance des techniques de traitement automatique des EPV.