Antoine Caubrière


2020

pdf bib
Where are we in Named Entity Recognition from Speech?
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin
Proceedings of the 12th Language Resources and Evaluation Conference

Named entity recognition (NER) from speech is usually made through a pipeline process that consists in (i) processing audio using an automatic speech recognition system (ASR) and (ii) applying a NER to the ASR outputs. The latest data available for named entity extraction from speech in French were produced during the ETAPE evaluation campaign in 2012. Since the publication of ETAPE’s campaign results, major improvements were done on NER and ASR systems, especially with the development of neural approaches for both of these components. In addition, recent studies have shown the capability of End-to-End (E2E) approach for NER / SLU tasks. In this paper, we propose a study of the improvements made in speech recognition and named entity recognition for pipeline approaches. For this type of systems, we propose an original 3-pass approach. We also explore the capability of an E2E system to do structured NER. Finally, we compare the performances of ETAPE’s systems (state-of-the-art systems in 2012) with the performances obtained using current technologies. The results show the interest of the E2E approach, which however remains below an updated pipeline approach.

pdf bib
Où en sommes-nous dans la reconnaissance des entités nommées structurées à partir de la parole ? (Where are we in Named Entity Recognition from speech ?)
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La reconnaissance des entités nommées (REN) à partir de la parole est traditionnellement effectuée par l’intermédiaire d’une chaîne de composants, exploitant un système de reconnaissance de la parole (RAP), puis un système de REN appliqué sur les transcriptions automatiques. Les dernières données disponibles pour la REN structurées à partir de la parole en français proviennent de la campagne d’évaluation ETAPE en 2012. Depuis la publication des résultats, des améliorations majeures ont été réalisées pour les systèmes de REN et de RAP. Notamment avec le développement des systèmes neuronaux. De plus, certains travaux montrent l’intérêt des approches de bout en bout pour la tâche de REN dans la parole. Nous proposons une étude des améliorations en RAP et REN dans le cadre d’une chaîne de composants, ainsi qu’une nouvelle approche en trois étapes. Nous explorons aussi les capacités d’une approche bout en bout pour la REN structurées. Enfin, nous comparons ces deux types d’approches à l’état de l’art de la campagne ETAPE. Nos résultats montrent l’intérêt de l’approche bout en bout, qui reste toutefois en deçà d’une chaîne de composants entièrement mise à jour.

pdf bib
ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020
Maha Elbayad | Ha Nguyen | Fethi Bougares | Natalia Tomashenko | Antoine Caubrière | Benjamin Lecouteux | Yannick Estève | Laurent Besacier
Proceedings of the 17th International Conference on Spoken Language Translation

This paper describes the ON-TRAC Consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2020, offline speech translation and simultaneous speech translation. ON-TRAC Consortium is composed of researchers from three French academic laboratories: LIA (Avignon Université), LIG (Université Grenoble Alpes), and LIUM (Le Mans Université). Attention-based encoder-decoder models, trained end-to-end, were used for our submissions to the offline speech translation track. Our contributions focused on data augmentation and ensembling of multiple models. In the simultaneous speech translation track, we build on Transformer-based wait-k models for the text-to-text subtask. For speech-to-text simultaneous translation, we attach a wait-k MT system to a hybrid ASR system. We propose an algorithm to control the latency of the ASR+MT cascade and achieve a good latency-quality trade-off on both subtasks.

2019

pdf bib
Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts sémantiques (Curriculum learning : named entity recognition for semantic concept extraction)
Antoine Caubrière | Natalia Tomashenko | Yannick Estève | Antoine Laurent | Emmanuel Morin
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

Dans cet article, nous présentons une approche de bout en bout d’extraction de concepts sémantiques de la parole. En particulier, nous mettons en avant l’apport d’une chaîne d’apprentissage successif pilotée par une stratégie de curriculum d’apprentissage. Dans la chaîne d’apprentissage mise en place, nous exploitons des données françaises annotées en entités nommées que nous supposons être des concepts plus génériques que les concepts sémantiques liés à une application informatique spécifique. Dans cette étude, il s’agit d’extraire des concepts sémantiques dans le cadre de la tâche MEDIA. Pour renforcer le système proposé, nous exploitons aussi des stratégies d’augmentation de données, un modèle de langage 5-gramme, ainsi qu’un mode étoile aidant le système à se concentrer sur les concepts et leurs valeurs lors de l’apprentissage. Les résultats montrent un intérêt à l’utilisation des données d’entités nommées, permettant un gain relatif allant jusqu’à 6,5 %.