Quel type de systèmes utiliser pour la transcription automatique du français ? Les HMM font de la résistance (What system for the automatic transcription of French in audiovisual broadcasts ?)

Paul Deléglise, Carole Lailler


Abstract
Forts d’une utilisation couronnée de succès en traduction automatique, les systèmes end-to-end dont la sortie réside en une suite de caractères, ont vu leur utilisation étendue à la transcription automatique de la parole. De nombreuses comparaisons ont alors été effectuées sur des corpus anglais libres de droits, de parole lue. Nous proposons ici de réaliser une comparaison entre deux systèmes état de l’art, non pas sur de la parole lue mais bel et bien sur un corpus d’émissions audiovisuelles françaises présentant différents degrés de spontanéité. Le premier est un end-to-end et le second est un système hybride (HMM/DNN). L’obtention de résultats satisfaisants pour le end-to-end nécessitant un lexique et modèle de langage dédiés, il est intéressant de constater qu’une meilleure intégration dans les systèmes hybrides (HMM/DNN) est source de performances supérieures, notamment en Français où le contexte est primordial pour capturer un énoncé.
Anthology ID:
2020.jeptalnrecital-jep.18
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
154–162
Language:
French
URL:
https://www.aclweb.org/anthology/2020.jeptalnrecital-jep.18
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2020.jeptalnrecital-jep.18.pdf