Jean-Baptiste Tanguy


2020

pdf bib
Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle ()
Jean-Baptiste Tanguy
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL

Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une transcription de référence de qualité pour certains documents du corpus, le CER calcule le taux d’erreurs de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces transcriptions sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue co-varient avec le CER, mesure de référence.

pdf bib
Daniel@FinTOC’2 Shared Task: Title Detection and Structure Extraction
Emmanuel Giguet | Gaël Lejeune | Jean-Baptiste Tanguy
Proceedings of the 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation

We present our contributions for the 2020 FinTOC Shared Tasks: Title Detection and Table of Contents Extraction. For the Structure Extraction task, we propose an approach that combines information from multiple sources: the table of contents, the wording of the document, and lexical domain knowledge. For the title detection task, we compare surface features to character-based features on various training configurations. We show that title detection results are very sensitive to the kind of training dataset used.