Chiraz Ben Othmane Zribi


2019

pdf bib
Q-learning pour la résolution des anaphores pronominales en langue arabe (Q-learning for pronominal anaphora resolution in Arabic texts)
Saoussen Mathlouthi Bouzid | Chiraz Ben Othmane Zribi
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

La résolution d’anaphores est une tâche fondamentale pour la plupart des applications du TALN. Cette tâche reste un problème difficile qui nécessite plusieurs sources de connaissances et des techniques d’apprentissage efficaces, notamment pour la langue arabe. Cet article présente une nouvelle approche de résolution d’anaphores pronominales dans les textes arabes en se basant sur une méthode d’Apprentissage par Renforcement AR qui utilise l’algorithme Q-learning. Le processus de résolution comporte une étape d’identification des pronoms et des antécédents candidats et une autre de résolution. L’algorithme Q-learning permet d’apprendre dans un environnement dynamique et incertain. Il cherche à optimiser pour chaque pronom anaphorique, une séquence de choix de critères pour évaluer les antécédents et sélectionner le meilleur. Le système de résolution est évalué sur des textes littéraires, des textes journalistiques et des manuels techniques. Le taux de précision atteint jusqu’à 77,14%.

2018

pdf bib
Interface syntaxe-sémantique au moyen d’une grammaire d’arbres adjoints pour l’étiquetage sémantique de l’arabe (Syntax-semantic interface using Tree-adjoining grammar for Arabic semantic labeling)
Cherifa Ben Khelil | Chiraz Ben Othmane Zribi | Denys Duchier | Yannick Parmentier
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Dans une grammaire formelle, le lien entre l’information sémantique et sa structure syntaxique correspondante peut être établi en utilisant une interface syntaxe/sémantique qui permettra la construction du sens de la phrase. L’étiquetage de rôles sémantiques aide à réaliser cette tâche en associant automatiquement des rôles sémantiques à chaque argument du prédicat d’une phrase. Dans ce papier, nous présentons une nouvelle approche qui permet la construction d’une telle interface pour une grammaire d’arbres adjoints de l’arabe. Cette grammaire a été générée semi automatiquement à partir d’une méta-grammaire. Nous détaillons le processus d’interfaçage entre le niveau syntaxique et le niveau sémantique moyennant la sémantique des cadres et comment avons-nous procédé à l’étiquetage de rôles sémantiques en utilisant la ressource lexicale ArabicVerbNet.

pdf bib
Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language)
Chiraz Ben Othmane Zribi
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les mots en arabe sont très proches lexicalement les uns des autres. La probabilité de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le français ou pour l’anglais. Nous nous intéressons dans cet article à détecter les erreurs orthographiques plus précisément, celles générant des mots lexicalement corrects mais causant un dérèglement sémantique au niveau de la phrase. Nous décrivons et comparons deux méthodes se basant sur la représentation vectorielle du sens des mots. La première méthode utilise l’analyse sémantique latente (LSA). La seconde s’appuie sur le modèle Word2Vec et plus particulièrement l’architecture Skip-Gram. Les expérimentations ont montré que Skip-Gram surpasse LSA.