Catégorisation sémantique et information grammaticale en arabe
Collection
Thèses nativement numériques (2014 - )Citer ce document
À propos
La problématique centrale de ce travail porte sur la catégorisation sémantique non supervisée de mots en arabe basée sur de grands corpus, et tout particulièrement sur l’utilité de l’information grammaticale dans cette catégorisation sémantique. Cette thèse a été entamée pour mener à bien la mise en place d’une méthodologie rigoureuse pour tester l’apport de la structure grammaticale à la catégorisation sémantique et pour l’appliquer sur un grand corpus de quelques milliards de mots.Extraire la structure grammaticale d’un corpus sans connaissance préalable sur la langue se fait ici en étudiant la distribution des patterns constitués par les éléments de haute fréquence au voisinage des éléments de moindre fréquence. Si le corpus est assez grand, les éléments de haute fréquence sont des éléments jouant un rôle structurant dans la phrase ou le document, comme les mots grammaticaux. L’enjeu de cette recherche est conséquent : si l’hypothèse est vérifiée, il sera possible de compléter les ressources sémantiques d’une manière automatisée. Notre modèle se veut indépendant de la langue et minimisant au maximum les interactions avec l’utilisateur, depuis la constitution du corpus jusqu’à l’évaluation des résultats.Notre thèse montre que, l’information grammaticale apporte de l’information sémantique et qu’il est probablement dommage qu’elle ne soit pas plus utilisée dans les recherches sur la sémantique des mots, et que nous avons au passage fait un ensemble d’observations dont nous espérons qu’elles seront utiles aux futures recherches sur le domaine.
The central issue of this defense is the unsupervised semantic categorization of Arabic words based on large corpora, and especially the usefulness of grammatical information in this categorization.This thesis was initiated to establish a rigorous methodology to test the contribution of grammatical structure to semantic categorization and to apply it on a large corpus of several billion words. Extracting the grammatical structure of a corpus without prior knowledge of the language is done here by studying the distribution of patterns constituted by high frequency elements in the neighborhood of lower frequency elements. If the corpus is large enough, the high frequency elements are those playing a structural role in the sentence or document, such as grammatical items. The challenge of this research is consequent : if the hypothesis is verified, it will be possible to complete the semantic resources in an automated way. Our model is intended to be language-independent and to minimize user interaction, from the constitution of the corpus to the evaluation of the results.Our thesis shows that grammatical information provides semantic information and that it is probably a pity that it is not used more in research on word semantics.In the process, we have made a set of observations that we hope will be useful for future research in the field.
Sujets
Auteur
Collaborateur
Source
Date
Identifiant
N° national de thèse
Droits d'accès
Conditions d'utilisation
Discipline (Thèse)
Domaine (Dewey)
Recherche catalogue
Rechercher des documents connexes dans ces catalogues: