Catégorisation sémantique et information grammaticale en arabe

Citer ce document

Abdallah, Adelle, “Catégorisation sémantique et information grammaticale en arabe,” Bibliothèque numérique Paris 8, consulté le 4 mai 2024, https://octaviana.fr/document/2021PA080093.

À propos

La problématique centrale de ce travail porte sur la catégorisation sémantique non supervisée de mots en arabe basée sur de grands corpus, et tout particulièrement sur l’utilité de l’information grammaticale dans cette catégorisation sémantique. Cette thèse a été entamée pour mener à bien la mise en place d’une méthodologie rigoureuse pour tester l’apport de la structure grammaticale à la catégorisation sémantique et pour l’appliquer sur un grand corpus de quelques milliards de mots.Extraire la structure grammaticale d’un corpus sans connaissance préalable sur la langue se fait ici en étudiant la distribution des patterns constitués par les éléments de haute fréquence au voisinage des éléments de moindre fréquence. Si le corpus est assez grand, les éléments de haute fréquence sont des éléments jouant un rôle structurant dans la phrase ou le document, comme les mots grammaticaux. L’enjeu de cette recherche est conséquent : si l’hypothèse est vérifiée, il sera possible de compléter les ressources sémantiques d’une manière automatisée. Notre modèle se veut indépendant de la langue et minimisant au maximum les interactions avec l’utilisateur, depuis la constitution du corpus jusqu’à l’évaluation des résultats.Notre thèse montre que, l’information grammaticale apporte de l’information sémantique et qu’il est probablement dommage qu’elle ne soit pas plus utilisée dans les recherches sur la sémantique des mots, et que nous avons au passage fait un ensemble d’observations dont nous espérons qu’elles seront utiles aux futures recherches sur le domaine.


The central issue of this defense is the unsupervised semantic categorization of Arabic words based on large corpora, and especially the usefulness of grammatical information in this categorization.This thesis was initiated to establish a rigorous methodology to test the contribution of grammatical structure to semantic categorization and to apply it on a large corpus of several billion words. Extracting the grammatical structure of a corpus without prior knowledge of the language is done here by studying the distribution of patterns constituted by high frequency elements in the neighborhood of lower frequency elements. If the corpus is large enough, the high frequency elements are those playing a structural role in the sentence or document, such as grammatical items. The challenge of this research is consequent : if the hypothesis is verified, it will be possible to complete the semantic resources in an automated way. Our model is intended to be language-independent and to minimize user interaction, from the constitution of the corpus to the evaluation of the results.Our thesis shows that grammatical information provides semantic information and that it is probably a pity that it is not used more in research on word semantics.In the process, we have made a set of observations that we hope will be useful for future research in the field.

Sujets

Catégorisation sémantique Représentation vectorielle de mots Évaluation sémantique Ressource sémantique Arabic WordNet Corpus arabe Structure grammaticale Semantic categorization Word vector representation Semantic evaluation Semantic resource Arabic WordNe Arabic corpus Grammatical structure

Auteur

Abdallah, Adelle

Collaborateur

Bernard, Gilles (Sous la direction de) Hajjar, Mohammad (Sous la direction de)

Source

Paris 8

Date

2021/07/02

Identifiant

2021PA080093

N° national de thèse

2021PA080093

Droits d'accès

Accessible à tous

Conditions d'utilisation

Toute reproduction même partielle est interdite sans accord exprès de(s) l'auteur(s) ou ayant-droit(s)

Discipline (Thèse)

Informatique

Domaine (Dewey)

004 Traitement des données. Informatique. Généralités. Dictionnaires
005 Programmation, programmes, organisation des données, logiciels : généralités
409 Histoire et géographie du langage : les langues par pays
492 Langues chamito-sémitiques