Evaluation des représentations vectorielles de mots

Citer ce document

Aliane, Nourredine, “Evaluation des représentations vectorielles de mots,” Bibliothèque numérique Paris 8, consulté le 28 avril 2024, https://octaviana.fr/document/2019PA080014.

À propos

Dans le traitement des langues, la représentation vectorielle des mots est une question clé, permettant l'emploi d'algorithmes basés sur des modèles mathématiques. Récemment ont émergé de nouvelles méthodes de vectorisation et leur évaluation est cruciale. Les évaluations actuelles portent surtout sur l'anglais, d’où le besoin d’évaluations multilingues. Notre travail porte sur la généralisation des évaluations, leur comparaison, l'élaboration d'évaluations nouvelles, et sur WordNet, ressource multilingue.Nous avons choisi 6 vectorisations : CBOW, SkipGram, GloVe, une plus ancienne comme base, et deux plus récentes.

 Les évaluations sont directes, évaluant avec un gold standard, ou indirectes, évaluant une application produite avec ces vectorisations. Comme méthode indirecte, nous prenons la catégorisation sémantique avec des algorithmes de clustering pour comparer les vectorisations sous-jacentes. Les algorithmes choisis sont : le plus utilisé (Kmeans), un neuronal (SOM) et un probabiliste (EM).Notre système applique les évaluations sur des corpus en anglais, français et arabe, et compare les vectorisations. Nous proposons 5 méthodes d'évaluation, dont 4 fondées sur WordNet, et un protocole d’évaluation par sondage. Nos résultats donnent trois classements des méthodes validés sur ces langues, s’accordant sur plusieurs points décisifs, et invalident certaines des évaluations existantes. Pour nos propres évaluations, le protocole est validé, et, de nos 5 méthodes, une a été invalidée (nous avons analysé les causes de l'échec), une a été validée pour l'anglais et le français, mais pas pour l'arabe, deux ont été validées sur les trois langues, et une reste à explorer.

In Natural Language Processing vectorization of words is a key that enables the use of algorithms based on mathematical models. Recently new methods have appeared, and evaluating their quality is a necessity. At present, evaluations are mostly effective on English, which introduces the question of multilingual evaluations. We worked on generalizing methods, on comparing them, on devising new evaluations, and on WordNet as a multilingual resource used for evaluation.We choose six vectorization methods : CBOW, SkipGram, GloVe, an older method as baseline, and two more recent methods. Evaluations can be direct, comparing with some gold standard, or indirect, evaluating the result of an application produced with some vectorization. As an indirect method, we choose semantic clustering of words for comparing the underlying vectorizations. The chosen clustering algorithms were: the most used Kmeans, a neuronal one (SOM) and a probabilistic one (EM).Our system applies evaluation methods on big corpora in English, French and Arabic, then compares underlying vectorizations. We propose five new evaluation methods, with four based on WordNet, and one new protocol for polling. Our results yield three different vectorization orderings agreeing on decisive points, and invalidate some existing evaluations. As for our own evaluations, the protocol is validated, one method is invalidated and the reason analyzed, one is validated for English and French, but not Arabic, two are validated on the three languages, and one is left for further exploration.

Sujets

Évalution de représentations vectorielles de mots Relations sémantiques WordNet Synsets Représentations vectorielles de mots Catégorisation des mots Semantics Relations Princeton WordNet WOLF Arabic WordNet Synsets Word Vectorization Word Clustering Word Embedding

Auteur

Aliane, Nourredine

Collaborateur

Bernard, Gilles (Sous la direction de)

Source

Paris 8

Date

2019/05/17

Identifiant

2019PA080014

N° national de thèse

2019PA080014

Droits d'accès

Accessible à tous

Conditions d'utilisation

Toute reproduction même partielle est interdite sans accord exprès de(s) l'auteur(s) ou ayant-droit(s)

Discipline (Thèse)

Informatique

Domaine (Dewey)

410 Linguistique générale
370 Education. Ouvrages généraux et divers. Principes
420 Langue anglaise et anglo-saxon
621 Physique appliquée