Recherches sur le traitement informatique d’une langue turcique agglutinante

Citer ce document

Baudoin, Jean, “Recherches sur le traitement informatique d’une langue turcique agglutinante,” Bibliothèque numérique Paris 8, consulté le 20 avril 2024, https://octaviana.fr/document/156525771.

À propos

Cette étude présente les caractéristiques, les écritures et la structure de la langue ouïghoure en faisant une étude linguistique et en proposant de nouveaux modèles expérimentaux qui faciliteront le développement des outils informatiques et le traitement automatique de la langue afin de contribuer à l’informatisation de la langue ouïghoure. Plus précisément, notre étude consiste en quatre parties : la première partie présente les problématiques d’étude, les caractéristiques de la langue et des écritures, notamment le processus d’unification de l’écriture ouïghoure-latine ; la deuxième partie expose les notions de base d’extraction d’information et démontre la possibilité d’extraction d’entités nommées en utilisant un outil d’extraction, afin d’expérimenter les conceptions et les théories proposées ; la troisième partie est consacré à l’étude linguistique notamment sur l’aspect agglutinant de la langue et les règles morphologiques de suffixation qui seront appliquées pendant la réalisation des outils prototypes proposés dans cette thèse ; enfin la quatrième partie mettre en évidence les problématiques de traitement de la langue ouïghoure dans une situation où les systèmes d’exploitation ne supporte pas la langue ouïghoure. Dans cette partie, nous décrivons les difficultés existantes et nous proposerons des solutions innovantes afin de les résoudre dans les domaines suivants : Unification des polices ouïghoures et création d’une police ouïghoure basée sur l’Unicode, Implémentation des méthodes d’entrées au niveau système et au niveau navigateur, Création des convertisseurs multiécriture, Réalisation d’un dictionnaire ouïghour – anglais en ligne, Mise en place d’un générateur lexical basé sur les règles morphologiques de suffixation de l’ouïghour, Développement d’un analyseur et explorateur de suffixes, Démonstration d’extraction de l’information Implémentation d’un parseur et un correcteur d’orthographe.

This study presents the characteristics, writing systems and structure of Uyghur language by doing a linguistic study. Our approach will consist of new trial models that facilitate the development and realization of Uyghur software tools, and contribute to the Uyghur information technology. More precisely, our study consists of four phases: Firstly, we are going to present the main issues of the study, characteristics of the language and its writing systems, especially the unification procedure of the Latin-Script Uyghur. Secondly, we briefly introduce some basic notions for the retrieval of information, and we will do a demonstration of named entities retrieval, using an extraction tool, in order to test concepts and theories that we are proposing. Then, we will discuss linguistic issues – mainly on the agglutinative aspect and morphological suffixation rules – which are applied during the implementation of prototype tools proposed in this study. Finally, we underline problems in natural language processing (NLP) created by Uyghur language and non-Uyghur supporting environments. We will discuss the existing difficulties and we will suggest innovative solutions to resolve such problems with the following fields: Standardization of Uyghur fonts and creation of a Unicode based Uyghur font, Implementation of system-level and browser-level input methods and - reation of multi-script converting tools, Realization of an online Uyghur – English dictionary, Implementation of a lexical generator based on the morphological suffixation rules of Uyghur, Design and creation of an suffix analyzer and explorer, Demonstration of Uyghur information retrieval, Implementation of a parser and spell checker

Sujets

Ouïgour (langue) Correcteurs de texte (logiciels) Préfixes et suffixes Unicode (jeu de caractères) Langues turques

Auteur

Baudoin, Jean

Collaborateur

Saleh, Imad (sous la direction de)

Source

Paris 8, BU - Saint-Denis, Magasin 2, TH2939

Date

2009

Identifiant

156525771

N° national de thèse

2009PA083315

Droits d'accès

Accessible à tous

Conditions d'utilisation

Toute reproduction même partielle est interdite sans accord exprès de l'auteur

Discipline (Thèse)

Sciences de l'information et de la communication

Domaine (Dewey)

020 Bibliothéconomie. Sciences de l’information