M. SENG Sopheap, doctorant en co-tutelle MICA - LIG Grenoble, a soutenu brillament sa thèse à Grenoble le 1er mars 2010. Cette thèse est une co-tutelle vraie entre le LIG Grenoble et le Centre MICA Hanoi

Titre : Vers une modélisation statistique multiniveau du langage, application aux langues peu dotées

Co-directeur de thèse (LIG) : M. Laurent BESACIER
Co-directeur de thèse (MICA) : M. Eric CASTELLI
Co-encadrant (LIG) : Mme Brigitte BIGI

Membres du jury :

M. Christian BOITET Président DE, PRE UJF
Mme Lori LAMEL Rapporteur DR LIMSI-CNRS
M. Frédéric BECHET Rapporteur PR Université de la Méditerranée
Mme Tanja SCHULTZ Examinateur PR Karlsruhe Institute of Technology
M. Vincent BERMENT Examinateur NT ingénieur à C&S, chargé de cours à l'INaLCO (Paris)
Mme Brigitte BIGI Examinateur CR1 Laboratoire Parole et Langage
M. Eric CASTELLI Co-directeur HDR, MCF MICA CNRS/UMI-2954
M. Laurent BESACIER Co-directeur PR UJF

Résumé :
Ce travail de thèse porte sur la reconnaissance automatique de la parole des langues peu dotées et ayant un système d'écriture sans séparation explicite entre les mots. La spécificité des langues traitées dans notre contexte d'étude nécessite la segmentation automatique en mots pour rendre la modélisation du langage n-gramme applicable. Alors que le manque de données textuelles a un impact sur la performance des modèles de langage, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour tenter de pallier les problèmes, nos recherches sont axées principalement sur la modélisation du langage, et en particulier sur le choix des unités lexicales et sous-lexicales, utilisées par les systèmes de reconnaissance. Nous expérimentons l'utilisation des multiples unités au niveau des modèles du langage et au niveau des sorties de systèmes de reconnaissance. Au niveau des modèles de langage, les modèles sont entraînés avec des vocabulaires hybrides créés en utilisant à la fois l'unité lexicale et l'unité sous-lexicale. Au niveau des sorties de systèmes, nous essayons de combiner les sorties de plusieurs systèmes de reconnaissance. Chaque système est fondé sur une unité de modélisation : lexicale ou sous-lexicale. Dans un objectif consistant à mieux exploiter les données textuelles en utilisant différentes vues sur les mêmes données, nous proposons une méthode qui effectue des segmentations multiples sur le corpus d’apprentissage au lieu d’une segmentation unique classique. Cette méthode de segmentation multiple basée sur des automates d’état finis permet de générer toutes les segmentations possibles à partir d’une séquence de caractères et nous pouvons ensuite en extraire les n-grammes pour apprendre le modèle de langage. Elle permet de retrouver les n-grammes non trouvés par la segmentation unique et d’ajouter de nouveaux n-grammes dans le modèle de langage. Nous validons ces approches de modélisation à base des multiples unités sur les systèmes de reconnaissance pour un groupe de langues peu dotées : le khmer, le vietnamien, le thaï et le laotien.

Mots clés : reconnaissance automatique de la parole, langue peu dotée, modélisation statistique multi-niveau du langage.

Abstract :
This PhD thesis focuses on automatic speech recognition of under-resourced languages with a writing system without explicit separation between words. The specificity of the languages studied in our work requires automatic segmentation of text corpus into words in order to make the n-gram language modeling applicable. While the lack of text data has an impact on the performance of language model, the errors introduced by automatic segmentation can make these data even less usable. To try to alleviate these problems, our research focuses primarily on language modeling, and in particular the choice of lexical and sub-lexical units, used by the recognition systems. We investigate the use of multiple units in speech recognition system. At language models level, the models are trained with hybrid vocabularies created using both the lexical and the sub-lexical unit. At the system output level, we try to combine the outputs of several recognition systems. Each system is based on a different modeling unit: lexical or sub-lexical. To better exploit the textual data using different views on the same data, we propose a method that performs multiple segmentations on the training corpus instead of a conventional single segmentation. This method based on finite state machines allows generating all possible segmentations from a sequence of characters and then we can extract n-grams to train the language model. It allows finding the n-grams not found by unique segmentation method and adding new n-grams in the language model. We validate these modeling approaches based on multiple units in recognition systems for a group of languages: Khmer, Vietnamese, Thai and Laotian.

Key words: Automatic speech recognition, under-resourced language, multi-level statistical language modeling.