Séminaire de Sopheap Seng, Centre MICA/LIG - Date : 23 août 2007, 14h00 - Lieu : Centre MICA

Interprète traducteur : le séminaire sera présenté en français. Les questions et les réponses pourront être en français ou en anglais

Résumé :
Dans cet exposé, je présenterai le travail pendant ma première année de thèse sur la reconnaissance automatique de la parole en langue khmère, la langue officielle du Cambodge, parlée par plus de 15 millions d'habitants. Dans la première partie, je ferai un état de l'art sur les systèmes de reconnaissance automatique de la parole en citant les problématiques liés au développement d'un tel système dans le contexte d'une langue faiblement informatisée ou dite « peu dotée » comme le khmer où les ressources linguistiques (corpus de texte et de parole, vocabulaire, dictionnaire de prononciation) nécessaires pour le développement sont insuffisantes. J'aborderai dans la deuxième partie, mes travaux de collection et de traitement de données textuelles et de parole de la langue khmère en vue de la modélisation linguistique et la modélisation acoustique. D'une manière détaillée, je présenterai une approche proposée dans le cadre de ma thèse qui essaye d'exploiter au mieux les ressources textuelles limitées que nous possédons pour construire le modèle statistique du langage. Il s'agit une approche qui utilise plusieurs unités lexicales et sous-lexicales pour la modélisation au lieu d'utiliser qu'une seul unité (le mot) que nous trouvons dans la littérature. Les premiers résultats obtenus en utilisant l'approche proposée et les travaux en cours seront présentés dans la dernière partie de cet exposé.

Abstract:
In this presentation, I will present my research work during the first year of my Phd thesis on the Automatic Speech Recognition for Khmer language, the official language of Cambodia, spoken by more than 15 millions people. In the first part of my talk, I will introduce state-of-the-art automatic speech recognition systems by citing the difficulties related to the development of such a system for a resource deficient language like Khmer, for which the linguistic resources (text and speech corpus, vocabulary, prononciation dictionnary) needed is not sufficiently available. In the second part, I will talk about the collection and processing work of Khmer text and speech corpus in order to do language and acoustic modeling. In a great detail, I will present an approach proposed in my Phd work which try to make the most of the limited linguistic resources that we could have in order to build a language model. This approach consists of using multiple lexical and sub lexical units in the modeling rather than using only an unique lexical unit (the word) that we found in the literature. The primary results obtained by applying this approach and the current work are discussed to conclude my presentation.