International Research Institute MICA - The 1st top multimedia unit in Vietnam - Exploitation de la prosodie pour la segmentation et l'analyse automatique de signaux de parole

Soutenance de thèse Doctorat INP Grenoble de M. VU Minh Quang, Centre MICA/LIG(CLIPS) - Date : 20 septembre 2007, 10h30 - Lieu : salle F018 du bâtiment F de l'UFRIMA, Domaine universitaire de Saint Martin d'Hères, 60 rue de la Chimie.

Composition du jury :

Pr Pierre-Yves Coulon, Président
Pr Philippe Martin, Rapporteur
Pr Jean-Yves Antoine, Rapporteur
Dr Eric Castelli, Directeur de thèse
Pr Mme Pham Thi Ngoc Yen, Directeur de thèse
Dr Laurent Besacier, co-encadrant
Dr Jean-François Bonastre, Examinateur

La soutenance a été présentée en français

Résumé :
Cette thèse se situe à la frontière des domaines du traitement automatique de la parole et de la recherche d'informations multimédia. Ces dernières années, une nouvelle tâche est apparue dans le domaine du traitement automatique de la parole : la transcription enrichie d'un document audio. Parmi les informations extra-linguistiques transportées par la parole, une meta-donnée importante pour la transcription enrichie concerne l'information sur la nature des phrases parlées (c’est-à-dire les phrases sont-elles du type interrogatif ou affirmatif ou autre). Notre étude a principalement porté sur la différence prosodique entre les phrases de type affirmatif et de type interrogatif pour les langues française et vietnamienne, la détection et la classification automatique du type de phrase pour chacune des deux langues et la comparaison des stratégies spécifiques à chacune des deux langues. Nous avons commencé notre travail par l’étude sur la langue française. Nous avons ainsi réalisé un système de segmentation et détection automatique de type de phrases basé à la fois sur l’information prosodique et sur l’information lexicale. Le système a été validé sur des corpus de parole spontanée de la vie courante qui sont l’enregistrement de conversations téléphoniques entre un client et une agence de tourisme, des entretiens d’embauche ou des réunions de projet. Après cette première étude sur la langue française, nous avons élargit notre recherche en travaillant sur la langue vietnamienne, une langue où les études de base sur le système prosodique sont encore toutes préliminaires. Nous avons d’abord poursuivi une étude pour identifier la différence prosodique entre les phrases interrogatives et affirmatives à la fois sur le plan de production et sur le plan de perception. Ensuite, sur la base de ces résultats, un moteur de classification a été construit.

*Mots-clés : *indexation, détection de questions, modèle prosodique, modèle lexical, recherche d'informations multimédia, arbre de décision.

Abstract:
This thesis work is at the frontier between multimedia information retrieval and automatic speech processing. During the last years, a new task emerged in speech processing: the rich transcription of an audio document. An important meta-data for rich transcription is the information on sentence type (i.e. sentence of interrogative or affirmative type). The study on the prosodic differences between these two types of sentences in Vietnamese language, the detection and classification of sentence type in French language and in Vietnamese language is the main subject of this research work.
Our departure is a study on French language. We’ve realized a system for segmentation and automatic detection of sentence type based on both prosodic and lexical information. The system has been validated on real world spontaneous speech corpus which are recording of conversations via telephone, between a client and a tourism office staff, recruiting interview, project meeting.
After this first study on French, we’ve extended our research in Vietnamese language, a language where all studies until now on prosodic system are still preliminary. We’ve carried a study on the prosodic differences between interrogative and affirmative sentences in both production and perception levels. Next, based on these results, a classification motor has been built.

Key Words: indexation, question detection, prosodic model, lexical model, multimedia information retrieval, decision tree.

FaLang translation system by Faboba

ACTIVITIES

Exploitation de la prosodie pour la segmentation et l'analyse automatique de signaux de parole

Vietnam landscape view

Home page

ACTIVITIES

Exploitation de la prosodie pour la segmentation et l'analyse automatique de signaux de parole

Vietnam landscape view