M. LE Xuan Hung, doctorant en co-tutelle entre le Centre MICA et le laboratoire LIG de Grenoble (France) a soutenu sa thèse à Grenoble le 1er juillet 2009.

Titre : détection des émotions dans des énoncés audio multi-lingues

Doctorant : M. LE Xuan Hung

Co-directeur de thèse (MICA) : M. Eric CASTELLI
Co-directeur de thèse (LIG) : M. Georges QUENOT

Résumé :
Cette thèse se situe au carrefour des domaines du traitement automatique de la parole, de la reconnaissance des formes et de la recherche d'informations multimédia. Du fait de l’explosion du volume des documents audio-visuels ces dernières années, un nouveau besoin est apparu dans le domaine de recherche d’informations : l’indexation des éléments extralinguistiques en vue de la recherche par le contenu. Parmi les éléments extralinguistiques exploitables dans la bande son, l’émotion est un élément important. Dans le domaine de la recherche d’information, l’indexation enrichie par l’information de l’état émotionnel permet d’élargir la prise en compte des besoins des utilisateurs, ainsi que de classer des documents retrouvés en fonction de la correspondance avec ces nouveaux besoins.

Dans ce contexte, notre travail de thèse est orienté vers la reconnaissance et l’indexation de l’émotion indépendante du locuteur. Cependant, nous avons également étudié les deux autres cas de reconnaissance, mono-locuteur et multi-locuteur, pour une étude systématique. Nous avons aussi développé une méthodologie pour éliminer au fur à mesure les paramètres et les techniques inadéquats. Pour atteindre cet objectif, nous avons choisi un corpus équilibré en termes de nombre d’échantillons émotionnels et de locuteurs. Les résultats obtenus sur ce corpus sont ensuite validés sur d’autres corpus dans la même langue et dans une autre langue.

Une grande partie de la thèse porte sur les paramètres ; en premier lieu, des ensembles de paramètres potentiels ont été proposés, statistiquement et globalement analysés, y compris les trois aspects de la prosodie : la fréquence fondamentale, l’intensité et le débit phonétique, ainsi que les MFCCs, les LFCCs, les LPCs et d’autres coefficients extraits du domaine temporel. En deuxième lieu, les meilleurs paramètres ont été triés par la méthode de Sélection Forcée Séquentielle en Avant (SFSA) ; dans cette étape, l’approche proposée de normalisation symbolique a aussi montré son efficacité face au problème de la robustesse par rapport au locuteur.

L’autre partie de la thèse s’appuie sur l’étude des techniques de classification pour trois groupes, les techniques de modélisation, les techniques de séparation et les techniques avec la capacité de capture des évolutions temporelles, non seulement afin de trouver la technique la plus adéquate/robuste pour notre cas mais aussi pour vérifier quelques caractéristiques des espaces de paramètres pour les état émotionnels.

Et enfin, sur la base de ces résultats, un moteur de d’indexation a été construit.

Mots-clés : émotion, reconnaissance de l’émotion, indexation de l’émotion, recherche d'informations multimédia.

Abstract:
This thesis is located at the crossroads of speech processing, pattern recognition and multimedia information retrieval. The explosion in the volume of audio-visual documents in recent years gives rise to a new need: the indexing of extra-linguistic elements for searching by content, with emotion being one of the most important extra-linguistic elements used in speech. Indeed, the indexing enriched by emotional information permits more precise document classification and responds to the new needs in archiving and searching large audio-visual documents.

In this context, our work is directed towards speaker independent emotional recognition and indexing. To facilitate systematic study, we also considered and analyzed two cases: mono-speaker and multi-speaker emotional recognition. We have also developed a methodology to gradually eliminate inadequate parameters and techniques. To achieve this goal, we have chosen a corpus balanced in terms of number of speakers and number of emotional samples. The results obtained with this corpus are then validated with other corpora in the same language and other languages

Much of this thesis focuses on parameters. First, sets of potential parameters are proposed and analyzed, including prosodic aspects such as fundamental frequency, intensity, duration, MFCC coefficients, LFCC coefficients, LPC coefficients and other factors extracted from the time domain.

Second, the best parameters were sorted by the method of Forced Sequential Forward Selection (FSFS); in this stage, an approach of symbolic standardization proposed has also shown its effectiveness when facing the problem of robustness in our speaker independent recognition system.

The other part of the thesis is based on the study of three types of classification techniques: modelling techniques, separation techniques and techniques to capture temporal evolution. Our objective is not only to find the most appropriate / robust technique for our case but also to verify some characteristics of the parameter space for emotional states.

Finally, on the basis of these results, an indexing engine was built.

Keywords: emotion, emotion recognition, indexation, multimedia information retrieval.