M. Thomas Martin, doctorant enco-tutelle entre le Centre MICA et le laboratoire L3I de l'Université de La Rochelle (France) a soutenu sa thèse à La Rochelle le 9 mars 2009.

Titre : Vers une reconnaissance multimodale du texte et de la parole pour l'analyse de documents vidéos pédagogiques

Doctorant : M. Thomas MARTIN

Directeur de thèse : M. Jean-Marc OGIER
Co-directeur de thèse (MICA) : M. Eric CASTELLI
Co-encadrant : M. Alain Boucher

Résumé :
Cette thèse s’intéresse à la mise en oeuvre de méthodes de reconnaissance multimodale du texte et de la parole dans des contenus audiovisuels. Elle se focalise en particulier sur les enregistrements de cours présentiels, dans lesquels est fait un usage intensif de l’écrit et de la parole. Avec l’augmentation massive de la production de données multimédias, l’accès à ces dernières devient problématique et doit passer par une indexation efficace des contenus. En particulier, il est nécessaire de tenir compte de la nature hétérogène de l’information présente. C’est à cet objectif que tentent de répondre le paradigme de l’analyse multimodale et les méthodes d’analyse qui s’y rapportent. Il convient cependant de constater qu’en raison de l’émergence récente de l’analyse multimodale, il n’y a eu que peu de tentatives de définition de ce domaine. Par ailleurs, peu de travaux se sont intéressés à l’interaction entre texte et parole dans les flux multimédias et à la prise en compte de cette interaction pour leur extraction. Notre contribution s’axe donc sur deux points. En premier lieu, nous souhaitons combler le manque de définition en proposant un modèle de l’analyse multimodale. Son objectif est de disposer d’un cadre permettant une meilleure description des applications recourant à l’analyse multimodale, notamment en définissant précisément les concepts de modalité et de multimodalité.
Le second point de notre contribution est axé sur la reconnaissance multimodale du texte et de la parole. Nous procédons pour cela à une comparaison des processus de reconnaissance du texte et de la parole pour ensuite étudier deux cas de collaboration texte-parole. Le premier n’implique pas un processus de reconnaissance du texte mais repose sur la constitution d’un modèle de langage thématisé à partir des ressources textuelles du cours pour améliorer la reconnaissance de la parole. Malgré la petite taille de ce corpus, nous montrons une amélioration significative des résultats de reconnaissance. Nous expérimentons enfin une méthode de reconnaissance croisée du texte et de la parole basée sur la complémentarité des représentations écrite et phonétique du langage. Nous montrons que cela permet d’améliorer les résultats de reconnaissance du texte, voire même, à terme, de faire ressortir le vocabulaire spécialisé du cours.

Mots-clés : analyse multimodale, analyse vidéo, reconnaissance de la parole, reconnaissance du texte, détection de texte dans la vidéo, extraction de texte dans la vidéo, segmentation de caractères, enseignement à distance

 

Abstract:
This work focuses on the implementation of methods for multimodal recognition of text and speech in audiovisual content. It focuses in particular on lecture records, in which text and speech are extensively used. As the production of multimedia data is massively increasing, the access to these data becomes problematic and requires an efficient content indexing. It is necessary to take into account the heterogeneous nature of this information which is the aim of the paradigm of multimodal analysis. It should however be noted that due to the recent emergence of multimodal analysis, there have been only few attempts to define this field.
In addition, only few studies have focused on the interaction between text and speech in multimedia stream and the use of this interaction for their extraction. Our contribution focuses on two points. First, we wish to address the lack of definition by proposing a model of the multimodal analysis. Its goal is to propose a framework for a better description of applications using multimodal analysis, including clearly defining the concepts of modality and multimodality. The second point of our contribution is focused on the multimodal recognition of text and speech. We compare text and speech recognition processes then consider two cases of text-speech collaboration. The first one doesn’t involve text recognition. It aims to improve speech recognition by using a thematized language model based on textual resources of the course. Despite the small size of this corpus, we show a significant improvement in recognition results. We are experiencing also a text and speech cross-recognition method based on the complementarity phonetic and written representations of language. We show that this approach improves the text
recognition results and could be used to emphasize the specialized vocabulary of the course.

Keywords: multimodal analysis, video analysis, speech recognition, text recognition, video text detection, video text extraction, characters segmentation, elearning