... application aux technologies vocales pour l'interaction homme-machine. Séminaire de Mme Nguyen Thi Thu Trang, doctorante du Centre MICA - Date : mardi 2 novembre 2010, 14h00 - Lieu : Seminar Room, 9ème étage, bâtiment B1, Centre MICA

Intervenant :
Mme Nguyen Thi Thu Trang, co-doctorante en co-tutelle entre le Centre MICA et le laboratoire LPP de l'Université Paris 3 Sorbonne

Date : mardi 2 novembre 2010, 14h00
Lieu : Seminar Room, 9ème étage, bâtiment B1, Centre MICA, Institut Polytechnique de Hanoi
Interprète traducteur : le séminaire sera proposé en anglais

Résumé :
La construction d’une machine qui puisse parler comme l’homme est un espoir poursuivi depuis de nombreuses années. Cette longue quête a amené la naissance d’une discipline, la « synthèse de la parole ».

Aux premiers temps du processus de développement, les systèmes ont produit une parole synthétique qui accusait une qualité « robotique », telle que nous avons l’habitude de l’entendre dans les films de science-fiction. A cette époque, la plupart des travaux de recherche sur la synthèse de la parole ont focalisé l’attention des chercheurs sur l’intelligibilité du signal synthétique. Après de nombreuses années de développement, d’énormes efforts dans plusieurs domaines tels que le traitement du signal, la linguistique, la phonétique, les mathématiques et les statistiques ont permis de proposer de nombreuses techniques de synthèse différentes et la qualité de la parole synthétique s’est progressivement améliorée. Ces dernières années, de plus en plus de systèmes de synthèse produisent de la parole de haute qualité (proche de la parole humaine). De nos jours, les travaux en synthèse de la parole se concentrent principalement sur l’amélioration du naturel de la parole synthétique [Keller 2002].

En langue vietnamienne, la génération du contour de F0 est un problème complexe, et elle est dépendante du type de modèle de l’intonation choisi pour la transcrire. Des premiers résultats d’analyse ont montré que nous ne pouvons pas utiliser uniquement les modèles existants dans la littérature tels que le modèle ToBI [Silverman 1992] ou le modèle Fujisaki [Fujisaki 1981] pour modéliser l’intonation en langue vietnamienne [Mixdorff 2003] [Nguyen D.T. 2004] [Trần Đ. Đ. 2007]. C'est pourquoi, une nouvelle approche a alors été proposée pour générer le contour de F0 de la parole synthétisée en vietnamien [Trần Đ. Đ. 2007]. Nous présenterons cette nouvelle approche et comment nous comptons l'améliorer.

Références :

[Fujisaki 1981]

Fujisaki, H. (1981): "Dynamic characteristics of voice fundamental frequency in speech and singing. Acoustical analysis and physiological interpretations", In STL-QPSR, vol. 22, No 1, pp. 1-20.

[Keller 2002]

Keller E., (2002), “Toward greater naturalness: Future directions of Research in Speech Synthesis” in Keller E., Bailly G., Monaghan A., Terken J., et Huckvale M. (Eds.) Improvement in Speech synthesis, John Wiley and Sons, 2002.

[Mixdorff 2003a]

Mixdorff, H., Nguyen B. H., Fujisaki H. Luong C. M., "Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese”, Proc. of EuroSpeech2003, Geneva, pp. 177-180, 2003.

[Nguyễn D.T. 2004]

Nguyễn D.T., Mixdorff H., et al., "Fujisaki Model based F0 contours in Vietnamese TTS”, ICSLP2004, Korea, pp. 1429-1432, 2004 .

[Trần Đ. Đ. 2007]

Trần Đ. Đ., « Synthèse de la parole à partir du texte en langue vietnamienne », PhD. thesis INP- Grenoble, France, décembre 2007