M. NGUYEN Hong Thai, doctorant du laboratoire LIG Grenoble, a soutenu brillament sa thèse à Grenoble le 18 décembre 2009. Cette thèse a été co-dirigée par le Centre MICA Hanoi.

Titre : Des systèmes de TA homogènes vers des systèmes de TAO hétérogènes

Co-directeur de thèse (LIG) : M. Christian BOITET
Co-directeur de thèse (MICA) : M. Eric CASTELLI

Membres du jury :
M. Laurent BESACIER Président UJF
M. Jacques CHAUCHÉ Rapporteur Univ. Montpellier
M. Denis MAUREL Rapporteur Univ. Tours
M. Jesus CARDEÑOSA Rapporteur Univ. Madrid (UPM)
M. Vincent BERMENT Examinateur C&S et CC INaLCO (Paris)
M. Mathieu LAFOURCADE Examinateur Univ. Montpellier
M. Eric CASTELLI Codirecteur MICA, CNRS
M. Christian BOITET Codirecteur UJF

Résumé:
La thèse porte sur les problèmes posés par la conception et la réalisation de la partie logicielle des systèmes de traduction automatisée (TAO) hétérogènes, intégrant des systèmes de TA multiples et/ou à composants hétérogènes, ainsi qu'une partie THAM (traduction humaine aidée par la machine), reposant sur des mémoires de traductions. Ces systèmes se développent à côté des systèmes de TA homogènes et de THAM, et les supplanteront peut-être à moyen terme.

Leurs différents composants de TA seront construits par des équipes différentes, distribuées autour de la planète, avec des méthodes algorithmiques et des outils différents (langages spécialisés ou LSPL), ainsi que des ressources et composants linguiciels différents (dictionnaires et corpus de divers types, grammaires et transducteurs basés sur des règles), à l'aide d'EDL (environnements de développement linguiciel) eux aussi différents. Les contributions de la thèse concernent en particulier :
  • l'amélioration des « méta-EDL de TAO », permettant d'effectuer une transition incrémentale entre les EDL natifs des systèmes de TA utilisés pour construire un systèmes de TAO à composants hétérogènes, et un futur EDL intégrateur universel, dans lequel on pourra « rapatrier » la compilation et l'exécution des LSPL ;
  • la conception et la réalisation d'une base lexicale partageant un même pivot lexical, PIVAX, réalisée au-dessus de la plate-forme Jibiki (G. Sérasset, GETALP) ;
  • la réingénierie de langages spécialisés « externes » (non supportés par l'EDL Ariane-G5), avec application aux « systèmes-Q » (A. Colmerauer, 1967), qui servit de base pendant 15 ans au système de TA TAUM-météo destiné aux bulletins météorologiques canadiens ;
  • la conception et la réalisation d'un « moniteur » adapté à la partie « production » d'un système de TAO hétérogène, EMEU_w.1.0, qui a été développé et utilisé dans le cadre d'un projet de grande ampleur.

Mots-clés :
TA et TAO hétérogène, BDLM, réingénierie de LSPL, EDL.

Abstract:
The thesis deals with problems posed by the design andimplementation of the software part of CAT (Computer Automated Translation) systems, integrating multiple MT (Machine Translation) systems and/or MT systems with heterogeneous components, as well as a MAHT (Machine Aided Human Translation) part, based on translation memories. These systems are emerging beside homogeneous MT systems and MAHT system, and may replace them in the middle term.

Their various MT components will be built by different teams, distributed around the world, using different algorithmic methods and different tools (Specialized Languages or SLLP), as well as different lingware resoures and components (corpora and dictionaries of various types, rule-based grammars and transducers), and developing under different lingware development environments (EDL). The contributions of the thesis concern especially:
  • the improvement of the "meta-EDL for CAT systems", allowing to carry out an incremental transition between the native EDLs of the MT systems used for building a heterogeneous MT system, and a future "universal integrating EDL", in which it will be possible to reengineer the compilers and engines (interpreters) of the SLLPs from various systems;
  • the design and the implementation of PIVAX, a contributive lexical database for heterogeneous CAT systems sharing the same "lexical pivot", built over the Jibiki platform (G.Sérasset, GETALP);
  • the reengineering of "external" specialized languages (not supported by the EDL of Ariane-G5), with an application to the "Q-Systems" (A. Colmerauer, 1967) that was for 15 years the basis of the TAUM-meteo MT system used to translate the Canadian weather bulletins ;
  • the design and the implementation of EMEU_w.1.0, a "monitor" handling the "production" part of a heterogeneous CAT system, that has been used in the framework of a large-scale project.

Keywords:
heterogeneous CAT, MT, lexical database, SLLP reengineering, EDL (environment for lingware development).


Quelques photos :