Séminaire de Mme DO Thi Ngoc Diep, doctorante de l'Institut MICA - Date : vendredi 18 novembre 2011, 14h00 - Lieu : "seminar room", Institut MICA, Hanoi University of Science & Technology

Intervenant : Mme DO THI Ngoc Diep, doctorante en co-tutelle entre le LIG (Grenoble) et l'Institut MICA (Hanoi)

Date : vendredi 18 novembre 2011, 14h00
Lieu : salle "seminar room", 9ème étage, Institut MICA, bâtiment B1, Hanoi University of Science & Technology
Interprète traducteur : le séminaire sera présenté en français

Résume/abstract:
Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais – français, anglais – chinois, anglais – espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste, nous permettent de construire rapidement un système de traduction si des corpus de données adéquats sont disponibles. En effet, la traduction automatique probabiliste est fondée sur l'apprentissage de modèles à partir de grands corpus parallèles bilingues pour les langues source et cible. Toutefois, la recherche sur la traduction automatique pour des paires de langues dites «peu dotés» doit faire face au défi du manque de données.

Nous avons ainsi abordé le problème d'acquisition d'un grand corpus de textes bilingues parallèles pour construire le système de traduction automatique probabiliste. L'originalité de notre travail réside dans le fait que nous nous concentrons sur les langues peu dotées, où des corpus de textes bilingues parallèles sont inexistants dans la plupart des cas.

Nous présentons notre méthodologie d'extraction d'un corpus d'apprentissage parallèle à partir d'un corpus comparable, une ressource de données plus riche et diversifiée sur l'Internet. Nous proposons trois méthodes d'extraction. La première méthode suit l'approche de recherche classique qui utilise des caractéristiques générales des documents ainsi que des informations lexicales du document pour extraire à la fois les documents comparables et les phrases parallèles. Cependant, cette méthode requiert des données supplémentaires sur la paire de langues. La deuxième méthode est une méthode entièrement non supervisée qui ne requiert aucune donnée supplémentaire à l'entrée, et peut être appliquée pour n'mporte quelle paires de langues, même des paires de langues peu dotées. La dernière méthode est une extension de la deuxième méthode qui utilise une troisième langue, pour améliorer les processus d'extraction de deux paires de langues. Les méthodes proposées sont validées par des expériences appliquées sur la langue peu dotée vietnamienne et les langues française et anglaise.

Mots clés : langues peu dotées, traduction automatique probabiliste, extraction de données parallèles, corpus comparable, méthode non supervisée, triangulation, alignement, métriques d'évaluation, etc.