Subweb vise à construire de manière automatique un corpus bilingue de phrases, d’expressions courantes dans le but final de créer une machine de traduction vocale. L’idée est de réaliser ce type de corpus à l’aide de fichiers de sous titres de films ; en effet on se trouve dans ce contexte devant une quantité impressionnante de données exploitables, dont la qualité de traduction est bonne.
Afin d’exploiter ces données, il faut réaliser un alignement entre les sous-titres des deux fichiers, ce qui n’est pas trivial. Ainsi David Langlois, Caroline Lavecchia et Kamel Smaïli vous proposent ici de découvrir une méthode qu’ils ont développée afin de résoudre cette problématique. Vous aurez la possibilité de charger vous-mêmes deux fichiers et d’en constater le résultat, ou bien pour une approche plus pédagogique, vous aurez la possibilité de donner vous-mêmes une dizaine de sous-titres et d’observer dans le détail les fondements de cette méthode.

