Des chercheurs de Google IA ont réussi à développer Translatotron, une intelligence artificielle (IA) capable de traduire les paroles d’un orateur, tout en gardant l’intonation originale. A la différence des traducteurs numériques habituels ou de Google Traduction, qui traduit le texte pour ensuite le prononcer à l’oral avec une voix artificielle, Translatotron convertit directement l’entrée audio en sortie audio, sans aucune étape intermédiaire.
Destiné au grand public, ce nouvel outil présente l’avantage de minimiser les erreurs entre la reconnaissance vocale et la traduction écrite, de rendre une traduction plus rapide, mais surtout plus naturelle, d’avoir une meilleure gestion des mots qui n’ont pas besoin d’être traduits (comme les noms) et de restituer le texte avec la voix source. En gros, Translatotron s’affranchit complètement du texte, en traduisant directement les paroles d’un locuteur, comme le ferait un traducteur humain, en temps réel.
De manière pratique, Translatotron fonctionne à partir de trois éléments chargés de produire une traduction impeccable. Le premier composant utilise un réseau neuronal afin d’associer le spectrogramme audio dans sa langue d’origine au spectrogramme audio dans la langue de sortie. Le second convertit le spectrogramme en une onde audio. Pour finir, le dernier composant permet de finaliser l’intonation de la voix en superposant les caractéristiques vocales d’origine avec la version finale. Cette méthode permet de conserver le rythme et les intonations du locuteur, ce qui devrait déboucher à terme sur une traduction plus naturelle et plus humaine.
Même si les premiers essais n’ont testé que la traduction de l’anglais vers l’espagnol, il est important de noter que les premiers clips audio sont plutôt prometteurs en vue d’un éventuel service grand public.
Fernand Appia
Comments