Google nos presenta en su blog a Translatotron, su nuevo modelo integral de traducción de voz a voz. Que la compañía lleva años perfeccionando sus modelos de traducción no es algo nuevo, pero que estos modelos sean capaces de imitar la voz de las personas, sí.

Desde Google apuntan a que el principal objetivo de esto es ayudar a las personas que hablan distintos idiomas a comunicarse entre sí. Para lograr este nuevo sistema de voz a voz, proponen un modelo único de secuencia a secuencia, que se aleja de los sistemas en cascada y mejora, según Google, la velocidad, errores de composición y la propia traducción.

Google nos cuenta que Translalotron se basa en un modelo de extremo a extremo, superior a los tradicionales sistemas en cascada. Con esto, pretenden demostrar que se puede traducir el habla de un idioma a otro sin necesidad de que haya una representación intermedia de texto en ninguno de los dos idiomas, algo que sí requieren los sistemas en cascada.

La nueva herramienta de Google toma los espectogramas de origen y genera directamente otros espectogramas con el contenido traducido al idioma deseado. Para ello, se vale de un Vocoder neural, encargado darle la forma deseada a las ondas del espectograma de salida. Asimismo, utilizan un codificador capaz de preservar las características de la voz que se registra.

La principal novedad de Translatotron es que no funciona en cascada, y que añade elementos como un codificador capaz de retener las características del habla de la voz registrada

A la hora de entrenar a Translatotron, Google utiliza un objetivo multitarea en el que se busca predecir las transcripciones de origen y destino, mientras que, de forma simultánea, se generan los espectogramas finales.

En resumidas cuentas, Google registra la voz del interlocutor, logra preservar las caracterísiticas de su habla, y logra generar un espectograma de salida traducido al idioma objetivo, manteniendo dichas características del habla.

Emulando el lenguaje natural

Crear modelos de voz naturales lleva tiempo siendo una obsesión de Google. Hemos podido verlo en la forma de hablar que tiene Google Assistant. Esta es principalmente la diferencia que buscan con el resto de asistentes y modelos, la naturalidad.

La propia Google admite que sus resultados quedan por debajo de los sistemas tradicionales de cascada, pero demuestran la viabilidad de los sistemas de voz de extremo a extremo, que era su objetivo principal.

En primer lugar, nos muestran cómo funciona Translatotron bajo un modelo en cascada. Tenemos un input en español, una traducción de referencia, y la propia traducción de salida. Si escuchamos la traducción del modelo en cascada, nos encontramos ante el típico lenguaje trabado y secuencial de los antiguos asistentes.

Modelo en cascada

1 . Entrada

2 . Traducción de referencia

3 . Traducción de línea base en cascada

3 . Traducción de Translatotron

Posteriormente muestran cómo rinde Translatotron bajo un modelo de extremo a extremo. Destacan el trabajo del antes mencionado codificador, que logra conservar las características del habla a la hora de registrar la entrada de voz.

Modelo de extremo a extremo

  • Entrada

3 . Traducción de línea de base en cascada

4 . Traducción de Translatotrón (voz canónica)

5 . Traducción de Translatotrón (voz original del interlocutor)

En definitiva, Google trata de poner sobre la mesa su modelo de traducción por voz de extremo a extremo, destacando que son capaces de preservar las características del habla natural, punto clave para que los asistentes y traductores funcionen de forma “mas humana”. Con esto, buscan crear un buen punto de partida par futuras investigaciones y desarrollos de sistema de traducción de voz.