Clonación de voz en tiempo real, con una muestra de cinco segundos

Un potencial impresionante… y escalofriante.

La Web ya no es la misma. Tenemos deepfakes, deepnudes, gente falsa, paisajes falsos… y por supuesto, voces. Con el entrenamiento suficiente, tarde o temprano un algoritmo podrá clonar voces sin sacrificar demasiada precisión o velocidad. A mediados de 2018 hablamos sobre Lyrebird (hoy Descript) y su capacidad para trabajar con muestras pequeñas. Hoy es el turno de Real Time Voice Cloning, un proyecto abierto de Corentin Jemine que apenas necesita cinco segundos de voz para su reproducción en tiempo real.

Imagina las consecuencias. Un audio «filtrado» de un político o un famoso diciendo cosas espantosas. Declaraciones contradictorias e insostenibles. Mentiras. Errores. Y todo producto de un algoritmo, una inteligencia artificial entrenada para reproducir esos mensajes, siguiendo un tono específico. Clonar voces ha dejado de ser un privilegio del Terminator. Hoy, aquellos que posean el conocimiento adecuado pueden tomar código libre y abierto, disponible en este momento, y comenzar a reproducir voces en tiempo real. Si necesitan pruebas, bueno…

… creo que esta demostración del ingeniero especializado en aprendizaje de máquinas Corentin Jemine es más que suficiente. Su proyecto Real Time Voice Cloning puede generar frases arbitrarias en tiempo real utilizando muestras mínimas como base. Y cuando digo «mínimas» me refiero a cinco segundos.

Su trabajo se basa en un estudio publicado en enero de este año por un equipo de Google Research, llamado «Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis». En la página de GitHub también encontramos referencias a otros documentos orientados al vocoder WaveRNN, el sintetizador Tacotron 2, y el codificador GE2E.

Entonces… ¿cuál es la letra pequeña? En esencia, no hay binarios para descargar. Cualquier usuario que decida mojarse los pies con el Real Time Voice Cloning necesitará algunos conocimientos de Python, descargar modelos pre-entrenados, o encargarse del entrenamiento. Lamentablemente, el desarrollador se encuentra trabajando full time, y su tiempo para el repositorio es nulo. De todas maneras, es cuestión de paciencia. Lo mismo sucedió con el separador de voces Spleeter, y a las pocas semanas ya existía una versión online…

Real Time Voice Cloning (GitHub): Haz clic aquí

Neoteo