El peligro real de los ‘deepfakes’ de clonación de voz y cómo detectarlos

Uno de los usos tecnológicos más llamativos de las películas de Misión Imposible es el cambiador de voz.

Ethan Hunt (Tom Cruise) se pone una máscara con la cara de la víctima, habla de forma natural con la voz del suplantado y así se hace pasar por él. Cada vez estamos más cerca de esto gracias a la inteligencia artificial (IA); al menos en lo que respecta a copiar la voz. Hay una diferencia. No siempre copiamos la voz con el noble objetivo de luchar contra el mal, como en las películas. A veces es para engañar de viva voz. Son las deepfake de clonación de voz.

La clonación de la voz con fines delictivos viene sucediendo desde hace unos años. Últimamente es más preocupante porque cada vez resulta más fácil y lo cierto es que nadie está a salvo.

Uno de los primeros casos relevantes de deepfake de clonación de voz sucedió en 2020. El damnificado fue el director de una sucursal de una empresa japonesa en Hong Kong. Recibió una llamada telefónica de quien decía ser el director de la compañía. Aparentemente, todo era normal. El director de la sucursal reconoció la voz de su responsable, y por ello no tuvo reparo en seguir todas las instrucciones que le dio. Así transfirió 35 millones de dólares a los estafadores.

Eso ocurrió hace tres años. Ahora es más frecuente. En la primavera de este año, el inversor de Florida Clive Kabatznik fue víctima de un intento similar. En Canadá unos abuelos recibieron una llamada supuestamente de su nieto. Les alarmaba de que estaba en la cárcel y necesitaba efectivo para pagar la fianza. Afortunadamente, en ambos casos los intentos fueron detectados y no se pudo consumar la estafa. Pero el riesgo existe porque la tecnología está al alcance de la mano.

Con tres segundos es suficiente para clonar

Actualmente la clonación de voz no es exactamente como en Misión Imposible. No se transforma la voz de una persona en la de otra, sino que se lee un texto con la voz de una persona particular. Es lo que se conoce como síntesis de texto a discurso (test-to-speech o TTS). Su funcionamiento se basa en identificar patrones de voz. Todos hablamos de una forma particular, y por ello reconocemos las voces de cada persona. Tenemos un cierto tono, un timbre y una cadencia particular. En la clonación de la voz se utilizan redes neuronales entrenadas para reconocer estos patrones identificativos de cada voz y luego reproducirlos en la lectura de cualquier texto.

Un ejemplo significativo de IA de clonado de voz es VALL-E, de Microsoft. Su red neuronal ha sido entrenada con más de 60 000 horas de audio en inglés de 7 000 personas diferentes. Su potencia radica en que, para clonar una voz, le basta con tres segundos de grabación. Dispone también de la versión VALL-E (X), que permite la clonación de la voz en un idioma distinto al original. Por el momento, Microsoft no facilita esta tecnología de forma abierta, pero todo apunta a que estará en breve.

Sin embargo, en Internet podemos encontrar muchas aplicaciones que permiten clonar una voz de forma sencilla. Basta con 30 segundos de grabación o leer un texto corto que proporciona la propia aplicación.

Estas aplicaciones no nacen con el propósito de “estafar voces”. Su objetivo es ofrecer voces particulares, o la propia voz, para actividades como la animación de vídeos, avatares en videojuegos, creación de parodias o acciones de marketing. También hay aplicaciones con fines sociales. Por ejemplo, en la lectura de textos para personas con dislexia. Clonar la voz no es un hecho delictivo en sí mismo. Depende del fin con el que cada uno lo haga.

Cómo evitar un engaño

En todos los casos estas aplicaciones avisan de posibles usos fraudulentos, si bien delegan en el usuario toda la responsabilidad de un uso inapropiado. Antes de usar este tipo de aplicaciones es recomendable leer las condiciones legales. No suelen estar escritas en un lenguaje amigable, pero determinan cuáles son nuestras responsabilidades y concesiones como usuarios. Por ello, vigile qué datos recopila la aplicación, además del registro de nuestra voz, y con qué fines los van a utilizar. Además, tenga presente que lo que publica puede ser accesible a terceras partes, quedando fuera de la política de privacidad de la propia aplicación.

Otro punto de atención es utilizar una voz sin permiso –puede ser la suya, no lo olvide–. Algo similar ya ha ocurrido en el caso de utilización de imágenes. La empresa Clearview AI entrenó su sistema de reconocimiento facial con 30 000 millones de imágenes tomadas de redes sociales sin consentimiento de sus dueños. Esto significa que cualquier voz subida a redes sociales puede ser utilizada como entrenamiento de otras IA o para ser clonada.

Por desgracia, no somos buenos identificando voces clonadas. Una forma de identificar si nuestra voz ha sido clonada con IA es utilizar la propia IA. Existen aplicaciones de IA que permiten identificar la clonación de voz. Pero es posible que no siempre tengamos acceso a esta tecnología.

Otras opciones, más al alcance de la mano, se basan en la natural respuesta ante la intuición de una estafa: verificar con terceras personas si una grabación sospechosa puede ser de su dueño o no; ponernos en contacto por otra vía con la persona supuestamente suplantada; o preguntar o comentar algo al interlocutor sospechoso que solo la verdadera persona conoce. Hay que recordar que se clona la voz, pero no la persona (todavía).

The Conversation

Tags clonación de voz deepfakes IA inteligencia artificial Profe Morales