Esta nueva herramienta podría proteger tus fotos de la manipulación de la IA

PhotoGuard, creada por investigadores del MIT, altera las fotos de forma imperceptible para impedir que los sistemas de inteligencia artificial las manipulen,

MIT CSAIL

¿Recuerdas el selfie que publicaste la semana pasada? En la actualidad, nada impide que alguien lo tome y lo edite utilizando potentes sistemas de IA generativa. Peor aún, gracias a la sofisticación de estos sistemas, podría ser imposible demostrar que la imagen resultante es falsa.

La buena noticia es que una nueva herramienta, creada por investigadores del Instituto Tecnológico de Massachusetts (MIT), podría evitarlo

PhotoGuard funciona como un escudo protector que altera las fotos de formas minúsculas e invisibles al ojo humano, pero que impiden su manipulación. Si se utiliza una aplicación de edición basada en un modelo generativo de IA, como Stable Diffusion, para manipular una imagen que ha sido “inmunizada” por PhotoGuard, el resultado será poco realista o deformado.

En la actualidad, “cualquiera puede modificar nuestra imagen como quiera, ponernos en situaciones muy feas y chantajearnos”, afirma Hadi Salman, investigador doctorado del MIT que ha contribuido a la investigación. El informe se presentó la semana pasada en la Conferencia Internacional sobre Aprendizaje Automático.

PhotoGuard es “un intento de resolver el problema sobre nuestras imágenes manipuladas por estos modelos [de IA]”, asegura Salman. La herramienta podría, por ejemplo, evitar que los selfies de mujeres se conviertan en pornografía deepfake no consentida.

La necesidad de encontrar formas de detectar y detener la manipulación impulsada por IA nunca ha sido más urgente, ya que las herramientas de IA generativa la han hecho mucho más rápida y fácil. En un compromiso voluntario con la Casa Blanca, varias empresas líderes en IA como OpenAI, Google y Meta se comprometieron a desarrollar tales métodos en un esfuerzo por prevenir el fraude y el engaño. PhotoGuard es una técnica complementaria a la marca de agua. Mientras la primera tiene como objetivo impedir que la población utilice herramientas de IA para manipular imágenes, la marca de agua utiliza señales invisibles similares para permitir que se detecte el contenido generado por IA una vez que ha sido creado.

El equipo del MIT utilizó dos técnicas diferentes para impedir que se editaran las imágenes mediante Stable Diffusion, el modelo de código abierto para la generación de imágenes.

La primera técnica se denomina ataque codificador. PhotoGuard añade señales imperceptibles a la imagen para que el modelo de IA la interprete como otra cosa. Por ejemplo, estas señales podrían hacer que la IA categorizara una imagen de Trevor Noah como un bloque gris. Así, cualquier intento de utilizar Stable Diffusion para editar al presentador resultaría poco convincente.

La segunda técnica, más eficaz, se denomina ataque de difusión. Esta altera el proceso mediante el cual los modelos de IA generan las imágenes, las codifica con señales secretas que alteran la forma de procesar que tiene el modelo. Al añadir estas señales a una imagen de Trevor Noah, el equipo consiguió manipular el modelo de difusión para que ignorara sus indicaciones y generara la imagen que querían los investigadores. Como resultado, cualquier imagen del cómico estadounidense que fuera editada por la IA se vería de color gris.

El trabajo es “una buena combinación de una necesidad tangible con todo lo que se puede hacer ahora mismo”, explica Ben Zhao, profesor de Informática de la Universidad de Chicago (EE UU), que desarrolló Glaze, un método de protección similar. Gracias a Glaze, los artistas pueden evitar que sus obras sean recopiladas para su uso en modelos de IA.

Herramientas como PhotoGuard cambian la economía y los incentivos de los atacantes al dificultar el uso malintencionado de la IA, según afirma Emily Wenger, investigadora científica de Meta. Wenger también trabajó en Glaze y ha desarrollado varios métodos para evitar el reconocimiento facial.

“Cuanto más alto esté el listón, menos gente estará dispuesta o será capaz de superarlo”, afirma Wenger.

Un reto será comprobar la transferencia de esta técnica a otros modelos existentes, asegura Zhao. Los investigadores han publicado en internet una demo que permite a los usuarios inmunizar sus propias fotos, pero solo funciona de forma fiable en Stable Diffusion de momento.

Aunque PhotoGuard puede dificultar la manipulación de nuevas imágenes, no ofrece una protección completa contra las falsificaciones, ya que las imágenes antiguas de los usuarios seguirán disponibles para su uso indebido, y también hay otras formas de producir falsificaciones, explica Valeriia Cherepanova, investigadora de la Universidad de Maryland (Washington D.C.) que ha desarrollado técnicas para proteger a los usuarios de las redes sociales del reconocimiento facial.

En teoría, la gente podría aplicar este escudo protector a sus imágenes antes de subirlas a internet, explica Aleksander Madry, profesor del MIT y participante de la investigación. Pero lo más eficaz sería que las empresas tecnológicas lo añadieran automáticamente a las imágenes que los usuarios suben a sus plataformas, añade Madry.

Sin embargo, se trata de una carrera armamentística. Aunque se han comprometido a mejorar los métodos de protección, las empresas tecnológicas también están desarrollando modelos de IA nuevos y mejores a una velocidad vertiginosa. Además, los nuevos modelos podrían ser capaces de anular cualquier protección.

Lo ideal sería que las empresas que desarrollan modelos de IA también ofrecieran a los usuarios una forma de inmunizar sus imágenes que funcionara con cada modelo de IA actualizado, reconoce Salman.

Tratar de proteger a las imágenes de la manipulación de la IA en su origen es una opción más viable que utilizar métodos poco fiables para detectar la manipulación de la misma IA, afirma Henry Ajder, experto en IA generativa y deepfakes.

Cualquier plataforma de redes sociales o empresa de IA “tiene que proteger a los usuarios de la pornografía [no consentida] o la clonación de sus rostros para crear contenidos difamatorios”, concluye Ajder.

MIT TR