La IA es incapaz de identificar emociones a partir de la expresión facial
July 31, 2019 Noticias , TecnologíaAunque haya empresas que afirman ser capaces de ofrecer reconocimiento emocional automático a partir de la cara, un estudio afirma que a la inteligencia artificial le faltan muchos datos para hacerlo con precisión. Para lograrlo, necesitaría más información como el contexto, la cultura y el lenguaje no verbal.
Cuando intentamos adivinar cómo se siente alguien, utilizamos mucha información: expresiones faciales, lenguaje corporal, dónde está esa persona y mucho más. Pero cuando los ordenadores lo intentan, tienden a centrarse solo en la cara. Esta limitación provoca que las afirmaciones de las compañías de “reconocimiento de emociones” estén equivocadas, según un importante estudio.
Se estima que el reconocimiento de emociones, que consiste en usar tecnología para analizar las expresiones faciales y deducir los sentimientos a partir de ellas, representa un negocio de 18.000 millones de euros. Grandes compañías como Microsoft y Apple, y también algunas start-ups especializadas como Kairos y Affectiva ya se dedican a este negocio. Aunque la tecnología de reconocimiento de emociones se utiliza más habitualmente para vender productos, también ha empezado a aplicarse en la contratación de personal y para determinar si alguien intenta cometer un fraude de seguros. En 2003, la Administración de Seguridad del Transporte de EE. UU. comenzó a ofrecer formaciones para detectar posibles terroristas a través de sus expresiones faciales, así que es fácil imaginar un proyecto de inteligencia artificial (IA) con el mismo objetivo. (El programa de la Administración de Seguridad del Transporte fue ampliamente criticado por estar basado en una ciencia deficiente).
Pero en los últimos años, el rechazo contra la idea de que las expresiones faciales revelan fácilmente los sentimientos ha empezado a crecer. De hecho, un grupo de científicos reunidos en la Asociación para la Ciencia Psicológicase ha pasado dos años revisando más de 1.000 artículos sobre la detección de emociones. Se centraron en investigar cómo las personas mueven la cara cuando ante ciertas emociones y cómo la gente deduce los estados emocionales de otras personas. El grupo concluye que es muy difícil decir con precisión cómo se siente alguien únicamente a partir su expresión facial.
La gente sonríe cuando está contenta y frunce el ceño cuando está triste, pero esa correlación es débil, asegura la coautora del estudio y psicóloga de la Universidad Northeastern (EE. UU.) Lisa Feldman Barrett. Las personas hacen muchas otras cosas con la cara cuando están felices o tristes. Una sonrisa puede ser burlona o irónica. Los comportamientos varían mucho en función de las culturas y las situaciones, y el contexto juega un papel importante en la forma en la que interpretamos las expresiones. Por ejemplo, en estudios en los que se muestra una imagen de una cara positiva en el cuerpo de alguien en una actitud negativa, los sujetos interpretaron la expresión facial como más negativa.
En resumen, las expresiones que hemos aprendido a asociar con las emociones son estereotipos, y la tecnología basada en esos estereotipos no ofrece información de calidad. Reconocer correctamente las emociones es caro y requiere una gran cantidad de datos muy específicos, según Barrett, mayor de lo que nadie ha reunido hasta ahora.
El peligro de la falta de datos
La mayoría de las compañías a las que pedí comentarios sobre este tema, incluidos Apple y Microsoft, no respondieron. Una que sí lo hizo, Kairos, asegura a sus usuarios que es capaz de usar la tecnología de reconocimiento de emociones para descubrir cómo se sienten sus clientes. Su sistema escanea la cara de los clientes y analiza aspectos como una ceja levantada o una sonrisa para saber están está contentos o tristes. Gracias a este proceso, Kairos puede ofrecer el tipo de información que a las empresas tradicionales les cuesta recopilar, sostiene su CEO, Melissa Doval.
Para entrenar su tecnología, Kairos empezó escaneando caras de personas mientras visualizaban vídeos que provocaban distintas emociones. También generaron datos a partir de gente posando. Una persona de la compañía se encarga de etiquetar esos datos para entrenar el algoritmo.
Se trata de un enfoque bastante común, pero el nuevo estudio revela que tiene dos grandes defectos. Uno de ellos tiene que ver con las caras posadas. Si nos dicen que pongamos la cara de sorpresa, esa expresión puede ser muy diferente la que pondríamos cuando nos sorprendemos de verdad. El otro problema está relacionado con la persona que revisa y etiqueta estos datos. Un observador puede definir una expresión facial como “sorprendido”, pero es difícil saber la verdadera emoción sin preguntar a la persona en cuestión.
El resultado es una tecnología con capacidades bastante rudimentarias. Por su parte, Doval afirma que ahora se están centrando en mejorar la cámara y los instrumentos en lugar de la tecnología de las emociones en sí. Añade que, con el tiempo, estarán interesados incorporar investigaciones como las de Barrett y en agregar datos demográficos para tener más contexto y aumentar la precisión del algoritmo.
El peligro de acertar
Barrett lanza algunas recomendaciones para mejorar el reconocimiento de las emociones. Entre ellas, destacan no usar fotos individuales sino analizar a los individuos en diferentes situaciones a lo largo del tiempo; recopilar mucho contexto, como la voz, la postura, lo que sucede en el entorno, la información fisiológica, lo que ocurre con el sistema nervioso; y descifrar qué significa una sonrisa en una persona concreta en una situación específica. Luego hay que repetirlo todo para ver si aparecen patrones en personas con características similares como el género. La investigadora detalla: “No siempre hay que medirlo todo, pero se puede analizar a un gran número de personas en diferentes culturas. Creo que, por naturaleza, todos vamos hacia este enfoque de big data. Ahora es posible, pero hace una década era muy difícil”.
Este método se parece más al enfoque de compañías como Affectiva. La cofundadora y CEO de Afectiva, Rana el Kaliouby, coincide en que la comprensión actual de las emociones está demasiado simplificada. El análisis de la propia compañía, por ejemplo, demuestra que existen al menos cinco tipos diferentes de sonrisas, desde una coqueta hasta una educada. Affectiva recopila datos en 87 países, graba a las personas en situaciones de la vida real (cuando conducen) y les pide que expliquen cómo se sienten. “¿Es un problema resuelto? En absoluto”, asegura el Kaliouby. La tecnología de Afectiva funciona mejor para clasificar la “alegría”, por ejemplo, que para diferenciar el miedo, la ira y el disgusto.
Para una mayor precisión, es mejor tener más datos. Pero recopilar tanta información personal también genera problemas, como demuestran las actuales polémicas sobre reconocimiento facial. La gente tiene cada vez más miedo de perder su privacidad o de que sus datos se utilicen en su contra. “Es algo que debería preocupar cualquiera que usa estos sistemas. Lo importante es tener la adecuada protección de datos”, opina la investigadora de privacidad del Proyecto de la Sociedad de la Información de la Universidad de Yale (EE. UU.) Tiffany Li. Debemos saber, por ejemplo, de dónde provienen los datos, cómo se recopilan y cómo se almacenan. ¿Acabarán siendo vendidos o transferidos? ¿Se vincularán a cualquier otro conjunto de datos que permita identificar a los sujetos? (ver Bastan tres datos para identificar a cualquiera en una base anónima)
Affectiva afirma que se niega a trabajar con compañías de vigilancia o de detección de mentiras. Los investigadores académicos generalmente tienen unos límites estrictos sobre cómo recopilar y compartir los datos. Pero el sector privado no se rige por las reglas generales sobre la recogida y el uso de datos, y eso podría ser peligroso si las empresas intentan mejorar sus tecnologías. Li concluye: “No creo que tengamos suficiente protección de datos en este momento”.