A la inteligencia artificial le falta aún sentido común

El procesamiento del lenguaje natural (PNL) ha dado grandes pasos recientemente, pero ¿cuánto entiende la inteligencia artificial de lo que lee? Menos de lo que pensábamos, según investigadores del Departamento de Ciencias de la Computación de la USC.

Los mejores sistemas de procesamiento de lenguaje natural aún generan frases sin sentido, como que “dos perros se lanzan frisbees entre sí”. / Adriana Sánchez

En un artículo reciente, el profesor adjunto Xiang Ren y el estudiante de doctorado Yuchen Lin descubrieron que, a pesar de los avances, la inteligencia artificial aún no tiene el sentido común necesario para generar frases plausibles.

“Los modelos actuales de generación automática de textos pueden escribir un artículo que puede ser convincente para muchos humanos, pero básicamente están imitando lo que han visto en la fase de entrenamiento”, dijo Lin. “Nuestro objetivo en este trabajo es estudiar el problema de si los actuales modelos de generación de texto de última generación pueden escribir frases para describir escenarios naturales en nuestra vida cotidiana”.

Específicamente, Ren y Lin probaron la capacidad de razonamiento de los modelos y mostraron que hay una gran brecha entre los modelos de generación de texto actuales y el rendimiento humano. Dada una serie de sustantivos y verbos comunes, los modelos computarizados de PNL de última generación se encargaron de crear frases creíbles que describieran un escenario cotidiano. Si bien los modelos generaban oraciones gramaticalmente correctas, a menudo eran incoherentes desde el punto de vista de la lógica.

Por ejemplo, he aquí un ejemplo de frase generada por un modelo de última generación que utiliza las palabras “perro, frisbee, lanzar, atrapar”:

“Dos perros se están lanzando frisbees el uno al otro”.

La prueba se basa en el supuesto de que no se pueden generar ideas coherentes (en este caso: “una persona lanza un frisbee y un perro lo atrapa”) sin una conciencia más profunda de los conceptos de sentido común. En otras palabras, el sentido común es más que la comprensión correcta del lenguaje, significa que no tienes que explicarlo todo en una conversación. Este es un desafío fundamental en el objetivo de desarrollar una inteligencia artificial generalizable, pero más allá del ámbito académico, también es relevante para los consumidores.

Sin una comprensión del lenguaje, los chatbots y asistentes de voz construidos sobre estos modelos de lenguaje natural de última generación son vulnerables al fracaso. También es crucial si los robots van a estar más presentes en los entornos humanos. Después de todo, si le pides a un robot leche caliente, esperas que sepa que quieres una taza de leche, no el cartón entero.

El razonamiento de sentido común, o la capacidad de hacer inferencias usando conocimientos básicos sobre el mundo -como el hecho de que los perros no pueden lanzarse frisbees unos a otros- ha resistido los esfuerzos de los investigadores de la inteligencia artificial durante décadas. Los modelos de aprendizaje profundo de última generación pueden ahora alcanzar alrededor de un 90% de precisión, por lo que parece que la PNL se ha acercado a su objetivo.

“Los seres humanos adquieren la capacidad de componer oraciones aprendiendo a comprender y utilizar conceptos comunes que reconocen en su entorno”, dijo Lin. “Adquirir esta capacidad se considera un hito importante en el desarrollo humano. Pero queríamos probar si las máquinas pueden realmente adquirir tal capacidad de razonamiento generativo con sentido común”.

Para evaluar los diferentes modelos automáticos, desarrollaron una tarea de generación de texto restringida llamada CommonGen, que puede utilizarse como referencia para probar el sentido común generativo de las máquinas. Los investigadores presentaron un conjunto de datos que consistía en 35.141 conceptos asociados con 77.449 frases. Encontraron que el modelo de mejor rendimiento solo alcanzó una tasa de precisión del 31,6% frente al 63,5% de los humanos.

“Nos sorprendió que los modelos no puedan recordar el simple conocimiento de sentido común de que ‘un humano lanzando un frisbee’ debería ser mucho más razonable que un perro haciéndolo”, dijo Lin. “Encontramos que incluso el modelo más fuerte, llamado T5, después de entrenarse con un gran conjunto de datos, todavía puede cometer errores tontos”.

Parece, dijeron los investigadores, que las pruebas anteriores no han desafiado suficientemente a los modelos en sus habilidades de sentido común, imitando en cambio lo que han visto en la fase de entrenamiento.

NCYT