Los científicos enseñan a la computadora a distinguir el sexo según el texto escrito
April 24, 2018 Noticias , TecnologíaEl colectivo de científicos de la Universidad Nacional de Investigaciones Nucleares de Rusia (MEPhI), del Centro de Investigaciones ‘Instituto Kurchátov’, y la Universidad Estatal de Vorónezh desarrollaron un método para enseñar al ordenador a distinguir el género de la persona en función del texto escrito por la misma con un 80% de precisión.
Esta investigación en el campo de la lingüística computacional se llevó a cabo gracias a la beca concedida por la Fundación Científica de Rusia. Los resultados han sido publicados en la revista Procedia Computer Science.
Numerosos estudios científicos ponen de manifiesto que el texto escrito inevitablemente refleja las características de su autor, como el sexo, las particularidades psicológicas, el nivel educativo. El lenguaje es una valiosa herramienta de diagnóstico psicológico usada por los especialistas de recursos humanos de grandes empresas y los servicios de seguridad.
A partir del análisis del lenguaje se puede diagnosticar al individuo ciertas enfermedades (demencia, depresión) e inclinación a la conducta suicida. La necesidad de definir las características del autor de un texto aumenta conforme se desarrollan las comunicaciones por internet: a las empresas les importa saber a qué grupos sociales les agradan sus productos o servicios.
Los científicos que trabajan en este ámbito (lingüistas, psicólogos, especialistas en tecnologías de información), partiendo de los valores numéricos de diferentes parámetros del texto, diseñan modelos matemáticos para diagnosticar diversos parámetros de la personalidad.
El equipo de investigadores estudió la eficacia de diferentes tecnologías de aprendizaje automático con el empleo de las redes neuronales para analizar los textos.
Durante el estudio contrastaron la precisión de los resultados de una identificación de género de los autores del texto sobre la base de dos posibilidades de realizar modelos basados en los datos. Por un lado, los algoritmos del aprendizaje automático (método de los vectores de soporte y potenciación del gradiente). Y, por el otro, las redes neuronales de aprendizaje profundo (redes neuronales de alta precisión y redes neuronales recurrentes del tipo Long short-term memory).
“Hemos conseguido buenos resultados para identificar el género del autor del texto gracias a los modelos avanzados de redes neuronales a condición de que el autor no intente ocultarlo. Ahora lo tenemos que conseguir en los casos cuando pretende ocultar esta información”, comenta el investigador de la MEPhI, Alexandr Sbóyev.
En los siguientes textos colgados en las páginas para buscar pareja en internet, la red neuronal detecta la trampa en 10 casos sobre 10, y eso que el autor lo firma, premeditadamente, con un nombre del género opuesto.
Este texto está escrito por una chica: “Soy un hombre atractivo y en buena forma de 30 años. Trabajo en una empresa importante del sector de petróleo y gas, con una buena posición y un buen sueldo. Vivo en mi propio piso en Moscú. Soy dueño de una casa pequeña pero agradable en un pueblo en Italia. Soy aficionado al deporte, sobre todo al fútbol. Me gusta hacer una escapada los fines de semana, no soporto a las personas caseras. La chica que busco debe ser modesta, guapa y tener un cuerpo atractivo, según los estándares modernos. Debe compartir mis intereses, no ser celosa ni intentar provocar celos en mí. No pienso mantener a la pareja, ya que creo que en una familia tienen que trabajar los dos. Prefiero también mantener los presupuestos separados. No perdonaré una infidelidad”.
El texto está escrito por un hombre: “¡Buenos días! ¡Estoy muy descontenta! ¡Mucho! ¡¿Por qué se comporta con nosotros de esta manera?! ¡Todos somos personas, somos iguales! ¿Usted es sexista? ¡No lo pienso tolerar más! Le destrozaré el auto a golpes, se lo dejaré todo pintado. Espere, monstruo. Así será el final”.
Los resultados del estudio pusieron de manifiesto que el empleo de la red neuronal de alta precisión y los métodos de aprendizaje profundo es óptimo para identificar el género del autor del texto.
Ahora el equipo investigador está trabajando en la tarea de identificación de la edad.