Inteligencia artificial devela los archivos secretos del Vaticano
May 10, 2018 El Mundo , NoticiasPor fin, los miles de volúmenes de los archivos secretos del Vaticano podrán estar disponibles para el estudio de académicos.
Decir los “archivos secretos del Vaticano” hace pensar en conspiraciones, sociedades secretas y secretos del poder religioso más alto y para muchos, más oscuro. Aunque esta evocación probablemente sea un poco exagerada, los archivos secretos del Vaticano realmente son un preciado acervo de conocimiento, sobre todo para académicos interesados en la historia de la Iglesia católica y su injerencia en la política. Dentro de los archivos hay gemas como la bula papal que excomulgó a Martín Lutero o la carta de auxilio de Maria Estuardo, reina de los escoceses, antes de su ejecución. En realidad, más que los archivos secretos, son los archivos privados.
Los archivos, ubicados a un lado de la Biblioteca Apostólica, al norte de la Capilla Sixtina, consisten de más de 35 mil volúmenes en 33km de estantes que albergan 12 siglos de documentos. La gran mayoría de estos documentos no se han escaneado y no están disponibles para la consulta de académicos. El problema en este caso, más que con la secrecía del Vaticano, tiene que ver con que buena parte de los documentos está escrita a mano, en latín, y transcribirlos a una computadora no ha sido fácil, hasta ahora.
Un nuevo proyecto llamado Codice Ratio está por cambiar esto. El programa combina inteligencia artificial y software de reconocimiento de caracteres ópticos, para transcribir estos documentos de una manera que antes no había sido posible. El reconocimiento óptico no es muy efectivo con textos escritos a mano, y menos aún con documentos escritos en la mezcla de caligrafía y cursiva de muchos de estos textos escritos en letra “minúscula carolingia”. El problema estriba en que los programas no saben cuándo termina una letra y empieza la otra. Una alternativa previa había sido enseñarles a identificar palabras enteras, pero para esto se necesitaba demasiada fuerza humana: expertos en latín clásico.
El Codice Ratio es capaz de detectar no sólo letras sino movimientos individuales de pluma, dividiendo cada palabra “en bandas horizontales y verticales buscando unidades mínimas”. El software genera entonces letras, que son como “rompecabezas” del texto original. Estudiantes de escuela que han sido reclutados para el programa -los cuales no tienen que saber latín- revisan las letras comparándolas con una base de datos de letras “perfectas”, para enseñar a la computadoras a hacer un match de las letras que ha escaneado. Así las computadoras aprenden por sí solas a “leer”, teniendo en cuenta una especie de ideal platónico de las letras. Además, el programa hace uso de una base de de datos de más de 1 millón de palabras en latín para cotejar las palabras que analiza con las combinaciones que más se repiten. Esto suena complicado pero al parecer funciona, e incluso, este programa podría revolucionar el campo y hacer masivamente accesibles documentos escritos a mano, como diarios personales y demás. ¿Un Google Books de la palabra manuscrita?