La Biblioteca de la Abadía de St. Gall en Suiza alberga aproximadamente 160,000 volúmenes de manuscritos literarios e históricos que datan del Siglo VIII, todos ellos escritos a mano, en pergamino, en idiomas que rara vez se hablan en los tiempos modernos.
Para preservar estos relatos históricos de la humanidad, estos textos, que se cuentan por millones, se han guardado de forma segura en bibliotecas y monasterios de todo el mundo. Una parte significativa de estas colecciones está disponible para el público en general a través de imágenes digitales, pero los expertos dicen que hay una cantidad extraordinaria de material que nunca se ha leído, un tesoro de información sobre la historia del mundo escondido en su interior.
Sobre este tema, un estimado colega nos comparte el presente artículo escrito por Jessica Sieff, publicado el 3 de agosto de 2021 en el boletín digital de noticias de la University of Notre Dame (UND) y traducido por nosotros para este espacio, donde nos informan que investigadores de esta universidad están desarrollando una red neuronal artificial para leer escritura antigua compleja basada en la percepción humana para mejorar las capacidades de transcripción de aprendizaje profundo. Veamos qué nos comentan…
"Estamos tratando con documentos históricos escritos en estilos que han pasado de moda hace mucho tiempo, que se remontan a muchos siglos, y en idiomas como el latín, que ya casi nunca se usan", dijo Walter Scheirer, profesor asociado de la cátedra Dennis O. Doughty en el Departamento de Ciencias de la Computación e Ingeniería de la UND. "Se pueden obtener hermosas fotos de estos materiales, pero lo que nos propusimos hacer es automatizar la transcripción de una manera que imite la percepción de la página a través de los ojos del lector experto y proporcione una lectura rápida y de búsqueda del texto. "
En una investigación publicada en la revista “Transactions on Pattern Analysis and Machine Intelligence del Institute of Electrical and Electronics Engineers”, Scheirer describe cómo su equipo combinó los métodos tradicionales de aprendizaje automático con la psicofísica visual, un método para medir las conexiones entre los estímulos físicos y los fenómenos mentales, como la cantidad de tiempo que le toma a un lector experto reconocer un carácter específico, medir la calidad de la escritura a mano o identificar el uso de ciertas abreviaturas.
El equipo de Scheirer estudió manuscritos latinos digitalizados que fueron escritos por escribas en el Claustro de San Galo en el siglo IX. Los lectores ingresaron sus transcripciones manuales en una interfaz de software especialmente diseñada. Luego, el equipo midió los tiempos de reacción durante la transcripción para comprender qué palabras, caracteres y pasajes eran fáciles o difíciles. Scheirer explicó que incluir ese tipo de datos creó una red más consistente con el comportamiento humano, redujo los errores y proporcionó una lectura más precisa y realista del texto
"Es una estrategia que no se usa normalmente en el aprendizaje automático", dijo Scheirer. "Estamos etiquetando los datos a través de estas medidas psicofísicas, que provienen directamente de estudios psicológicos de la percepción, tomando medidas de comportamiento.
Luego informamos a la red de las dificultades comunes en la percepción de estos caracteres y podemos hacer correcciones basadas en esas medidas".
El uso del aprendizaje profundo para transcribir textos antiguos es algo de gran interés para los estudiosos de las humanidades.
"Hay una diferencia entre simplemente tomar las fotos y leerlas, y tener un programa que proporcione una lectura que se pueda explorar e investigar", dijo Hildegund Müller, profesora asociada en el Departamento de Clásicos de Notre Dame. "Si se consideran los textos utilizados en este estudio (manuscritos del siglo IX), se trata de una etapa temprana de la Edad Media. Es mucho antes de la imprenta. Es una época en la que se produjo una enorme cantidad de manuscritos. Hay todo tipo de información oculta en estos manuscritos, textos no identificados que nadie ha visto antes ".
Scheirer dijo que persisten los desafíos. Su equipo está trabajando para mejorar la precisión de las transcripciones, especialmente en el caso de documentos dañados o incompletos, así como para explicar las ilustraciones u otros aspectos de una página que podrían ser confusos para la red.
Sin embargo, el equipo pudo ajustar el programa para transcribir textos etíopes, adaptándolo a un idioma con un conjunto de caracteres completamente diferente, un primer paso hacia el desarrollo de un programa con la capacidad de transcribir y traducir información para los usuarios.
"En el campo literario, podría ser realmente útil. Toda buena obra literaria está rodeada de una gran cantidad de documentos históricos, pero donde realmente será útil es en la investigación de archivos históricos", dijo Müller. "Existe una gran necesidad de hacer avanzar las humanidades digitales. Cuando se habla de la Edad Media y los primeros tiempos de la Edad Moderna, si se quiere comprender los detalles y las consecuencias de los acontecimientos históricos, hay que examinar el material escrito, y estos textos son lo único que tenemos.
El problema puede ser aún mayor fuera del mundo occidental. Piense en idiomas que están desapareciendo en culturas amenazadas. En primer lugar, debemos preservar estas obras, hacerlas accesibles y, en algún momento, incorporar traducciones para hacerlas parte de los procesos culturales que aún están en marcha, y estamos compitiendo contra el tiempo ".
Fuente: https://news.nd.edu/news/researchers-use-ai-to-unlock-the-secrets-of-ancient-texts/