MADRID, 22 de marzo (EUROPA PRESS)- Los investigadores de Florida Tech están desarrollando un algoritmo de aprendizaje automático para identificar y digitalizar misteriosos textos antiguos de la civilización del Indo. Considerada una de las tres primeras civilizaciones de la historia mundial, junto con Mesopotamia y Egipto, pero geográficamente más grande que esas dos, habiéndose desarrollado desde el 3300 a.C. En lo que hoy es Pakistán e India, la civilización del Indo tenía pesos y medidas uniformes, artesanos expertos, un sistema comercial diverso y más de 500 símbolos y signos de comunicación.
Pero los investigadores han debatido durante décadas si estos caracteres corresponden a un idioma o si se parecen más a jeroglíficos, explica en un comunicado Debasis Mitra, profesor de informática y autor principal de la investigación. Los artículos que investiga con sus colaboradores pueden ser una serie de símbolos, como signos de dólar e imágenes de transacciones comerciales, o estos símbolos pueden ser gráficos. Letras individuales o grupos de letras representan sonidos del habla.
Este proceso utiliza un sistema de reconocimiento automático de escritura (ASR) para extraer secuencias de grafemas codificadas de un conjunto de datos de más de 1000 fotografías de focas del río Indo. Utilizando una red neuronal artificial de dos etapas, ASR logró un 88% de éxito en la detección de gráficos. Sin embargo, el proceso sigue siendo difícil.
El aprendizaje automático a menudo se basa en ingresar grandes cantidades de datos para entrenar el sistema. Sin embargo, en este caso no hay muchos datos que introducir. Y los datos disponibles a veces pueden tener ruido o estar distorsionados.
El equipo quiere seguir mejorando su trabajo hasta crear un sistema que permita a los arqueólogos en el campo tomar una fotografía de texto o símbolos con un teléfono inteligente y enviarla a una base de datos para escanearla.