Tecnologia

Los chatbots de IA requieren más libros para su aprendizaje. Estas bibliotecas estadounidenses se los proporcionan

8726127238.png
AP) -- Todo lo que se ha dicho en internet fue solo el comienzo para enseñar a la inteligencia artificial sobre la humanidad.

Este contenido fue hecho con la asistencia de una inteligencia artificial y contó con la revisión del editor/periodista.

CAMBRIDGE, Massachusetts, EE. UU. (AP) — Todo lo que se ha dicho en internet fue solo el comienzo para enseñar a la inteligencia artificial sobre la humanidad. Ahora, las empresas tecnológicas recurren a un depósito de conocimiento más antiguo: las estanterías de libros en las bibliotecas.

Casi un millón de libros publicados, incluso de una época tan lejana como el siglo XV — y en 254 idiomas — son parte de una colección de la Universidad de Harvard que se compartió recientemente con investigadores. Próximamente también se incluirán tesoros de periódicos antiguos y documentos gubernamentales en poder de la biblioteca pública de Boston.

Abrir las bóvedas para acceder a tomos centenarios podría significar una gran cantidad de datos para las empresas tecnológicas que enfrentan demandas de novelistas, artistas visuales y otros, cuyas obras creativas han utilizado sin su consentimiento para entrenar a chatbots de IA.

“Es una decisión sensata empezar con información de dominio público, ya que es menos controversial en este momento que el contenido que todavía tiene derechos de autor”, expresó Burton Davis, abogado general adjunto de Microsoft.

Davis indicó que las bibliotecas también guardan “cantidades enormes de datos culturales, históricos y lingüísticos interesantes”, ausentes en las últimas décadas de comentarios en línea de los que los chatbots de IA han aprendido en su mayoría. El temor a quedarse sin información también ha llevado a los desarrolladores de IA a usar datos “sintéticos”, creados por los propios chatbots y de menor calidad.

Con el apoyo de “donaciones sin restricciones” de Microsoft y OpenAI — el fabricante de ChatGPT –, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas y museos de todo el mundo sobre cómo hacer que sus colecciones históricas estén listas para la IA de una manera que también beneficie a las comunidades a las que sirven.

“Estamos intentando trasladar parte del poder que actualmente está en manos de la IA de vuelta a estas instituciones”, manifestó Aristana Scourtas, quien dirige la investigación en el Laboratorio de Innovación de Bibliotecas de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los administradores de los datos y la información”.

El conjunto de datos que recién publicó Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas de papel escaneadas. Una de las obras más antiguas es del siglo XV: las reflexiones escritas a mano de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras es del siglo XIX, sobre temas como literatura, filosofía, derecho y agricultura, todas ellas cuidadosamente conservadas y organizadas por generaciones de bibliotecarios.

Promete ser muy beneficioso para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.

“Muchos de los datos que se han utilizado en la capacitación en IA no provienen de fuentes originales”, señaló el director ejecutivo de la iniciativa de datos, Greg Leppert, quien también es jefe de tecnología en el Berkman Klein Center for Internet & Society de Harvard, un organismo enfocado en el estudio del ciberespacio. Esta colección de libros cubre “hasta la copia física que escanearon las instituciones que, de hecho, reunieron dichos materiales”, agregó.

Antes de que ChatGPT desencadenara un frenesí comercial por la inteligencia artificial, a la mayoría de los investigadores de IA no les interesaba mucho la procedencia de los pasajes de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de amplios depósitos de libros pirateados. Solo necesitaban lo que los especialistas en informática llaman tokens: unidades de datos, cada una de las cuales puede representar el fragmento de una palabra.

La nueva colección de capacitación en IA de Harvard tiene un estimado de 242 mil millones de tokens, una cantidad que es difícil de comprender para los humanos, pero que sigue siendo solo una gota en el mar de lo que se está introduciendo en los sistemas de IA más avanzados. Por ejemplo, la empresa matriz de Facebook, Meta, ha dicho que la última versión de su amplio modelo de lenguaje de IA fue entrenada con más de 30 billones de tokens extraídos de texto, imágenes y videos.

Meta también enfrenta una demanda de la comediante Sarah Silverman y de otros autores con obras publicadas que acusan a la compañía de robar sus libros a partir de “bibliotecas fantasma” de obras pirateadas.

Ahora, con algunas reservas, las bibliotecas reales están imponiendo sus condiciones.

OpenAI, que también está enfrentando una serie de demandas por violaciones de derechos de autor, donó 50 millones de dólares este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de antigüedad, perteneciente a la Universidad de Oxford, que está digitalizando libros raros y usa IA para transcribirlos.

Cuando la compañía contactó por primera vez a la Biblioteca Pública de Boston, una de las más grandes de Estados Unidos, la biblioteca especificó claramente que cualquier información que digitalizara estaría disponible para todo el mundo, compartió Jessica Chapel, su directora de servicios digitales y en línea.

“OpenAI tenía este interés en cantidades masivas de datos de entrenamiento. Nosotros tenemos interés en cantidades masivas de objetos digitales. Así, este parece ser un caso en el que los intereses están coincidiendo”, expresó Chapel.

La digitalización es costosa. Por ejemplo, para la biblioteca de Boston ha sido un trabajo minucioso escanear y organizar docenas de periódicos en francés de Nueva Inglaterra que se distribuyeron ampliamente a fines del siglo XIX y principios del XX entre las comunidades de inmigrantes canadienses de Quebec. Ahora que dicho texto se utiliza para entrenar IA, ayuda a financiar proyectos que los bibliotecarios quieren hacer de todas maneras.

La colección de Harvard ya se había empezado a digitalizar desde el 2006 para otro gigante tecnológico, Google, en su polémico proyecto de crear una biblioteca en línea con capacidad de búsqueda de más de 20 millones de libros.

Google pasó años defendiéndose de demandas de autores por su biblioteca en línea, que incluía muchas obras más nuevas y con derechos de autor. Por fin se solucionó en 2016, cuando la Corte Suprema de Estados Unidos dio el visto bueno a fallos de tribunales inferiores que rechazaron reclamos por infracción de derechos de autor.

Ahora, por primera vez, Google ha trabajado con Harvard para extraer volúmenes de Google Books que son de dominio público y allanar el camino para compartirlos con los desarrolladores de IA. Las protecciones de derechos de autor en Estados Unidos suelen durar 95 años, y más tiempo para las grabaciones de sonido.

La nueva iniciativa fue aplaudida por el mismo grupo de autores que demandó a Google por su proyecto de libros y que más recientemente ha llevado a empresas de IA a los tribunales.

“Muchos de estos títulos solo existen en los estantes de las principales bibliotecas, y la creación y el uso de este conjunto de datos ampliará el acceso a estos volúmenes y al conocimiento que contienen”, manifestó en un comunicado Mary Rasenberger, directora ejecutiva de la Asociación de Escritores. “Sobre todo, la creación de un extenso conjunto de datos jurídicos para capacitación democratizará la creación de nuevos modelos de IA”.

Queda por verse qué tan útil será todo esto para la próxima generación de herramientas de IA, a medida que los datos se comparten en la plataforma Hugging Face, que alberga conjuntos de datos y modelos de IA de código abierto que cualquier persona puede descargar.

La colección de libros es más diversa lingüísticamente que las fuentes de datos características de IA. Menos de la mitad de los volúmenes están en inglés, aunque los idiomas europeos siguen predominando, en particular el alemán, el francés, el italiano, el español y el latín.

Una colección de libros imbuida del pensamiento del siglo XIX también podría ser “inmensamente crucial” para los intentos de la industria tecnológica de construir agentes de IA que puedan planificar y razonar tan bien como los humanos, señaló Leppert.

“En una universidad, tienes muchos materiales pedagógicos sobre lo que significa razonar”, observó. “Tienes mucha información científica sobre cómo ejecutar procesos y cómo ejecutar análisis”.

Al mismo tiempo, también hay muchos datos obsoletos, desde teorías científicas y médicas desacreditadas hasta narrativas racistas y coloniales.

“Cuando uno trata con un conjunto de datos tan extenso, hay algunas cuestiones complicadas en torno al contenido y el lenguaje dañinos”, indicó Kristi Mukk, coordinadora del Laboratorio de Innovación de Bibliotecas de Harvard, quien dijo que la iniciativa está tratando de proporcionar orientación para mitigar los riesgos del uso de los datos, y así “ayudar a los usuarios a tomar sus propias decisiones informadas y usar la IA de manera responsable”.

— — — —

The Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que le permite a OpenAI tener acceso a parte de los archivos de texto de la AP.

TRA Digital

GRATIS
VER