Este contenido fue hecho con la asistencia de una inteligencia artificial y contó con la revisión del editor/periodista.
La inteligencia artificial se enfrenta a un dilema inesperado: a medida que sus modelos se vuelven más poderosos y versátiles, también son más propensos a cometer “alucinaciones”.
Lejos de ser un problema resuelto, estos errores se están intensificando en los modelos más recientes, incluyendo aquellos desarrollados por empresas como OpenAI y DeepSeek. A pesar de que estas plataformas prometen mayor razonamiento, comprensión y contexto, sus sistemas suelen inventar hechos con más frecuencia que antes.
El incidente más reciente se produjo con Cursor, una herramienta de programación con respaldo de inteligencia artificial. Según reportó The New York Times, un bot de soporte técnico automatizado, basado en IA, comunicó a los usuarios que ya no podían usar el software en más de una computadora.
Te puede interesar leer: INFOTEP lanza Conferencia Nacional sobre inteligencia artificial e innovación tecnológica
La falsa actualización de políticas generó malestar en foros, cancelaciones de cuentas y múltiples reclamos. Pero, como aclaró públicamente Michael Truell, CEO de la empresa, esa restricción nunca existió. “Por desgracia, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea”, escribió en Reddit.
No fue un incidente aislado. De hecho, estas fallas se han vuelto comunes desde el despliegue masivo de ChatGPT en 2022. Más de dos años después, los modelos más modernos no solo no han resuelto el problema, sino que lo han empeorado.
Como afirma Amr Awadallah, ex ejecutivo de Google y fundador de la empresa Vectara: “Por más que nos esforcemos, siempre van a alucinar. Eso no va a desaparecer”.
La raíz del problema radica en la propia arquitectura de los modelos de lenguaje. Estos sistemas no comprenden la verdad ni verifican hechos: predicen cuál es la respuesta más probable basándose en patrones estadísticos aprendidos de grandes cantidades de texto. Si los datos son insuficientes o contradictorios, el modelo puede generar respuestas plausibles pero completamente falsas.
OpenAI ha reconocido esta limitación de forma explícita. En pruebas internas con el benchmark PersonQA, que mide la precisión al responder preguntas sobre personajes públicos, su modelo o3 alucinó el 33% de las veces, más del doble que su predecesor, o1. El nuevo o4-mini tuvo una tasa de error aún mayor: 48%. En otra prueba, SimpleQA, centrada en preguntas generales, los índices de alucinación se dispararon hasta el 79%.
La ironía es evidente: los modelos más recientes, diseñados para razonar paso a paso mediante lo que se conoce como cadena de pensamiento, parecen tropezar más en ese mismo proceso.
A medida que “piensan” en etapas, cualquier error en un paso inicial se propaga y amplifica en la respuesta final. Y aunque los modelos modernos intentan hacer transparente ese razonamiento intermedio, los investigadores han demostrado que muchas veces los pasos no tienen relación con la conclusión.
Las consecuencias de estas alucinaciones pueden ser más que meras curiosidades. Existen casos documentados, como el del abogado estadounidense que presentó ante un juez documentos generados por ChatGPT. Eran redactados de forma impecable, pero se basaban en jurisprudencia inexistente. El modelo había inventado los casos legales.
El riesgo se vuelve crítico cuando se aplican modelos de IA a tareas sensibles, como la consulta de información médica, el análisis de documentos legales o el procesamiento de datos empresariales. “Si no resolvéis esto, se elimina el valor de usar IA: automatizar tareas”, advirtió Pratik Verma, CEO de Okahu, a New York Times.
Incluso buscadores, que integran modelos de lenguaje en sus motores, han incurrido en errores ridículos. Desde recomendar maratones en Filadelfia como si se encontraran en la costa oeste hasta citar fuentes inexistentes sobre el número de hogares en Illinois, los fallos son frecuentes.
Y algunos no son geográficamente ajenos: ChatGPT afirmó que Uruguay tiene 5,2 millones de habitantes, inventó un festival de cine en Maldonado y un ministerio que nunca existió.
La respuesta de las grandes tecnológicas ha sido ambivalente. Por un lado, reconocen el problema y aseguran estar trabajando activamente para reducir las tasas de alucinación. Por otro, continúan lanzando modelos más complejos, a menudo sin explicar del todo por qué alucinan más.
OpenAI ha admitido que “seguiremos investigando las alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad”, declaró su vocera Gaby Raila. Pero hasta ahora, no hay un método definitivo para detectar y corregir estas fallas en tiempo real.
Otras empresas, como Vectara, han desarrollado pruebas externas para medir las alucinaciones. Piden a los modelos que resuman artículos de noticias fácilmente verificables y miden cuánta información falsa introducen.
Aunque algunas mejoras se han observado, de hasta el 1 o 2% en ciertos casos, los modelos de razonamiento siguen mostrando picos de error. El DeepSeek R1 alucinó el 14,3% del tiempo, mientras que el o3 de OpenAI llegó al 6,8%.
Agregar Comentario