Los flamantes modelos o3 y o4-mini de OpenAI alucinan más que los

Portaltic/EP) -

Este contenido fue hecho con la asistencia de una inteligencia artificial y contó con la revisión del editor/periodista.

MADRID, 21 Abr. (Portaltic/EP) –

Los nuevos modelos de razonamiento o3 y o4-mini de OpenAI presentan más resultados con “alucinaciones” en comparación con los modelos anteriores de la empresa. De acuerdo con pruebas internas en la evaluación PersonQA, se registró casi el doble de la tasa de alucinaciones que en el modelo o1.

La semana pasada, la empresa de tecnología presentó su nueva familia de modelos de la serie o, enfocada en el razonamiento, específicamente los modelos o3 y o4-mini. Estos modelos están diseñados para programar, navegar por la web y generar imágenes de manera autónoma, incluso con capacidad para “pensar con imágenes”.

A pesar de las innovaciones de los últimos modelos de OpenAI, se han detectado problemas de “alucinaciones” en sus resultados. Este fenómeno, que afecta a algunos modelos de Inteligencia Artificial (IA), consiste en ofrecer resultados que, aunque coherentes, contienen información incorrecta, sesgada, errónea o inventada.

Específicamente, los nuevos modelos de razonamiento o3 y o4-mini alucinan con mayor frecuencia que los modelos de razonamiento previos de OpenAI, como los modelos o1, o1-mini y o3-mini, además de otros modelos anteriores como GPT-4o.

Así lo ha indicado OpenAI, basándose en los resultados de sus pruebas internas sobre alucinaciones, utilizando la evaluación PersonQA, un sistema que evalúa los modelos midiendo la precisión de las respuestas. En su informe técnico, PersonQA evalúa la precisión, es decir, si el modelo responde correctamente, y la tasa de alucinaciones, la frecuencia con la que el modelo “alucina” en sus respuestas.

En este sentido, el modelo o4-mini obtuvo peores resultados que los modelos o1 y o3 en cuanto a alucinaciones, aunque OpenAI mencionó que “era previsible” ya que los modelos más pequeños “tienen mayor conocimiento del mundo y tienden a alucinar más”.

Asimismo, los resultados de PersonQA también revelaron “diferencias en el rendimiento” al comparar o1 y o3, destacando que o3 tiende a hacer más afirmaciones en general, lo que resulta en afirmaciones más precisas, pero también en afirmaciones “más inexactas o con alucinaciones”.

Según los resultados, o3 alucinó al responder el 33 por ciento de las preguntas de la evaluación PersonQA. Esto es casi el doble de la tasa de alucinaciones del modelo o1 de OpenAI. Por su parte, o4-mini obtuvo un resultado del 48 por ciento en la tasa de alucinaciones.

Pese a estos hallazgos, OpenAI afirmó que continuarán investigando para “entender la causa de estos resultados” y por qué las alucinaciones se han incrementado particularmente en los modelos de razonamiento.

Igualmente, Niko Felix, portavoz de OpenAI, declaró a TechCrunch que abordar las alucinaciones en todos los modelos de OpenAI “es un área de investigación continua” en la que se trabaja para mejorar la precisión y la fiabilidad.

Sobre el Autor

TRA Noticias

Te interesara ver

Sobre el Autor

TRA Noticias