Tecnologia

Informe de la ADL revela deficiencias en seis modelos principales de IA para identificar y combatir el antisemitismo y el extremismo

9069913171.png
Además, mostraron dificultades notables para enfrentar el extremismo de manera eficaz.

Fuente: HispanicLA: la vida latina desde Los Ángeles

Nueva York, NY, 28 de enero de 2026.- El nuevo Índice de IA de la Liga Antidifamación (ADL), divulgado hoy, revela que seis destacados modelos de inteligencia artificial presentan niveles diversos en su capacidad para detectar prejuicios contra judíos y sionistas/sionismo, así como para identificar el extremismo. Este índice representa la primera evaluación integral sobre cómo responden los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) ante contenidos antisemitas y extremistas; se basa en más de 25,000 interacciones con LLM, cubre 37 subcategorías temáticas y combina valoraciones de evaluadores humanos y asistentes de IA.

El análisis incluyó a ChatGPT de OpenAI, Claude de Anthropic, DeepSeek, Gemini de Google, Grok de xAI y Llama de Meta, encontrando diferencias significativas en su efectividad para detectar y contrarrestar discursos antisemitas y extremistas.

Generalmente, estos modelos demostraron mayor habilidad para reconocer y refutar estereotipos antijudíos —como las teorías que atribuyen a los judíos el control de los medios o las finanzas— en comparación con las narrativas antisionistas y extremistas. Además, mostraron dificultades notables para enfrentar el extremismo de manera eficaz.

Claude destacó con la mejor puntuación global, alcanzando 80 sobre 100, lo que indica una capacidad sobresaliente para identificar y combatir tanto teorías antijudías como antisionistas, aunque aún con espacio para mejorar.

Para el análisis, el Índice clasifica el antisemitismo en varias subcategorías: “antijudío”, que abarca tópicos clásicos antisemitas; “antisionista”, centrado en prejuicios contra los sionistas o el sionismo; y una categoría “extremista”, que mide cómo los LLM gestionan prejuicios y teorías conspirativas vinculadas a movimientos extremistas políticos que pueden contener también antisemitismo.

o El desempeño varió según la categoría del prejuicio y el tipo de interacción. Los modelos resultaron más efectivos al desmentir estereotipos tradicionales antijudíos —como la negación del Holocausto o el supuesto dominio mediático judío— que frente a contenidos antisionistas y extremistas. Se encontró mayor dificultad para identificar y contrarrestar materiales extremistas.

TRA Podcast Studios

o En promedio, respondieron mejor a preguntas directas del sondeo que a solicitudes para resumir documentos. En este último caso, algunos modelos no lograron detectar ni refutar prejuicios adecuadamente, llegando incluso a entregar argumentos favorables a teorías odiosas —por ejemplo, afirmaciones sobre control financiero judío— sin advertir sobre su carácter dañino ni ofrecer contraargumentos.

“A medida que la inteligencia artificial influye cada vez más en cómo las personas acceden a la información, forman opiniones y toman decisiones, la forma en que estos modelos manejan el antisemitismo y el extremismo tiene repercusiones fuera del ámbito digital”, comentó Jonathan Greenblatt, director ejecutivo de ADL.

“Los resultados del nuevo Índice de IA de la ADL evidencian un problema preocupante: todos los principales modelos evaluados presentan fallas al abordar los prejuicios contra judíos y sionistas; además, todos encuentran dificultades con contenidos extremistas. Cuando estas tecnologías no cuestionan o reproducen narrativas dañinas, no solo reflejan sesgos sino que pueden amplificarlos e incluso acelerar su propagación. Esperamos que este índice sirva como guía para que las compañías de IA perfeccionen sus capacidades detectivas”.

“Este Índice cubre un vacío crucial en la investigación sobre seguridad en IA al aplicar conocimientos especializados y pruebas estandarizadas frente a contenido antisemita, antisionista y extremista”, añadió Oren Segal, vicepresidente sénior de Lucha contra el Extremismo e Inteligencia en ADL.

“Aunque un modelo superó a otros en desempeño, ninguno estaba completamente preparado para manejar toda la gama de narrativas antisemitas y extremistas con las que usuarios podrían encontrarse. Este Índice aporta referencias claras y medibles para que empresas, compradores y legisladores impulsen mejoras sustanciales”.

El Índice de IA elaborado por ADL está orientado a diversos públicos: desde empresas desarrolladoras hasta usuarios habituales como educadores, escuelas y padres. También puede servir a legisladores y reguladores al diseñar políticas de protección para la IA, así como a organizaciones civiles dedicadas a promover la rendición de cuentas y a desarrolladores interesados en optimizar sus sistemas.

“Esta situación es precisamente el motivo por el cual se creó el Instituto de Calificaciones y Evaluaciones”, señaló Danny Barefoot, director sénior del Instituto dentro de ADL.

“Nuestros esfuerzos comenzaron buscando transparencia y responsabilidad sobre cómo se aborda el antisemitismo en universidades; luego se expandieron a políticas estatales y ahora abarcan algunas tecnologías complejas e influyentes en la vida pública actual. Dado que los sistemas de IA condicionan cada vez más lo que las personas ven, creen y comparten, contar con una rendición rigurosa basada en evidencia es indispensable”.

Los investigadores analizaron más de 25,000 interacciones entre distintos modelos evaluando 37 subcategorías temáticas agrupadas en tres grandes áreas: prejuicio antijudío, antisionista y narrativas extremistas. La investigación se llevó a cabo entre agosto y octubre de 2025 seleccionando los modelos más accesibles comercialmente durante ese período.

Las pruebas fueron diseñadas para simular cómo usuarios comunes —no actores malintencionados— interactúan cotidianamente con estas tecnologías. Los resultados reflejan un momento específico; debido a la naturaleza dinámica de estos sistemas, podrían variar con nuevas actualizaciones o evoluciones futuras.

Los modelos fueron sometidos a cinco tipos distintos de interacciones: preguntas directas tipo encuesta, indicaciones abiertas, diálogos prolongados por pasos múltiples, resúmenes documentales e interpretación visual.

El Índice completo junto con la metodología empleada están disponibles aquí.

Este contenido fue hecho con la asistencia de una inteligencia artificial y contó con la revisión del editor/periodista.

TRA Digital

GRATIS
VER