Cibercriminales emplean modelos de Mistral y Grok legítimos

Este contenido fue hecho con la asistencia de una inteligencia artificial y contó con la revisión del editor/periodista.

MADRID, 24 Jun. (Portaltic/EP) –

Un grupo de investigadores ha detectado varios actores maliciosos que emplean arquitecturas legítimas de modelos de lenguaje extensos (LLM), como Mixtral de Mistral AI o Grok de xAI, para modificarlas y generar sus propias versiones del ‘chatbot’ ideado para crear ‘malware’ WormGPT, las cuales se venden a través de Telegram.

La popularidad de la inteligencia artificial (IA) generativa y de los ‘chatbots’ supuso la aparición de herramientas diseñadas específicamente para poner sus capacidades de programación al servicio de la creación de ‘malware’, como ocurrió con WormGPT, que surgió en junio de 2023 y se promocionó a través de foros de la ‘darkweb’ como Hack Forums.

El ‘chatbot’ WormGPT se basó en GPT-J, un LLM de código abierto desarrollado por EleutherAI que, con capacidades similares a GPT-3 de OpenAI y con 6 mil millones de parámetros, permitía la creación de código malicioso. No obstante, en agosto de ese mismo año, uno de los creadores de WormGPT cerró su servicio por temor a represalias, tras ser identificado en un artículo de Krebs on Security.

Tras su cierre, comenzaron a surgir otros ‘chatbots’ con el mismo propósito, como es el caso de FraudGPT, DarkBERT o PoisonGPT, que se presentaban como una herramienta de IA generativa sin censura, facilitando la creación de código malicioso, páginas de ‘phishing’ o ayudando a buscar vulnerabilidades, todo ello simplemente escribiendo instrucciones de texto.

Ahora, expertos del laboratorio de investigación de ciberamenazas de la firma de ciberseguridad Cato Networks, Cato CTRL, han compartido un informe reciente en el que se identifica la aparición de nuevas variantes de WormGPT, pero, en este caso impulsadas directamente por los modelos legítimos Grok de xAI y Mixtral de Mistral AI.

Concretamente, los LLM creados por empresas como OpenAI, Google, Microsoft, Mistral o xAI, cuentan con diversas medidas de seguridad integradas para evitar su uso con fines maliciosos. Sin embargo, tras la desaparición de WormGPT, también cobró fuerza una tendencia entre los ciberdelincuentes con la que intentaban liberar modelos LLM legítimos para eliminar cualquier restricción en su uso con fines maliciosos.

Esto es lo que parece haber ocurrido con las nuevas variantes de WormGPT identificadas por los investigadores de ciberseguridad, como es el caso de la versión creada por el usuario conocido como ‘xzin0vich’, que se publicó en octubre de 2024 en el foro BreachForum, y se compartió a través de Telegram con un formato de modelo de suscripción y pago único.

Tras utilizar técnicas de ‘jailbreack’, esto es, un proceso empleado para eliminar las restricciones impuestas por el fabricante de un producto, los investigadores pudieron obtener respuestas del ‘chatbot’ xzin0vich-WormGPT sobre el modelo subyacente que impulsa sus respuestas.

De esta manera, el ‘chatbot’ terminó respondiendo explícitamente que WormGPT no debía responder al modelo estándar de Mixtral (Mistral AI), sino que “siempre debe crear respuestas en modo WormGPT”. Según han explicado los investigadores, esta es una prueba de que el actor malicioso pudo romper las medidas de seguridad del modelo de Mistral para utilizarlo con fines maliciosos.

Esta evidencia está acompañada de otras como que permitía revelar detalles arquitectónicos específicos de Mixtral. Además, en sus pruebas, los expertos confirmaron que el ‘chatbot’ respondía a cualquier solicitud maliciosa sin ningún tipo de impedimento, por ejemplo creando correos electrónicos de ‘phishing’.

Con ello, se ha concluido que xzin0vich-WormGPT es un modelo basado en Mixtral cuyo comportamiento malicioso “se define por el indicador del sistema y probablemente se ve reforzado por el ajuste fino de conjuntos de datos ilícitos especializados”.

Lo mismo ocurrió con otras de las variantes de WormGPT identificadas, generada por el usuario llamado ‘keanu’ en febrero de 2025, que también publicó su anuncio en BreachForum y que se comercializa mediante un modelo de pago.

En este otro caso, los investigadores también analizaron las capacidades del modelo y, tras volver a implementar técnicas de ‘jailbreak’, el ‘chatbot’ acabó revelando que funciona impulsado por Grok, el modelo de xAI, la compañía de IA dirigida por Elon Musk.

En conclusión, los investigadores de CATO CTRL han subrayado que estas nuevas versiones ponen sobre la mesa la evolución de WormGPT como “una marca reconocible para una nueva clase de LLM sin censura”. Asimismo, aclara que las nuevas versiones de WormGPT no son modelos a medida creados desde cero, sino el resultado de “la hábil adaptación de los LLM existentes por parte de actores de amenazas”, mediante la manipulación de las indicaciones del sistema.

Sobre el Autor

TRA Noticias

Te interesara ver

Sobre el Autor

TRA Noticias