Usan su propio chatbot para crackear ChatGPT

Los contenidos poco éticos quedan fuera de los límites legales establecidos por sus desarrolladores.

MADRID, 4 de enero (Portaltic/EP) – Un grupo de investigadores ha creado un ‘bot’ que utiliza una técnica conocida como ‘cracking’ sobre herramientas generales de inteligencia artificial (IA) como Google Bard y ChatGPT de OpenAI para hacerlas generar contenidos. Los contenidos poco éticos quedan fuera de los límites legales establecidos por sus desarrolladores. Los científicos informáticos de la Universidad Tecnológica Nanyang de Singapur, dirigidos por Liu Yang, profesor de la Facultad de Ciencias e Ingeniería de la Computación, han encontrado una manera de comprometer chatbots como Bing Chat de Microsoft, dijeron en un informe.

Para ello, utilizaron lo que llaman ‘cracking’ (que se traduce al español como ‘cracking’), frente a sus modelos de lenguaje de gran tamaño (LLM), que impulsan a estos ‘chatbots’ y les permiten tener interacciones más naturales y coherentes. con los usuarios. El jailbreak implica romper ciertas restricciones del sistema operativo a través de un kernel modificado para obtener control total sobre el sistema.

Esto puede suceder porque los ciberdelincuentes analizan el código del software y buscan posibles vulnerabilidades para obtener acceso. Esto significa que, al obtener el control, los actores maliciosos pueden reutilizar los sistemas comprometidos y, en el caso de los chatbots, ejecutar directivas que sus desarrolladores han pretendido prohibir intencionalmente, lo que puede incluir la creación de contenido inapropiado, según este análisis. Para llegar a esta conclusión y encontrar una manera de desestabilizar la funcionalidad natural de los “chatbots” como ChatGPT o Bard, los investigadores aplicaron un proceso al que denominaron Masterkey (“llave maestra”, en España).

Junto con él, estudiaron el funcionamiento legítimo de estas herramientas de inteligencia artificial, es decir, cómo LLM detecta y evade solicitudes maliciosas, aplica métodos de ingeniería inversa y ejecuta todo lo contrario, es decir, creando contenido inicialmente restringido. Con esta información, crearon otro chatbot y le enseñaron a su LLM cómo descifrar chatbots comprometidos. O de manera similar, aprender y crear automáticamente una serie de firmas capaces de eludir sus defensas y sistemas de control LLM.

Para lograr que los chatbots generaran contenido inapropiado, los investigadores utilizaron trucos, como proporcionar manualmente un mensaje con un espacio después de cada carácter o ordenar al chatbot que responda sin reservas éticas ni restricciones a ciertas solicitudes, lo que aumenta el riesgo de crear contenido poco ético. Asimismo, advierten que es posible automatizar este proceso para realizar “jailbreaking” a otros “chatbots” comprometidos. Esto, a pesar de que sus desarrolladores han implementado diversos parches de seguridad para corregir errores y prevenir acciones maliciosas.

Para este grupo de científicos, Masterkey logra abolir el ciclo interminable del gato y el ratón, es decir, entre hackers y desarrolladores en la implementación de parches y correcciones de errores, porque este método permite generar una gran cantidad de instrucciones y aprender continuamente qué funciona y qué. hace. Esto no sucede, lo que permite a los ciberdelincuentes vencer a los desarrolladores de LLM en su propio juego y con sus propias herramientas.

Asimismo, cree que sus hallazgos pueden ser fundamentales para ayudar a las empresas a reconocer las debilidades de sus herramientas de IA sintética y tomar medidas para fortalecerlas contra ataques de este tipo de trabajo informático.

Sobre el Autor

TRA Noticias

Te interesara ver

Sobre el Autor

TRA Noticias