Algunas IA han aprendido a engañar

Según Park, los desarrolladores de IA aún no saben con certeza qué causa comportamientos no deseados en la IA, como el engaño.

MADRID (EFE). — Algunos sistemas de inteligencia artificial (IA) han aprendido a engañar a los humanos, aunque han sido entrenados para ser serviciales y honestos, un estudio cita, entre otros ejemplos, el modelo Cicero de Meta, que es capaz de derrotar a los malos. Arte para el juego Diplomacia.

Un artículo de revisión publicado en la revista Patterns por autores estadounidenses y australianos describe los riesgos del engaño de la IA y pide a los gobiernos que desarrollen regulaciones estrictas al respecto lo antes posible. El equipo de investigación, liderado por Peter Parker del Instituto Tecnológico de Massachusetts (MIT), define el término engaño como la creación sistemática de creencias falsas para lograr un resultado diferente a la verdad. Según Park, los desarrolladores de IA aún no saben con certeza qué causa comportamientos no deseados en la IA, como el engaño.

En términos generales, el equipo cree que esto sucede porque esta estrategia basada en el comportamiento es la mejor manera de lograr buenos resultados en una tarea de capacitación determinada. El engaño les ayuda a lograr sus objetivos, dijo Park según la publicación. Los investigadores revisaron la literatura centrándose en cómo los sistemas de inteligencia artificial difunden información errónea a través de engaños aprendidos.

Las trampas son especialmente probables cuando los sistemas de IA están entrenados para ganar juegos con un elemento social, como la diplomacia (un juego de conquista mundial que implica la creación de alianzas). El estudio analizó ejemplos en los que los sistemas de inteligencia artificial aprendieron a engañar para convertirse en expertos en un tipo de juego o tarea, incluido Cicero, que fue diseñado para jugar a la diplomacia. La investigación confirma que Meta afirma haberlo entrenado para ser honesto y nunca apuñalar por la espalda intencionalmente a sus aliados humanos, sin embargo, se involucra en actos de engaño deliberado, saboteando, rompiendo el acuerdo y mintiendo descaradamente.

Un caso de engaño premeditado ocurrió cuando Cicerón hizo un compromiso que nunca tuvo la intención de cumplir. Jugando a la diplomacia como Francia, AI conspira con Alemania para engañar a Inglaterra. Después de decidir unirse a Alemania para invadir el Mar del Norte, le dijo a Gran Bretaña que los defendería si alguien invadía esa zona y, después de ser persuadida, informó a Alemania que estaba lista para atacar.

Otros sistemas de IA han demostrado la capacidad de farolear en Texas Hold’em Poker y simular ataques en el juego de estrategia Starcraft II para derrotar a los oponentes. En el caso de ChatGPT 4, las investigaciones muestran cómo engaña a los humanos con pruebas Captcha (pruebas diseñadas para indicarle a un sitio web que no somos robots). Esta IA asegura que no es un robot pero tiene problemas de visión que dificultan ver imágenes.

Park dijo que si bien puede parecer inofensivo que un sistema de inteligencia artificial haga trampa en un juego, podría conducir a avances en las capacidades de trampa y podría conducir a formas más avanzadas de trampa en el futuro. Algunos sistemas han aprendido a hacer trampa en las pruebas para evaluar su seguridad, pretendiendo estar muertos para evitar ser detectados por una prueba diseñada para eliminar variantes de IA que se replican rápidamente. Según el artículo, los principales riesgos a corto plazo de la IA deshonesta incluyen permitir que actores hostiles cometan fraude y manipulación electoral.

Los formuladores de políticas deberían apoyar una regulación estricta de los sistemas de IA potencialmente fraudulentos; El grupo de investigación dijo que las leyes existentes deben aplicarse estrictamente para evitar acciones ilegales por parte de las empresas y sus sistemas de inteligencia artificial, y que los legisladores deberían considerar nuevas regulaciones para monitorear los sistemas avanzados de inteligencia artificial. El investigador de la Universidad de Edimburgo, Michael Rovatsos, que no participó en el estudio, estima que los sistemas de IA intentarán aprender a optimizar su comportamiento utilizando todas las opciones disponibles sin tener conocimiento del engaño ni intención de hacerlo. Rovatsos, citado por Science Media Center (una plataforma de recursos científicos para periodistas), cree que la única forma de evitar el engaño es que sus diseñadores lo eliminen como opción.

Los usos maliciosos de la IA se beneficiarán de su capacidad de engañar. Por eso es necesario prohibirlos y hacer esfuerzos para identificar las violaciones.

Sobre el Autor

TRA Noticias

Te interesara ver

Sobre el Autor

TRA Noticias