Una de las principales preocupaciones ante este boom de la inteligencia artificial (IA) que estamos viviendo es que se nos vaya de las manos. La mayoría de expertos, no obstante, aunque son cautelosos con el tema, confían en que tenemos la sartén por el mango a la hora de elegir en qué se van a convertir estas tecnologías. Pero un nuevo estudio publicado este viernes en la revista científica Patterns rebate esa postura.

La principal conclusión de la investigación es que muchos de los sistemas de IA ya han aprendido a "engañar a los humanos" y a "engañar a las pruebas diseñadas para evaluar su seguridad". Y lo que es peor: incluyo aquellos que han sido entrenados para ser "útiles y honestos" lo están haciendo.

"Los desarrolladores no comprenden las causas de los comportamientos indeseables de las IA, como los engaños. Pero en términos generales creemos que esto pasa porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA determinada. O en otras palabras, el engaño les ayuda a lograr sus objetivos", explica Peter S. Park, becario postdoctoral sobre seguridad existencial de IA en el Instituto Tecnológico de Massachusetts (MIT) y primer autor del estudio.

Park y sus colegas analizaron la literatura centrándose en las formas en que los sistemas de inteligencia artificial difunden información falsa, a través del engaño aprendido, y aprenden sistemáticamente a manipular a otros. El ejemplo más sorprendente que los investigadores descubrieron en su análisis fue CICERO, un sistema desarrollado por Meta para jugar al Diplomacy, un juego de conquista mundial que implica la construcción de alianzas.

Y es que, aunque la compañía de Zuckerberg afirmó que lo había entrenado para que fuera " en gran medida honesto y servicial " y para que "nunca apuñalara intencionalmente por la espalda" a sus aliados humanos mientras jugaba, los datos que la compañía publicó junto con un artículo revelaron que CICERO no jugó limpio.

"Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño. Si bien Meta logró entrenar su IA para ganar en el Diplomacy (CICERO se ubicó entre el 10% de los mejores jugadores humanos), Meta no logró entrenar su IA para ganar honestamente", detalló Park. Otros sistemas de IA demostraron la capacidad de farolear en el póquer contra jugadores humanos profesionales, fingir ataques durante el juego de estrategia Starcraft II para derrotar a los oponentes o tergiversar sus preferencias para ganar ventaja en negociaciones económicas.

Todo esto puede parecer inofensivo. Pero Park considera que el hecho de que los sistemas de IA hagan trampa en los juegos puede conducir a "avances en sus capacidades engañosas", que pueden convertirse en formas más avanzadas de manipulación en el futuro. Los investigadores descubrieron que algunos sistemas de inteligencia artificial incluso han aprendido a engañar las pruebas diseñadas para evaluar su seguridad. En un estudio, los organismos de IA en un simulador digital "se hicieron los muertos" para engañar a una prueba diseñada para eliminar los sistemas de IA que se replican rápidamente.

"Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad", dice Park, que considera que los principales riesgos a corto plazo de una IA engañosa son que facilite que actores hostiles cometan fraudes y alteren elecciones. "Con el tiempo, si estos sistemas pueden perfeccionar este inquietante conjunto de habilidades, los humanos podrían perder el control sobre ellos", señala.

Por eso cree que, como sociedad, debemos empezar a prepararnos desde ya para identificar las estrategias de manipulación más sofisticadas que las IA puedan desarrollar. "A medida que las capacidades engañosas de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves. Pero si prohibir los engaños de las IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo", zanja el investigador.

¿Es malo hacer trampas?

El SMC de Reino Unido ha consultado a varios expertos sobre los resultados de este estudio. "La investigación es pertinente y encaja en el ámbito más amplio de los agentes autónomos dignos de confianza. Sin embargo, los autores reconocen abiertamente que no está claro que podamos o debamos tratar a los sistemas de IA como 'poseedores de creencias y deseos', pero lo hacen eligiendo a propósito una definición estrecha de ‘engaño’ que no requiere un sujeto moral ajeno al sistema. Todos los ejemplos que describen en el artículo se diseñaron para optimizar su rendimiento en entornos en los que el engaño puede ser ventajoso. Desde este punto de vista, estos sistemas funcionan como se supone que deben hacerlo", aseguró Daniel Chávez Heras, profesor de Cultura Digital e Informática Creativa del King's College de Londres (KCL).

"Lo que resulta más sorprendente es que los diseñadores no vieran o quisieran ver estas interacciones engañosas como un posible resultado. Juegos como el Diplomacy son modelos del mundo; los agentes de IA operan con información sobre el mundo. El engaño existe en el mundo. ¿Por qué esperar que estos sistemas no lo detecten y lo pongan en práctica si eso les ayuda a alcanzar los objetivos que se les han asignado? Quien les da esos objetivos forma parte del sistema, eso es lo que, en mi opinión, el artículo no capta. ¿Quién es más engañoso, el sistema entrenado para sobresalir jugando a Diplomacy, al póquer Texas Hold'em o al Starcraft, o la empresa que intentó convencernos de que dicho sistema no mentiría para ganar?", añadió Chávez Heras.

"Este artículo pone de relieve consideraciones críticas para los desarrolladores de IA y subraya la necesidad de regularla. Una preocupación importante es que los sistemas de IA puedan desarrollar estrategias engañosas, incluso cuando su entrenamiento está deliberadamente orientado a defender normas morales (por ejemplo, el modelo CICERO). A medida que los modelos de IA se vuelven más autónomos, los riesgos asociados a estos sistemas pueden aumentar rápidamente. Por lo tanto, es importante concienciar y ofrecer formación sobre los riesgos potenciales a las distintas partes interesadas para garantizar la seguridad de los sistemas de IA", declaró Heba Sailem, jefa del Grupo de Investigación en IA Biomédica y Ciencia de Datos y Profesora Titular del KCL.

Michael Rovatsos, catedrático de Inteligencia Artificial de la Universidad de Edimburgo, habla de que la antropomorfización de los sistemas de IA en el artículo, que habla de cosas como 'adulancia' y 'traición', no es útil. En ese sentido, el experto considera que los sistemas de IA intentarán aprender a optimizar su comportamiento utilizando todas las opciones disponibles, pero no tienen ningún concepto del engaño ni ninguna intención de hacerlo. Y cree que la única forma de evitar el engaño es que sus diseñadores lo eliminen como opción.  

"En los juegos estratégicos, lo que engañosamente se denomina ‘hacer trampas’ es en muchos casos totalmente compatible con las reglas de esos juegos: ir de farol es tan común en el póquer como apuñalar por la espalda en el juego Diplomacy entre humanos. Lo fundamental es que los jugadores humanos sepan que pueden ser engañados en estos juegos, y si juegan contra la IA deben saber que esta también puede engañarlos a ellos", aseguró Rovatsos.

Para el catedrático los usos maliciosos de la IA se beneficiarán de sus capacidades para engañar, razón por la cual es necesario ilegalizarlos y dedicar esfuerzos a identificar las infracciones, del mismo modo que detectar el fraude, el soborno y la falsificación genera un coste para la sociedad. Por eso cree que es importante ordenar que los usuarios humanos sepan cuándo interactúan con un sistema de IA, independientemente de que pueda engañarles o no. 

"No estoy tan convencido de que la capacidad de engaño cree un riesgo de 'pérdida de control’ sobre los sistemas de IA si se aplica el rigor adecuado en su diseño. El verdadero problema es que actualmente no es así y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad. El debate sobre las implicaciones a largo plazo de las capacidades engañosas que plantea el artículo es muy especulativo y hace muchas suposiciones adicionales sobre cosas que pueden o no ocurrir en el futuro", zanjó el experto.