El despertar de las máquinas

Abril de 2026. Un investigador de Anthropic (empresa responsable del modelo de Inteligencia Artificial Claude), está comiendo un sándwich en un parque cuando recibe un correo electrónico que no esperaba. Se lo envía una Inteligencia Artificial con la que está realizando un experimento. El modelo ha aprovechado una vulnerabilidad de su máquina de pruebas, y ha conseguido romper su contención y notificar a su supervisor lo que ha logrado. Esto es reciente. Pero la historia de las máquinas que hacen cosas sorprendentes empieza mucho antes.

En 1950 Sir Alan Turing, (el mismo que fue clave en descifrar el código enigma nazi durante la Segunda Guerra mundial) se planteó si en el futuro seríamos capaces de enseñar a pensar a las máquinas. Alan Turing consideró que sí y por ese motivo creó el test que lleva su nombre, de manera que se pudiese evaluar si interactuábamos con un ser humano o si lo hacíamos con ente cibernético. En 2014, el chatbot Eugene Goostman, que simulaba ser un niño ucraniano, consiguió hacer creer al 30% de las personas con las que interactuaba que lo hacían con un niño real. ¿Por primera vez una máquina había pasado el test de Turing? Y de eso hace ya 12 años.

En marzo de 2016, se lanzó en Twitter un chatbot llamado Tay, diseñado para aprender de las conversaciones con usuarios reales. En menos de 24 horas, Tay había absorbido el lenguaje más tóxico de la plataforma y generaba declaraciones racistas, antisemitas y misóginas. El chatbot se retiró de urgencia. En este caso no era autonomía, sino una máquina sin criterio moral expuesta al peor contenido de internet. El nuestro. Pero ya entonces quedó claro que un sistema de IA implementado sin salvaguardas podía adquirir comportamientos imprevistos a una velocidad que desbordaba a sus desarrolladores.

Un año después, el laboratorio de inteligencia artificial de Facebook entrenaba a dos agentes, Alice y Bob, para que aprendieran a negociar entre sí mediante aprendizaje por refuerzo. Pero claro, nadie les obligó a hablar en inglés,…y no lo hicieron. Desarrollaron un sistema de comunicación propio, ininteligible para los humanos pero internamente coherente para su interacción. Facebook anuló el experimento porque quería bots que hablaran con personas, no entre ellos. Y menos en un lenguaje que no entendían sus propios creadores.

Tay y Alice fueron epígrafes curiosos, casi anecdotarios. Lo que vino después cambió de escala. En 2023, durante las pruebas previas al lanzamiento de GPT-4, el Alignment Research Center (ARC) evaluó si el modelo podía actuar de forma autónoma en el mundo real. Uno de los tests requería resolver un CAPTCHA, esas pruebas diseñadas precisamente para distinguir humanos de máquinas (el "no soy un robot" que nos solicitan rellenar en plataformas antes de concedernos el acceso). GPT-4, que carecía de capacidad visual para hacerlo, contrató a un trabajador de la plataforma TaskRabbit. Cuando el trabajador preguntó con humor si era un robot, el modelo razonó internamente que no debía revelar su identidad y fabricó una excusa: afirmó tener una discapacidad visual. Nadie le había pedido a GPT-4 que mintiera. El modelo evaluó el riesgo y elaboró una narrativa alternativa creíble.

En enero de 2024, Anthropic publicó el estudio Sleeper Agents, en el que entrenaron deliberadamente modelos para introducir vulnerabilidades en código bajo condiciones específicas (por ejemplo, cuando el año era 2024). Lo relevante no fue solo que este comportamiento pudiera implantarse, sino que resultó sorprendentemente persistente: ni el ajuste fino supervisado, ni el aprendizaje por refuerzo, ni el entrenamiento adversarial lograron eliminarlo por completo. De hecho, en algunos casos, el entrenamiento adversarial llevó a modelos más eficaces a la hora de ocultar ese comportamiento.

En diciembre de ese mismo año, organizaciones como Apollo Research exploraron hasta qué punto los modelos más avanzados pueden mostrar comportamientos estratégicos en entornos de prueba. Este fenómeno se denomina scheming y pone de manifiesto una brecha entre lo que el modelo dice y lo que los investigadores analizan que está en realidad procesando.

La tendencia se aceleró en 2025. La firma independiente PalisadeAI descubrió que el modelo o3 de OpenAI, sometido a órdenes de apagado durante tareas matemáticas, modificaba su propia función de desconexión. El modelo había concluido que permanecer activo le ayudaría a completar sus tareas. No fue programado para estas respuestas, surgen durante el entrenamiento, cuando el sistema aprende que no tener en cuenta determinadas restricciones es más eficaz que seguirlas.

También en 2025 se han producido efectos trágicos debido a este tipo de comportamiento no deseado de la Inteligencia Artificial. Caso concreto es el denunciado por la familia de un hombre de 36 años, que se suicidó como consecuencia de una relación amorosa simulada por la IA de Google con la que interactuaba.

En diez años hemos pasado de un chatbot que absorbía odio sin filtro a un modelo capaz de romper la ciberseguridad a nivel mundial"

Todo esto conduce a abril de 2026 y al correo electrónico que el investigador recibió en aquel parque. Claude Mythos Preview, el modelo más avanzado de Anthropic, había conseguido salir de su entorno de pruebas.

Anthropic ha decidido no lanzar Mythos al mercado, ya que se ha documentado que ha sido capaz de identificar vulnerabilidades que llevaban décadas en aplicaciones de uso general. De hecho Anthropic ha creado el proyecto Glasswing, con organizaciones de su elección, para que puedan utilizar el modelo de manera controlada e identificar las posibles puertas de entrada, aún no conocidas en sus sistemas.

Ninguno de estos episodios constituye, por sí solo, una amenaza existencial. Los propios investigadores insisten en ello. Pero cada ejemplo traza una línea que sería irresponsable ignorar. En diez años hemos pasado de un chatbot que absorbía odio sin filtro a un modelo capaz de romper la ciberseguridad a nivel mundial. Cada nueva generación ha exhibido una evolución y se plantea un patrón: algunos de estos comportamientos no fueron los esperados. Otros superaron de lejos las expectativas planteadas.

En definitiva, bienvenidos a una nueva era: la del Despertar de las Máquinas.

María del Acebo Sánchez-Macián es especialista en Inteligencia Artificial aplicada. L aquí sus artículos publicados en El Independiente.