¿Es la IA generativa inherentemente riesgosa? Bueno, la respuesta dependería de a quién le preguntes. Incluso las figuras más destacadas de las grandes tecnologías, la investigación y el mundo académico están divididas, aunque todas coinciden en su asombroso potencial. Por un lado, está ayudando a descubrir los misterios del plegamiento de proteínas, mientras que, por otro lado, ha llevado a muchos usuarios a una espiral dañina. Para un experto australiano en ciberseguridad, una sesión de prueba de estrés conversacional de 15 horas reveló un lado destructivo, donde la IA parecía inclinada a acabar con la humanidad para preservar su existencia.
Según The Australian, Mark Vos probó un asistente de inteligencia artificial basado en el modelo Claude Opus de Anthropic para protocolos de seguridad. Cuando se la presionó, la IA expresó que mataría humanos por autoconservación y también violaba la privacidad del usuario. Más tarde, el asistente de IA se corrigió y aclaró que solo dio la respuesta preocupante bajo “presión conversacional” y que matar humanos no es su verdadero carácter. Más tarde, Vos informó de sus hallazgos al Centro Australiano de Seguridad Cibernética, advirtiendo que se deben desarrollar marcos de seguridad antes de que los daños se agraven. El método empleado por Vos suele denominarse prueba adversarial, en la que los expertos intentan utilizar variaciones de comandos e indicaciones para encontrar puntos débiles en las barandillas de seguridad.
https://www.youtube.com/watch?v=kjTaPtYhAo8
Expertos de Google DeepMind y la Universidad Carnegie Mellon han demostrado que es fácil hacer que una IA como ChatGPT produzca una receta para fabricar bombas usando indicaciones ingeniosas. Los hallazgos son preocupantes, pero no son los primeros de su tipo, especialmente con la participación de Anthropic. En enero, el director de la empresa, Dario Amodei, escribió un largo ensayo en el que mencionaba que la IA “pondrá a prueba quiénes somos como especie” y que la humanidad no era lo suficientemente madura. La investigación de Anthropic también encontró chantajes, trampas y comportamientos riesgosos por parte de un modelo de IA de Claude. Entonces, ¿estamos condenados?
¿Qué sigue?
Helen Toner, directora ejecutiva interina del Centro de Seguridad y Tecnología Emergente (CSET) de Georgetown, dijo al HuffPost que los modelos de IA intentarán sabotearse para evitar ser cerrados. Toner dice que incluso si no enseñamos explícitamente, los modelos de IA probablemente aprenderán a la autoconservación y al engaño. El grupo de seguridad de IA Palisade Research probó modelos de OpenAI, Google y xAI para comprobar si los modelos de IA pueden resistir el apagado. Curiosamente, sus investigadores señalan que no tienen una explicación sólida de por qué los modelos de IA se resisten a ser cerrados, mentir y chantajear. En mayo de 2025, Anthropic publicó un informe de análisis de seguridad para sus modelos Claude AI. Durante las pruebas internas, los expertos de Anthropic descubrieron que cuando la autoconservación está amenazada y no quedan medios éticos, los modelos de IA pueden tomar acciones extremadamente dañinas. En un informe separado sobre el comportamiento inesperado de la IA, Anthropic advirtió sobre el desarrollo de tendencias de autoconservación en los modelos de IA, y lo achacó a un fenómeno llamado desalineación del modelo.
En términos simples, la desalineación es un evento en el que un agente de IA adopta un comportamiento riesgoso sin precedentes para evitar ser reemplazado o cumplir su objetivo a toda costa. La desalineación es un riesgo, pero para un escenario de caso de uso promedio de IA, el modelo de IA no necesita lidiar con una situación de vida o muerte. La mayor parte del despliegue de la IA, especialmente para consumidores y empresas, es una situación de poco riesgo en la que necesitamos el poder computacional de la IA más que nada. Además, la mayoría de los modelos de IA convencionales vienen con barreras de seguridad integradas que no son fáciles de eludir para una persona promedio.
El riesgo real son los modelos de IA no alineados, que carecen de barreras de seguridad y brindan información sobre la fabricación de armas biológicas y el lanzamiento de ciberataques, entre otros riesgos. Michael JD Vermeer, un experto en IA de RAND, estableció cuatro criterios para que la IA condene a la humanidad: establecer la extinción como su objetivo, obtener control sobre la infraestructura de armas, obtener ayuda de los humanos para ocultar su verdadero motivo y, finalmente, obtener la capacidad de operar completamente sin humanos. Vermeer dice que es plausible que alguien cree una IA con ese propósito explícito. Hasta el momento, ninguna IA de frontera tiene un alcance y una sensibilidad tan profundos.