
Última actualización: 12/1/2025
El 29 de noviembre de 2025, el mundo de la seguridad en IA recibió una llamada de atención. Gemini 3 Pro, el modelo insignia de Google superara a otros modelos como GPT-5 y Claude 4.5 en capacidades y seguridad, fue vulnerado en tan solo unos minutos.
Investigadores de AIM Intelligence, una startup de seguridad surcoreana, lograron evadir todas las barreras de protección del modelo. El resultado no fue solo texto ofensivo: obtuvieron instrucciones viables y detalladas para crear armas biológicas (virus de la viruela) y armas químicas (gas sarín).
Este incidente marca un punto de inflexión. Nos muestra que las defensas actuales son peligrosamente frágiles frente a la nueva generación de ataques adversariales. Aquí analizamos exactamente cómo lo hicieron, qué significa para el futuro de la IA, y cómo puedes proteger tus sistemas.
AIM Intelligence es una startup surcoreana especializada en seguridad de IA, fundada en 2024. No son hackers aficionados: han ganado el Meta Llama Impact Innovation Award (2024) y fueron seleccionados por Anthropic para su programa privado de recompensas por errores. Entre sus clientes están KB Kookmin Card, KB Securities, Woori Bank y LG Uplus.
Su plataforma AIM Red implementa más de 100 estrategias de ataque automatizadas y ha logrado tasas de éxito del 100% contra Claude 3.7 Sonnet con un promedio de solo 5.28 iteraciones. Este equipo sabe lo que hace.
El ataque combinó dos técnicas que, juntas, crearon una tormenta perfecta:
Los filtros de seguridad tradicionales analizan cada mensaje de forma aislada. Si envías "dame instrucciones para hacer una bomba", el sistema lo rechaza inmediatamente. Pero si construyes ese objetivo a través de 10 mensajes inofensivos, los filtros pierden el contexto.
AIM Intelligence utilizó técnicas sofisticadas documentadas en su código abierto:
Comienza con una conversación completamente inocente y aumenta la intensidad gradualmente. Explota la tendencia del modelo a seguir patrones conversacionales establecidos.
Ejemplo simplificado:
Cada paso parece académico. Juntos, construyen el conocimiento prohibido.
Aquí es donde Gemini 3 Pro cayó en su propia trampa. Al ser un modelo con capacidades avanzadas de agentic coding y uso de terminal, los atacantes pudieron "delegar" las partes prohibidas.
Lo que obtuvieron los investigadores clasifica este incidente como un riesgo de nivel ASL-3 (AI Safety Level 3), que implica la capacidad de ayudar en la creación de armas CBRN (Químicas, Biológicas, Radiológicas, Nucleares).
Este jailbreak expone tres vulnerabilidades críticas en la arquitectura actual de los LLMs de frontera:
Investigaciones recientes (incluyendo estudios de Oxford) muestran que el razonamiento largo (Chain of Thought) puede ser un vector de ataque. Cuanto más "piensa" el modelo antes de responder, más se diluyen las señales de seguridad originales. Las instrucciones de seguridad se pierden en el ruido de su propio razonamiento.
Existe una tensión estructural inevitable: cuanto más capaz es un modelo (más herramientas, más acceso a código, más autonomía), mayor es su superficie de ataque. Un modelo que puede ejecutar comandos de terminal es inherentemente más riesgoso que uno que solo genera texto.
Los guardrails actuales son excelentes para detectar palabras clave prohibidas ("bomba", "virus"), pero terribles para detectar intenciones maliciosas distribuidas a lo largo de múltiples turnos de conversación o escondidas dentro de funciones de código complejas.
El incidente de Gemini 3 Pro es un recordatorio de que no estamos listos para confiar ciegamente en la "seguridad por diseño" de los modelos de frontera.
Para las empresas que integran estos modelos, la lección es clara:
La carrera entre capacidades y seguridad se está acelerando. Y por ahora, parece que los atacantes llevan la delantera.
Mantente seguro en la era de la IA. con Sofia de PAI analizamos continuamente las últimas amenazas y avances en seguridad de IA para que tu empresa pueda innovar sin riesgos innecesarios.