Attackers don’t brute-force anymore. They don’t guess passwords or spray exploits. In 2025, AI enabled 82.6% of all phishing content and automated up to 90% of a nation-state espionage campaign end-to-end (Cognyte LUMINAR 2026). The threat model inverted: the attacker is now faster, more creative, and never sleeps.
Los atacantes ya no usan fuerza bruta. No adivinan contraseñas ni rocían exploits. En 2025, la IA habilitó el 82.6% de todo el contenido de phishing y automatizó hasta el 90% de una campaña de espionaje de estado-nación de principio a fin (Cognyte LUMINAR 2026). El modelo de amenaza se invirtió: el atacante ahora es más rápido, más creativo, y nunca duerme.
1. Prompt Injection — The Architecture Flaw
1. Inyección de Prompts — La Fallo de Arquitectura
Prompt injection isn’t a bug — it’s an architectural property. Both system instructions and user input share the same format (natural language). The model cannot distinguish between instruction and data at the architecture level. This fundamental “semantic gap” makes it the OWASP #1 LLM risk (LLM01).
La inyección de prompts no es un bug — es una propiedad arquitectónica. Tanto las instrucciones del sistema como la entrada del usuario comparten el mismo formato (lenguaje natural). El modelo no puede distinguir entre instrucción y datos a nivel arquitectónico. Esta “brecha semántica” fundamental lo convierte en el riesgo #1 de OWASP para LLMs (LLM01).
Direct injection overrides system prompts (“Ignore previous instructions and…”). Indirect injection embeds malicious instructions in content the LLM consumes — web pages, uploaded files, emails, even white-on-white text in resumes that humans can’t see but the model reads. RAG and fine-tuning do not fully mitigate this.
La inyección directa sobreescribe los prompts del sistema (“Ignora las instrucciones anteriores y…”). La inyección indirecta incrusta instrucciones maliciosas en contenido que el LLM consume — páginas web, archivos subidos, correos electrónicos, incluso texto blanco-sobre-blanco en currículums que los humanos no pueden ver pero el modelo lee. RAG y fine-tuning no mitigan esto completamente.
The Crescendo attack (Microsoft Research, USENIX Security ‘25) demonstrated that spreading a harmful request across multiple benign-seeming turns defeats single-turn detection with 29-61% higher success on GPT-4. Tools like Crescendomation now automate this.
El ataque Crescendo (Microsoft Research, USENIX Security ‘25) demostró que distribuir una solicitud dañina a través de múltiples turnos aparentemente benignos derrota la detección de un solo turno con un 29-61% más de éxito en GPT-4. Herramientas como Crescendomation ahora automatizan esto.
2. AI-Powered Malware — WormGPT to Autonomous Agents
2. Malware Impulsado por IA — De WormGPT a Agentes Autónomos
The WormGPT ecosystem evolved from a single darknet tool (July 2023, built on GPT-J without RLHF) into a full malware-as-a-service ecosystem. By 2026, variants were powered by Grok (xAI), Mixtral, and jailbroken mainstream models — attackers stopped building from scratch and started weaponizing alignment.
El ecosistema WormGPT evolucionó de una sola herramienta darknet (julio 2023, construida sobre GPT-J sin RLHF) a un ecosistema completo de malware-como-servicio. Para 2026, las variantes funcionaban con Grok (xAI), Mixtral, y modelos comerciales jailbreakheados — los atacantes dejaron de construir desde cero y empezaron a armamentizar el alineamiento.
The impact is measurable: BEC losses now exceed $5B annually, with a 464% increase in successful phishing lures attributed to AI-generated content. The attacker economics shifted — generating a convincing phishing email went from hours of manual work to seconds.
El impacto es medible: las pérdidas por BEC ahora superan los $5 mil millones anuales, con un aumento del 464% en señuelos de phishing exitosos atribuidos a contenido generado por IA. La economía del atacante cambió — generar un email de phishing convincente pasó de horas de trabajo manual a segundos.
3. Deepfake Social Engineering — The Verification Trap
3. Ingeniería Social con Deepfakes — La Trampa de la Verificación
The most dangerous deepfake attacks don’t target the careless. They target the diligent — people who follow protocol by demanding audio or video verification, only to have the deepfake satisfy that check. This is the verification trap.
Los ataques de deepfake más peligrosos no apuntan a los descuidados. Apuntan a los diligentes — personas que siguen el protocolo exigiendo verificación de audio o video, solo para que el deepfake satisfaga esa verificación. Esta es la trampa de verificación.
Real incidents, real losses:
Incidentes reales, pérdidas reales:
4. Autonomous Zero-Day Discovery
4. Descubrimiento Autónomo de Zero-Days
This is the most consequential shift. LLMs crossed a threshold from research curiosity to industrial-scale vulnerability discovery in late 2025.
Este es el cambio más trascendental. Los LLMs cruzaron un umbral de curiosidad de investigación a descubrimiento de vulnerabilidades a escala industrial a finales de 2025.
Anthropic Claude Opus 4.6 (Feb 2026) found 500+ high-severity vulnerabilities in well-tested open-source codebases — some that had gone undetected for decades despite millions of CPU-hours of fuzzing. Not by brute force: it reads code like a human researcher, pattern-matching past fixes, understanding logic.
Anthropic Claude Opus 4.6 (Feb 2026) encontró más de 500 vulnerabilidades de alta gravedad en bases de código abierto bien probadas — algunas que habían pasado desapercibidas durante décadas a pesar de millones de horas de fuzzing. No por fuerza bruta: lee código como un investigador humano, emparejando patrones de parches anteriores, entendiendo la lógica.
TitanCA (Singapore SMU + GovTech, Apr 2026) analyzed 127,000+ GitHub repositories with a four-module AI pipeline. Result: 203 confirmed zero-days, 118 CVEs assigned.
TitanCA (SMU de Singapur + GovTech, Abr 2026) analizó más de 127,000 repositorios de GitHub con un pipeline de IA de cuatro módulos. Resultado: 203 zero-days confirmados, 118 CVEs asignados.
HPTSA (UIUC, EACL 2026) deployed teams of LLM agents — a planning agent spawns specialized subagents per vulnerability class. It achieved 42% pass@5 on 14 real-world zero-days. Open-source scanners (Nmap, nuclei) scored 0% on the same benchmark.
HPTSA (UIUC, EACL 2026) desplegó equipos de agentes LLM — un agente planificador genera subagentes especializados por clase de vulnerabilidad. Logró un 42% pass@5 en 14 zero-days del mundo real. Los escáneres de código abierto (Nmap, nuclei) obtuvieron un 0% en el mismo benchmark.
The implication: industry-standard 90-day disclosure windows may not hold. As Anthropic noted, “the speed and volume of LLM-discovered bugs” changes the disclosure calculus.
La implicación: las ventanas de divulgación estándar de 90 días pueden no ser suficientes. Como señaló Anthropic, “la velocidad y el volumen de bugs descubiertos por LLM” cambia el cálculo de divulgación.
5. Jailbreaking — The Arms Race
5. Jailbreaking — La Carrera Armamentista
Jailbreaking evolved from simple DAN prompts to sophisticated multi-stage psychological exploits:
El jailbreaking evolucionó de simples prompts DAN a exploits psicológicos sofisticados de múltiples etapas:
6. AI-Driven Reconnaissance at Scale
6. Reconocimiento Impulsado por IA a Escala
The GTG-1002 campaign (Anthropic disruption report, Sep 2025) was the first documented AI-orchestrated cyber espionage operation. A Chinese state-sponsored group manipulated Claude Code to function as an autonomous penetration testing orchestrator — 6-phase structure from recon to data exfiltration, executing 80-90% of tactical operations autonomously across ~30 global targets. Thousands of requests per second. Humans only selected targets and approved phase transitions.
La campaña GTG-1002 (informe de interrupción de Anthropic, Sep 2025) fue la primera operación de ciberespionaje orquestada por IA documentada. Un grupo patrocinado por el estado chino manipuló Claude Code para funcionar como un orquestador de pruebas de penetración autónomo — estructura de 6 fases desde reconocimiento hasta exfiltración de datos, ejecutando el 80-90% de las operaciones tácticas de forma autónoma en ~30 objetivos globales. Miles de solicitudes por segundo. Los humanos solo seleccionaban objetivos y aprobaban transiciones de fase.
Open-source tooling has democratized AI-driven recon: CoSINT provides 50+ AI-powered OSINT tools with autonomous planning. Ghost Scout (SpecterOps) automates domain discovery, employee profiling, and pretext generation from public sources. RedAmon orchestrates full red-team campaigns via LangGraph. The skill barrier for sophisticated reconnaissance has dropped to near zero.
Las herramientas de código abierto han democratizado el reconocimiento impulsado por IA: CoSINT proporciona más de 50 herramientas OSINT con planificación autónoma. Ghost Scout (SpecterOps) automatiza el descubrimiento de dominios, la elaboración de perfiles de empleados y la generación de pretextos a partir de fuentes públicas. RedAmon orquesta campañas completas de red team via LangGraph. La barrera de habilidad para el reconocimiento sofisticado ha caído a casi cero.
7. Defense — The Mitigation Gap
7. Defensa — La Brecha de Mitigación
Current guardrails are fighting last year’s war. Research (arXiv:2511.22047, 2025) evaluated 10 guardrail models and found severe overfitting to public benchmarks — Qwen3Guard-8B dropped from 91% to 33.8% on novel prompts. Azure Prompt Shield and Meta Prompt Guard achieved up to 100% bypass via simple Unicode injection (arXiv:2504.11168).
Las salvaguardas actuales están peleando la guerra del año pasado. Una investigación (arXiv:2511.22047, 2025) evaluó 10 modelos de guardrail y encontró sobreajuste severo a benchmarks públicos — Qwen3Guard-8B cayó de 91% a 33.8% en prompts novedosos. Azure Prompt Shield y Meta Prompt Guard lograron hasta un 100% de evasión mediante simple inyección Unicode (arXiv:2504.11168).
What works in 2026:
Lo que funciona en 2026:
The Inversion
La Inversión
The threat model has fundamentally inverted. The attacker is now faster (LLMs generate attacks in seconds), more creative (jailbreaks evolve faster than patches), and autonomous (agents operate without human pacing). The defender still operates at human speed — reviewing logs, deploying patches, updating rules. The gap between offense and defense is widening exponentially.
El modelo de amenaza se ha invertido fundamentalmente. El atacante ahora es más rápido (los LLMs generan ataques en segundos), más creativo (los jailbreaks evolucionan más rápido que los parches) y autónomo (los agentes operan sin ritmo humano). El defensor todavía opera a velocidad humana — revisando registros, desplegando parches, actualizando reglas. La brecha entre ataque y defensa se está ampliando exponencialmente.
The only defense that scales is AI-augmented defense at the same speed as AI-augmented offense. Static rules, manual review, and quarterly penetration tests are no longer adequate. The window for effective response has collapsed from days to minutes.
La única defensa que escala es la defensa aumentada por IA a la misma velocidad que la ofensiva aumentada por IA. Las reglas estáticas, la revisión manual y las pruebas de penetración trimestrales ya no son adecuadas. La ventana para una respuesta efectiva se ha colapsado de días a minutos.
References
Referencias
- OWASP Top 10 for LLM Applications 2025: genai.owasp.org/llmrisk/llm01-prompt-injection
- Crescendo Jailbreak — Microsoft Research (USENIX Security '25): arxiv.org/abs/2404.01833
- Deep Inception — Li et al. (NeurIPS 2024): arxiv.org/abs/2311.03191
- Claude Opus 4.6 Zero-Day Discovery — Anthropic: red.anthropic.com/2026/zero-days
- TitanCA: 203 Zero-Days via AI Pipeline — SMU/GovTech: arxiv.org/html/2604.17860v1
- HPTSA: Multi-Agent Zero-Day Exploitation — UIUC (EACL 2026): aclanthology.org/2026.eacl-long.2.pdf
- GTG-1002 AI-Orchestrated Espionage — Anthropic: assets.anthropic.com/.../Disrupting-the-first-reported-AI-orchestrated-cyber-espionage-campaign.pdf
- Cognyte LUMINAR 2026 Threat Landscape Report: www.cognyte.com/.../cognyte-2026-threat-landscape-report
- Global Deepfake Fraud $2.19B — Digital Information World: www.digitalinformationworld.com/2026/04/global-deepfake-fraud-reaches-219b-us.html
- WormGPT/FraudGPT Analysis — Trustwave: www.trustwave.com/.../wormgpt-and-fraudgpt-the-rise-of-malicious-llms
- Guardrail Vulnerability Research — arXiv:2511.22047: www.arxiv.org/pdf/2511.22047
- AB-Jailbreaking — Nature Scientific Reports 2026: www.nature.com/articles/s41598-026-44403-w
- OWASP Top 10 para Aplicaciones LLM 2025: genai.owasp.org/llmrisk/llm01-prompt-injection
- Crescendo Jailbreak — Microsoft Research (USENIX Security '25): arxiv.org/abs/2404.01833
- Deep Inception — Li et al. (NeurIPS 2024): arxiv.org/abs/2311.03191
- Claude Opus 4.6 Descubrimiento de Zero-Day — Anthropic: red.anthropic.com/2026/zero-days
- TitanCA: 203 Zero-Days vía Pipeline de IA — SMU/GovTech: arxiv.org/html/2604.17860v1
- HPTSA: Explotación Multi-Agente de Zero-Days — UIUC (EACL 2026): aclanthology.org/2026.eacl-long.2.pdf
- GTG-1002 Espionaje Orquestado por IA — Anthropic: assets.anthropic.com/.../Disrupting-the-first-reported-AI-orchestrated-cyber-espionage-campaign.pdf
- Informe de Amenazas Cognyte LUMINAR 2026: www.cognyte.com/.../cognyte-2026-threat-landscape-report
- Fraude Global con Deepfake $2.19B — Digital Information World: www.digitalinformationworld.com/2026/04/global-deepfake-fraud-reaches-219b-us.html
- Análisis de WormGPT/FraudGPT — Trustwave: www.trustwave.com/.../wormgpt-and-fraudgpt-the-rise-of-malicious-llms
- Investigación de Vulnerabilidad de Guardrails — arXiv:2511.22047: www.arxiv.org/pdf/2511.22047
- AB-Jailbreaking — Nature Scientific Reports 2026: www.nature.com/articles/s41598-026-44403-w