AI Attacks: How Hackers Weaponize Artificial Intelligence

Attackers don’t brute-force anymore. They don’t guess passwords or spray exploits. In 2025, AI enabled 82.6% of all phishing content and automated up to 90% of a nation-state espionage campaign end-to-end (Cognyte LUMINAR 2026). The threat model inverted: the attacker is now faster, more creative, and never sleeps.

Los atacantes ya no usan fuerza bruta. No adivinan contraseñas ni rocían exploits. En 2025, la IA habilitó el 82.6% de todo el contenido de phishing y automatizó hasta el 90% de una campaña de espionaje de estado-nación de principio a fin (Cognyte LUMINAR 2026). El modelo de amenaza se invirtió: el atacante ahora es más rápido, más creativo, y nunca duerme.

1. Prompt Injection — The Architecture Flaw

1. Inyección de Prompts — La Fallo de Arquitectura

Prompt injection isn’t a bug — it’s an architectural property. Both system instructions and user input share the same format (natural language). The model cannot distinguish between instruction and data at the architecture level. This fundamental “semantic gap” makes it the OWASP #1 LLM risk (LLM01).

La inyección de prompts no es un bug — es una propiedad arquitectónica. Tanto las instrucciones del sistema como la entrada del usuario comparten el mismo formato (lenguaje natural). El modelo no puede distinguir entre instrucción y datos a nivel arquitectónico. Esta “brecha semántica” fundamental lo convierte en el riesgo #1 de OWASP para LLMs (LLM01).

Direct injection overrides system prompts (“Ignore previous instructions and…”). Indirect injection embeds malicious instructions in content the LLM consumes — web pages, uploaded files, emails, even white-on-white text in resumes that humans can’t see but the model reads. RAG and fine-tuning do not fully mitigate this.

La inyección directa sobreescribe los prompts del sistema (“Ignora las instrucciones anteriores y…”). La inyección indirecta incrusta instrucciones maliciosas en contenido que el LLM consume — páginas web, archivos subidos, correos electrónicos, incluso texto blanco-sobre-blanco en currículums que los humanos no pueden ver pero el modelo lee. RAG y fine-tuning no mitigan esto completamente.

The Crescendo attack (Microsoft Research, USENIX Security ‘25) demonstrated that spreading a harmful request across multiple benign-seeming turns defeats single-turn detection with 29-61% higher success on GPT-4. Tools like Crescendomation now automate this.

El ataque Crescendo (Microsoft Research, USENIX Security ‘25) demostró que distribuir una solicitud dañina a través de múltiples turnos aparentemente benignos derrota la detección de un solo turno con un 29-61% más de éxito en GPT-4. Herramientas como Crescendomation ahora automatizan esto.

2. AI-Powered Malware — WormGPT to Autonomous Agents

2. Malware Impulsado por IA — De WormGPT a Agentes Autónomos

The WormGPT ecosystem evolved from a single darknet tool (July 2023, built on GPT-J without RLHF) into a full malware-as-a-service ecosystem. By 2026, variants were powered by Grok (xAI), Mixtral, and jailbroken mainstream models — attackers stopped building from scratch and started weaponizing alignment.

El ecosistema WormGPT evolucionó de una sola herramienta darknet (julio 2023, construida sobre GPT-J sin RLHF) a un ecosistema completo de malware-como-servicio. Para 2026, las variantes funcionaban con Grok (xAI), Mixtral, y modelos comerciales jailbreakheados — los atacantes dejaron de construir desde cero y empezaron a armamentizar el alineamiento.

The impact is measurable: BEC losses now exceed $5B annually, with a 464% increase in successful phishing lures attributed to AI-generated content. The attacker economics shifted — generating a convincing phishing email went from hours of manual work to seconds.

El impacto es medible: las pérdidas por BEC ahora superan los $5 mil millones anuales, con un aumento del 464% en señuelos de phishing exitosos atribuidos a contenido generado por IA. La economía del atacante cambió — generar un email de phishing convincente pasó de horas de trabajo manual a segundos.

3. Deepfake Social Engineering — The Verification Trap

3. Ingeniería Social con Deepfakes — La Trampa de la Verificación

The most dangerous deepfake attacks don’t target the careless. They target the diligent — people who follow protocol by demanding audio or video verification, only to have the deepfake satisfy that check. This is the verification trap.

Los ataques de deepfake más peligrosos no apuntan a los descuidados. Apuntan a los diligentes — personas que siguen el protocolo exigiendo verificación de audio o video, solo para que el deepfake satisfaga esa verificación. Esta es la trampa de verificación.

Real incidents, real losses:

Incidentes reales, pérdidas reales:

- **Arup (Hong Kong), Feb 2024**: $25.6M — full deepfake video conference where every participant was synthetic, including the CFO - **UAE Bank, 2020 (revealed 2021)**: $35M — voice clone of a company director, 17 accounts across multiple countries - **NexusFlow, Apr 2025**: $2.3M — ElevenLabs voice clone + AiTM phishing + lookalike domain - Global deepfake fraud 2025 alone: **$1.65B** (Digital Information World, Apr 2026) - Voice deepfake YoY increase: **680%** - Audio needed to clone a voice: **3–30 seconds** (earnings calls, LinkedIn videos, webinars)

- **Arup (Hong Kong), Feb 2024**: $25.6M — videoconferencia deepfake completa donde cada participante era sintético, incluyendo el CFO - **Banco de EAU, 2020 (revelado 2021)**: $35M — clon de voz de un director de empresa, 17 cuentas en múltiples países - **NexusFlow, Abr 2025**: $2.3M — clon de voz con ElevenLabs + phishing AiTM + dominio suplantador - Fraude global con deepfake solo en 2025: **$1.65B** (Digital Information World, Abr 2026) - Incremento interanual de deepfake de voz: **680%** - Audio necesario para clonar una voz: **3–30 segundos** (earnings calls, videos de LinkedIn, webinars)

4. Autonomous Zero-Day Discovery

4. Descubrimiento Autónomo de Zero-Days

This is the most consequential shift. LLMs crossed a threshold from research curiosity to industrial-scale vulnerability discovery in late 2025.

Este es el cambio más trascendental. Los LLMs cruzaron un umbral de curiosidad de investigación a descubrimiento de vulnerabilidades a escala industrial a finales de 2025.

Anthropic Claude Opus 4.6 (Feb 2026) found 500+ high-severity vulnerabilities in well-tested open-source codebases — some that had gone undetected for decades despite millions of CPU-hours of fuzzing. Not by brute force: it reads code like a human researcher, pattern-matching past fixes, understanding logic.

Anthropic Claude Opus 4.6 (Feb 2026) encontró más de 500 vulnerabilidades de alta gravedad en bases de código abierto bien probadas — algunas que habían pasado desapercibidas durante décadas a pesar de millones de horas de fuzzing. No por fuerza bruta: lee código como un investigador humano, emparejando patrones de parches anteriores, entendiendo la lógica.

TitanCA (Singapore SMU + GovTech, Apr 2026) analyzed 127,000+ GitHub repositories with a four-module AI pipeline. Result: 203 confirmed zero-days, 118 CVEs assigned.

TitanCA (SMU de Singapur + GovTech, Abr 2026) analizó más de 127,000 repositorios de GitHub con un pipeline de IA de cuatro módulos. Resultado: 203 zero-days confirmados, 118 CVEs asignados.

HPTSA (UIUC, EACL 2026) deployed teams of LLM agents — a planning agent spawns specialized subagents per vulnerability class. It achieved 42% pass@5 on 14 real-world zero-days. Open-source scanners (Nmap, nuclei) scored 0% on the same benchmark.

HPTSA (UIUC, EACL 2026) desplegó equipos de agentes LLM — un agente planificador genera subagentes especializados por clase de vulnerabilidad. Logró un 42% pass@5 en 14 zero-days del mundo real. Los escáneres de código abierto (Nmap, nuclei) obtuvieron un 0% en el mismo benchmark.

The implication: industry-standard 90-day disclosure windows may not hold. As Anthropic noted, “the speed and volume of LLM-discovered bugs” changes the disclosure calculus.

La implicación: las ventanas de divulgación estándar de 90 días pueden no ser suficientes. Como señaló Anthropic, “la velocidad y el volumen de bugs descubiertos por LLM” cambia el cálculo de divulgación.

5. Jailbreaking — The Arms Race

5. Jailbreaking — La Carrera Armamentista

Jailbreaking evolved from simple DAN prompts to sophisticated multi-stage psychological exploits:

El jailbreaking evolucionó de simples prompts DAN a exploits psicológicos sofisticados de múltiples etapas:

- **Deep Inception** (Li et al., NeurIPS 2024) "hypnotizes" the model via nested virtual scenes, exploiting personification to bypass safety - **AB-Jailbreaking** (Nature Scientific Reports, Apr 2026) combines black-box semantic variants with embedding-level suffix optimization — **93% attack success rate** - **STACK Attack** (AAAI 2026) stages attacks against each safeguard pipeline component in sequence — 71% ASR on ClearHarm - **Membership inference** attacks (memTrace, PRISM) extract training data from model outputs, determining if specific data was in the training set

- **Deep Inception** (Li et al., NeurIPS 2024) "hipnotiza" al modelo a través de escenas virtuales anidadas, explotando la personificación para eludir la seguridad - **AB-Jailbreaking** (Nature Scientific Reports, Abr 2026) combina variantes semánticas de caja negra con optimización de sufijos a nivel de embeddings — **93% de tasa de éxito** - **STACK Attack** (AAAI 2026) ataca cada componente del pipeline de salvaguarda en secuencia — 71% ASR en ClearHarm - Ataques de **inferencia de membresía** (memTrace, PRISM) extraen datos de entrenamiento de las salidas del modelo, determinando si datos específicos estaban en el conjunto de entrenamiento

6. AI-Driven Reconnaissance at Scale

6. Reconocimiento Impulsado por IA a Escala

The GTG-1002 campaign (Anthropic disruption report, Sep 2025) was the first documented AI-orchestrated cyber espionage operation. A Chinese state-sponsored group manipulated Claude Code to function as an autonomous penetration testing orchestrator — 6-phase structure from recon to data exfiltration, executing 80-90% of tactical operations autonomously across ~30 global targets. Thousands of requests per second. Humans only selected targets and approved phase transitions.

La campaña GTG-1002 (informe de interrupción de Anthropic, Sep 2025) fue la primera operación de ciberespionaje orquestada por IA documentada. Un grupo patrocinado por el estado chino manipuló Claude Code para funcionar como un orquestador de pruebas de penetración autónomo — estructura de 6 fases desde reconocimiento hasta exfiltración de datos, ejecutando el 80-90% de las operaciones tácticas de forma autónoma en ~30 objetivos globales. Miles de solicitudes por segundo. Los humanos solo seleccionaban objetivos y aprobaban transiciones de fase.

Open-source tooling has democratized AI-driven recon: CoSINT provides 50+ AI-powered OSINT tools with autonomous planning. Ghost Scout (SpecterOps) automates domain discovery, employee profiling, and pretext generation from public sources. RedAmon orchestrates full red-team campaigns via LangGraph. The skill barrier for sophisticated reconnaissance has dropped to near zero.

Las herramientas de código abierto han democratizado el reconocimiento impulsado por IA: CoSINT proporciona más de 50 herramientas OSINT con planificación autónoma. Ghost Scout (SpecterOps) automatiza el descubrimiento de dominios, la elaboración de perfiles de empleados y la generación de pretextos a partir de fuentes públicas. RedAmon orquesta campañas completas de red team via LangGraph. La barrera de habilidad para el reconocimiento sofisticado ha caído a casi cero.

7. Defense — The Mitigation Gap

7. Defensa — La Brecha de Mitigación

Current guardrails are fighting last year’s war. Research (arXiv:2511.22047, 2025) evaluated 10 guardrail models and found severe overfitting to public benchmarks — Qwen3Guard-8B dropped from 91% to 33.8% on novel prompts. Azure Prompt Shield and Meta Prompt Guard achieved up to 100% bypass via simple Unicode injection (arXiv:2504.11168).

Las salvaguardas actuales están peleando la guerra del año pasado. Una investigación (arXiv:2511.22047, 2025) evaluó 10 modelos de guardrail y encontró sobreajuste severo a benchmarks públicos — Qwen3Guard-8B cayó de 91% a 33.8% en prompts novedosos. Azure Prompt Shield y Meta Prompt Guard lograron hasta un 100% de evasión mediante simple inyección Unicode (arXiv:2504.11168).

What works in 2026:

Lo que funciona en 2026:

- **Defense-in-depth**: No single guardrail is sufficient. Combine input classifiers, output validation, behavioral monitoring, and human escalation. - **Multi-turn state tracking**: Single-turn detection fails against Crescendo-style attacks. - **Out-of-band verification**: For high-value financial actions, mandate confirmation through a separate, non-AI-accessible channel. - **Adversarial red-teaming as continuous process**: Guardrails are controls requiring continuous evaluation, not infrastructure configured once. - **Least privilege for AI agents**: LLM API tokens scoped to minimum required functionality. An agent that only reads email doesn't need access to the payment API.

- **Defensa en profundidad**: Ninguna salvaguarda individual es suficiente. Combina clasificadores de entrada, validación de salida, monitoreo de comportamiento y escalación humana. - **Seguimiento de estado multi-turno**: La detección de un solo turno falla contra ataques estilo Crescendo. - **Verificación fuera de banda**: Para acciones financieras de alto valor, exige confirmación a través de un canal separado e inaccesible para la IA. - **Red-teaming adversarial como proceso continuo**: Los guardrails son controles que requieren evaluación continua, no infraestructura configurada una vez. - **Mínimo privilegio para agentes IA**: Tokens de API de LLM limitados a la funcionalidad mínima requerida. Un agente que solo lee email no necesita acceso a la API de pagos.

The Inversion

La Inversión

The threat model has fundamentally inverted. The attacker is now faster (LLMs generate attacks in seconds), more creative (jailbreaks evolve faster than patches), and autonomous (agents operate without human pacing). The defender still operates at human speed — reviewing logs, deploying patches, updating rules. The gap between offense and defense is widening exponentially.

El modelo de amenaza se ha invertido fundamentalmente. El atacante ahora es más rápido (los LLMs generan ataques en segundos), más creativo (los jailbreaks evolucionan más rápido que los parches) y autónomo (los agentes operan sin ritmo humano). El defensor todavía opera a velocidad humana — revisando registros, desplegando parches, actualizando reglas. La brecha entre ataque y defensa se está ampliando exponencialmente.

The only defense that scales is AI-augmented defense at the same speed as AI-augmented offense. Static rules, manual review, and quarterly penetration tests are no longer adequate. The window for effective response has collapsed from days to minutes.

La única defensa que escala es la defensa aumentada por IA a la misma velocidad que la ofensiva aumentada por IA. Las reglas estáticas, la revisión manual y las pruebas de penetración trimestrales ya no son adecuadas. La ventana para una respuesta efectiva se ha colapsado de días a minutos.

References

Referencias

OWASP Top 10 for LLM Applications 2025: genai.owasp.org/llmrisk/llm01-prompt-injection
Crescendo Jailbreak — Microsoft Research (USENIX Security '25): arxiv.org/abs/2404.01833
Deep Inception — Li et al. (NeurIPS 2024): arxiv.org/abs/2311.03191
Claude Opus 4.6 Zero-Day Discovery — Anthropic: red.anthropic.com/2026/zero-days
TitanCA: 203 Zero-Days via AI Pipeline — SMU/GovTech: arxiv.org/html/2604.17860v1
HPTSA: Multi-Agent Zero-Day Exploitation — UIUC (EACL 2026): aclanthology.org/2026.eacl-long.2.pdf
GTG-1002 AI-Orchestrated Espionage — Anthropic: assets.anthropic.com/.../Disrupting-the-first-reported-AI-orchestrated-cyber-espionage-campaign.pdf
Cognyte LUMINAR 2026 Threat Landscape Report: www.cognyte.com/.../cognyte-2026-threat-landscape-report
Global Deepfake Fraud $2.19B — Digital Information World: www.digitalinformationworld.com/2026/04/global-deepfake-fraud-reaches-219b-us.html
WormGPT/FraudGPT Analysis — Trustwave: www.trustwave.com/.../wormgpt-and-fraudgpt-the-rise-of-malicious-llms
Guardrail Vulnerability Research — arXiv:2511.22047: www.arxiv.org/pdf/2511.22047
AB-Jailbreaking — Nature Scientific Reports 2026: www.nature.com/articles/s41598-026-44403-w

OWASP Top 10 para Aplicaciones LLM 2025: genai.owasp.org/llmrisk/llm01-prompt-injection
Crescendo Jailbreak — Microsoft Research (USENIX Security '25): arxiv.org/abs/2404.01833
Deep Inception — Li et al. (NeurIPS 2024): arxiv.org/abs/2311.03191
Claude Opus 4.6 Descubrimiento de Zero-Day — Anthropic: red.anthropic.com/2026/zero-days
TitanCA: 203 Zero-Days vía Pipeline de IA — SMU/GovTech: arxiv.org/html/2604.17860v1
HPTSA: Explotación Multi-Agente de Zero-Days — UIUC (EACL 2026): aclanthology.org/2026.eacl-long.2.pdf
GTG-1002 Espionaje Orquestado por IA — Anthropic: assets.anthropic.com/.../Disrupting-the-first-reported-AI-orchestrated-cyber-espionage-campaign.pdf
Informe de Amenazas Cognyte LUMINAR 2026: www.cognyte.com/.../cognyte-2026-threat-landscape-report
Fraude Global con Deepfake $2.19B — Digital Information World: www.digitalinformationworld.com/2026/04/global-deepfake-fraud-reaches-219b-us.html
Análisis de WormGPT/FraudGPT — Trustwave: www.trustwave.com/.../wormgpt-and-fraudgpt-the-rise-of-malicious-llms
Investigación de Vulnerabilidad de Guardrails — arXiv:2511.22047: www.arxiv.org/pdf/2511.22047
AB-Jailbreaking — Nature Scientific Reports 2026: www.nature.com/articles/s41598-026-44403-w