FuzzingBrain V2: el sistema multi-agente que encuentra vulnerabilidades que ni los humanos detectan
Un sistema multi-agente basado en LLMs que detecta el 90% de vulnerabilidades en competición y ha descubierto 29 zero-days en proyectos reales. Así funciona FuzzingBrain V2.
Cada año se reportan decenas de miles de vulnerabilidades en software, y el ritmo no para de crecer. En 2025 se alcanzaron casi 50.000 CVE publicados. La pregunta que lleva años sobre la mesa es: ¿puede la IA ayudar a encontrar fallos antes de que los atacantes los exploten?
La respuesta está en un nuevo trabajo publicado en arXiv: FuzzingBrain V2, un sistema multi-agente basado en LLMs que ha demostrado detectar el 90% de las vulnerabilidades en el数据集 de la competición AIxCC 2025, y que en producción ha descubierto 29 vulnerabilidades zero-day en 12 proyectos open source, de las cuales 2 ya tienen CVE asignado.
El problema con las herramientas anteriores
Antes de FuzzingBrain V2, las aproximaciones con LLMs tenían tres problemas importantes:
Alta tasa de falsos positivos — Los informes generados por LLMs indicaban fallos que luego no se podían reproducir. Sin verificación, no hay confianza.
Granularidad subóptima — Analizar a nivel de función pierde contexto cuando el código es extenso; analizar a nivel de línea no tiene suficiente contexto para razonar sobre dependencias cruzadas.
Dificultad con dependencias complejas — Muchas vulnerabilidades reales dependen de condiciones de activación que cruzan múltiples funciones y estados del programa.
Cómo funciona FuzzingBrain V2
El sistema se estructura en cuatro componentes principales que trabajan juntos como un equipo de investigadores especializados:
1. Análisis basado en control-flow (Suspicious Point) — En lugar de analizar función por función o línea por línea, el sistema identifica puntos de control de flujo que representan la granularidad óptima: tienen suficiente contexto local y no se pierden en la extensión del código. Es la diferencia entre buscar en un edificio planta por planta vs. buscar habitación por habitación.
2. Análisis jerárquico con doble capa de fuzzing — Un primer nivel explora funciones de forma independiente; un segundo nivel conecta las funciones que han mostrado interacción problemática. Esto maximiza la cobertura bajo restricciones de recursos.
3. Integración con OSS-Fuzz — Cada vulnerabilidad detectada se traduce automáticamente en un fuzzer reproducible. Si el fuzzer no reproduce el fallo, la vulnerabilidad se descarta. Este es el punto clave: todas las vulnerabilidades reportadas son verificables.
4. Herramientas MCP (Model Context Protocol) para análisis estático y dinámico — El sistema usa un conjunto de herramientas externas (análisis de código estático, ejecución dinámica, modelado de dependencias) que los agentes consultan según el contexto del problema.
El resultado en números
En el数据集 oficial de la competición AIxCC 2025 (C/C++, 40 vulnerabilidades), el sistema detectó 36 de 40 — un 90%. En entorno real, sobre 12 proyectos open source, descubrió 29 zero-days, todas confirmadas y corregidas por los mantenedores. El去打 de esto no es solo la cifra, sino que cada hallazgo incluye un fuzzer reproducible.
¿Qué significa esto para la seguridad?
FuzzingBrain V2 representa un cambio de paradigma en cómo podemos usar LLMs para seguridad: no se trata de reemplazar a los investigadores, sino de amplificar su capacidad. El sistema no genera informes que luego hay que verificar manualmente; genera hallazgos verificables automáticamente.
Para equipos de seguridad, esto implica que la barreras de entrada para hacer análisis profundo de código baja significativamente. Un proyecto con recursos limitados puede ahora desplegar un sistema que hace el trabajo grueso de identificación, dejando a los humanos para la explotación, validación y remediación.
Paper: arXiv:2605.21779 — FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction