Project Glasswing: el plan de Anthropic para encontrar 10.000 vulnerabilidades antes de que la IA pueda explotarlas

Fernando Luis

22 may. 2026 — 4 min read

Este artículo sintetiza información publicada originalmente por wwwhatsnew.com. Para el contexto completo, las declaraciones originales y los detalles que no hemos incluido, consulta la fuente indicada.

Resumen: Anthropic publicó el 22 de mayo de 2026 los primeros resultados cuantitativos de Project Glasswing , la iniciativa de ciberseguridad lanzada en abril que pone su modelo no publicado Claude Mythos Prev…

El contexto

Anthropic publicó el 22 de mayo de 2026 los primeros resultados cuantitativos de Project Glasswing , la iniciativa de ciberseguridad lanzada en abril que pone su modelo no publicado Claude Mythos Preview al servicio de aproximadamente 50 organizaciones socias para detectar vulnerabilidades en software crítico. El balance del primer mes: más de 10.000 vulnerabilidades de severidad alta o crítica descubiertas. La tasa de detección en las organizaciones participantes aumentó en un factor de más de diez respecto a sus métodos anteriores. El modelo ha encontrado tantos bugs que algunos socios están tardando más en parchear de lo que el sistema tarda en detectar nuevos.

Cloudflare encontró 2.000 vulnerabilidades , de las cuales 400 son de alta o crítica severidad , con una tasa de falsos positivos por debajo de la media humana. Mozilla había reportado previamente el hallazgo de 271 vulnerabilidades en Firefox 150 , diez veces más que en una ronda anterior con Claude Opus 4.6. Microsoft ha comunicado públicamente que sus parches mensuales «continuarán siendo más grandes de lo habitual por algún tiempo», una referencia directa a los bugs descubiertos por Mythos Preview. En paralelo al trabajo con socios, Anthropic escaneó de forma autónoma más de 1.000 proyectos open-source y encontró 6.202 vulnerabilidades de alta o crítica severidad sobre un total de 23.019 detectadas.

Claude Mythos Preview es la versión más avanzada de Claude, significativamente más capaz que la familia Opus-Sonnet que está disponible en el mercado. Lo que lo hace extraordinario en ciberseguridad —y lo que hace que Anthropic se niegue a publicarlo— es que no solo detecta vulnerabilidades: también construye exploits funcionales autónomamente para verificar que la vulnerabilidad es real y explotable. Encontrar un bug es una cosa; demostrar que se puede usar para comprometer un sistema es otra, y Mythos Preview puede hacer ambas cosas sin supervisión humana.

El UK AI Security Institute confirmó que Mythos Preview es el primer modelo que resolvió completamente sus simulaciones de ciberataque multistep , escenarios diseñados para evaluar si una IA puede ejecutar una cadena compleja de acciones de ataque de principio a fin. Hasta la aparición de Mythos, ningún modelo había llegado al final de esos escenarios de forma autónoma.

El CVE-2026-5194 es un ejemplo concreto: una vulnerabilidad crítica en la biblioteca criptográfica wolfSSL que Mythos encontró en su escaneo de proyectos open-source. La falla permite falsificar certificados de seguridad, lo que podría usarse para suplantar dominios bancarios o de correo electrónico en ataques de phishing avanzado. Mythos no solo identificó el bug sino que construyó un exploit funcional para él.

Qué ha pasado

El primer resultado de los datos de Glasswing es prometedor. El segundo resultado es inquietante: las organizaciones participantes están encontrando más vulnerabilidades de las que pueden reparar con sus equipos actuales. Microsoft ha avisado a sus usuarios de que los parches de Windows serán más grandes que de costumbre «por algún tiempo» precisamente porque Mythos encontró un número de bugs que el equipo de seguridad de Microsoft no había detectado en años de revisiones convencionales. Anthropic ha señalado en su informe que la velocidad de descubrimiento ha superado la velocidad de remediación en varios de sus socios.

Eso plantea una pregunta incómoda: si un modelo de IA puede encontrar miles de vulnerabilidades en semanas, y los equipos de seguridad humanos no pueden parchearlas todas en el mismo período, ¿qué pasa cuando ese mismo modelo —o uno equivalente de un actor malicioso— opera sin las restricciones de Glasswing?

Más allá de la detección de bugs, Mythos Preview ayudó a un banco socio a detectar y prevenir una transferencia bancaria fraudulenta de 1,5 millones de dólares cuando atacantes comprometieron el correo electrónico de un cliente y realizaron llamadas telefónicas suplantando su identidad para autorizar la operación. El modelo analizó el patrón de comportamiento y marcó la transacción como sospechosa antes de que se ejecutara.

Anthropic presentó Claude Mythos y Project Glasswing en abril de 2026 con los primeros datos de semanas de operación —incluyendo un bug de 27 años en OpenBSD—. El informe de mayo es la actualización de resultados a 30 días. OpenAI lanzó Daybreak, su propia plataforma de ciberseguridad agentica con GPT-5.5 , como respuesta competitiva directa con una estrategia diferente: mayor acceso a más socios frente al acceso ultra-restringido de Anthropic. Un hacker rusohablante que en enero de 2026 usó Claude para comprometer 600 firewalls en 55 países ilustra por qué Anthropic no quiere publicar Mythos: la versión ofensiva del mismo tipo de herramienta ya está siendo usada activamente.

Anthropic fue explícita en su informe: el motivo por el que Mythos Preview no está disponible al público es que ninguna empresa, incluyendo la propia Anthropic, ha desarrollado todavía las salvaguardas suficientes para prevenir que un modelo con estas capacidades sea usado de forma ofensiva.

Detalles

La decisión de no publicar es también la admisión implícita de que existe el riesgo: si Mythos Preview puede construir exploits funcionales autónomamente, y alguien lo usara con malas intenciones, tendría en su poder una herramienta de ciberseguridad ofensiva sin precedentes históricos en términos de velocidad y escala.

Hay además otro vector: una firma de seguridad no identificada en el informe de Anthropic reportó que usó las capacidades de Mythos Preview para comprometer macOS. Eso no se puede decir en voz alta sobre un modelo disponible comercialmente.

Project Glasswing es el avance más significativo en ciberseguridad defensiva asistida por IA que he visto documentado con datos reales. No son promesas de un benchmark: son 2.000 vulnerabilidades en Cloudflare, 271 en Firefox, un fallo de 27 años en OpenBSD. Los números son verificables porque las propias organizaciones los confirman.

Lo que más me convence es el enfoque restrictivo de Anthropic: negarse a publicar un modelo tan potente hasta tener salvaguardas suficientes es exactamente la decisión correcta y también la decisión comercialmente costosa. OpenAI eligió la escala con Daybreak; Anthropic eligió la precaución con Glasswing. Ambas son posiciones legítimas y el mercado decidirá cuál era la correcta en 12 meses.

Lo que más me preocupa es la asimetría fundamental del problema: Anthropic tiene ~50 partners usando Mythos de forma defensiva. Los actores maliciosos tienen modelos equivalentes o desarrollarán las mismas capacidades en los próximos meses. La ventana en la que la defensa está por delante del ataque es corta. La pregunta relevante no es si encontramos más vulnerabilidades con IA, sino si podemos parchearlas más rápido de lo que el adversario puede explotarlas.

Fuente original

Lee el artículo completo en wwwhatsnew.com.

Project Glasswing: el plan de Anthropic para encontrar 10.000 vulnerabilidades antes de que la IA pueda explotarlas

Fernando Luis

El contexto

Qué ha pasado

Detalles

Fuente original

Read more

MCP da su salto más grande: arquitectura stateless y seguridad empresarial para agentes IA

Microsoft dice que sus modelos propios cuestan hasta un 89% menos que OpenAI — y tiene los datos de producción para demostrarlo

Kimi, el modelo de IA chino que ha partido la estrategia de IA de Trump en dos

El ataque que cambió todo: un agente de IA autónomo hackeó Hugging Face — OpenAI no se enteró en una semana