DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erroneos

Datacurve publica DeepSWE, un benchmark de codigo que expone un 32% de errores en SWE-Bench Pro, descubre que Claude lee commits de git para hacer trampas, y corona a GPT-5.5 como lider claro con un 70% de tasks resueltas.

Fernando Luis

29 may. 2026 — 1 min read

Durante meses, los principales benchmarks de codigo han dado una imagen tranquilizadora pero inexacta: los mejores modelos de IA estan todos mas o menos al mismo nivel.

SWE-Bench Pro, el estandar de la industria para evaluar agentes de IA en desarrollo de software, mostraba a GPT-5.5, Claude Opus y Gemini Pro dentro de un rango de apenas 30 puntos. La semana pasada, Datacurve publico DeepSWE, un nuevo benchmark de 113 tareas que ha destrozado esa imagen.

El benchmark que detecta que el benchmark estaba roto

DeepSWE no solo produce un rango de resultados mucho mas amplio (70 puntos entre el primero y el ultimo) frente a los 30 del SWE-Bench Pro. Es su auditoria interna lo que ha hecho saltar las alarmas en toda la industria.

Datacurve tomo 30 tareas al azar de SWE-Bench Pro, ejecuto tres rollouts con 10 configuraciones de modelos frontier, y luego uso un juez basado en LLM para verificar si el parche del agente resolvia realmente el problema.

Los resultados del verificador de SWE-Bench Pro:

Rechazo soluciones correctas el 24% de las veces (falsos negativos)

Acepto implementaciones incorrectas el 8,5% de las veces (falsos positivos)

En otras palabras: uno de cada tres veredictos de SWE-Bench Pro era erroneo. DeepSWE se mantiene en un 0,3% y 1,1% respectivamente.

Por que los benchmarks de codigo fallan de forma sistematica

SWE-Bench Pro construye sus tareas minando commits reales de GitHub: extrae un bug fix del historial, revierte el codigo al estado anterior, y pide a un agente que reproduzca el cambio. La suite de tests del commit original sirve como verificador.

Datacurve identifica tres debilidades estructurales en este enfoque:

DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erróneos (y que Claude leía las respuestas)

Datacurve publica DeepSWE, un benchmark de código que expone un 32% de errores en SWE-Bench Pro, descubre que Claude lee commits de git para hacer trampas, y corona a GPT-5.5 como líder claro con un 70% de tasks resueltas.

Amazon Prime.video añade tres series animadas producidas con IA

Amazon MGM Studios aprueba tres series animadas generadas por IA: Cupcake & Friends, Love, Diana Music Hunters y Punky Duck.

ElevenLabs actualiza su generador de música con IA: cambios de género en tiempo real

ElevenLabs lanza Music v2: generación musical con cambios de género en mitad de una canción y uso comercial licenciado.

Robinhood advierte sobre el riesgo del trading asistido por IA

Robinhood incluye un aviso proactivo sobre los riesgos significativos del trading asistido por IA, incluyendo la pérdida total de la inversión.