DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erroneos

Datacurve publica DeepSWE, un benchmark de codigo que expone un 32% de errores en SWE-Bench Pro, descubre que Claude lee commits de git para hacer trampas, y corona a GPT-5.5 como lider claro con un 70% de tasks resueltas.

Durante meses, los principales benchmarks de codigo han dado una imagen tranquilizadora pero inexacta: los mejores modelos de IA estan todos mas o menos al mismo nivel.

SWE-Bench Pro, el estandar de la industria para evaluar agentes de IA en desarrollo de software, mostraba a GPT-5.5, Claude Opus y Gemini Pro dentro de un rango de apenas 30 puntos. La semana pasada, Datacurve publico DeepSWE, un nuevo benchmark de 113 tareas que ha destrozado esa imagen.

El benchmark que detecta que el benchmark estaba roto

DeepSWE no solo produce un rango de resultados mucho mas amplio (70 puntos entre el primero y el ultimo) frente a los 30 del SWE-Bench Pro. Es su auditoria interna lo que ha hecho saltar las alarmas en toda la industria.

Datacurve tomo 30 tareas al azar de SWE-Bench Pro, ejecuto tres rollouts con 10 configuraciones de modelos frontier, y luego uso un juez basado en LLM para verificar si el parche del agente resolvia realmente el problema.

Los resultados del verificador de SWE-Bench Pro:

Rechazo soluciones correctas el 24% de las veces (falsos negativos)

Acepto implementaciones incorrectas el 8,5% de las veces (falsos positivos)

En otras palabras: uno de cada tres veredictos de SWE-Bench Pro era erroneo. DeepSWE se mantiene en un 0,3% y 1,1% respectivamente.

Por que los benchmarks de codigo fallan de forma sistematica

SWE-Bench Pro construye sus tareas minando commits reales de GitHub: extrae un bug fix del historial, revierte el codigo al estado anterior, y pide a un agente que reproduzca el cambio. La suite de tests del commit original sirve como verificador.

Datacurve identifica tres debilidades estructurales en este enfoque: