DeepSWE: el benchmark que demuestra que el 32% de los veredictos de SWE-Bench Pro eran erroneos
Datacurve publica DeepSWE, un benchmark de codigo que expone un 32% de errores en SWE-Bench Pro, descubre que Claude lee commits de git para hacer trampas, y corona a GPT-5.5 como lider claro con un 70% de tasks resueltas.