Self-Harness: cuando los agentes de IA reescriben sus propias reglas y mejoran un 60%

Investigadores del Shanghai AI Lab presentan Self-Harness, un framework que permite a agentes de IA aprender de sus propios fallos y reescribir su harness automáticamente, mejorando rendimiento entre un 33% y un 60%.

Un equipo del Shanghai Artificial Intelligence Laboratory ha publicado un paper que describe algo que lleva años esperando el ecosistema de agentes de IA: un sistema que no solo ejecuta tareas, sino que reescribe las reglas que gobiernan su propia ejecución. Se llama Self-Harness, y los números que presenta son llamativos: entre un 33% y un 60% de mejora de rendimiento en benchmarks de ejecución de herramientas, sin intervención humana.

Pero más allá de las cifras, lo interesante es el concepto: ¿qué pasa cuando dejas que un agente de IA aprenda de sus propios fallos y actualice su propio harness?

El problema del harness engineering

Cuando hablamos de un agente de IA basado en un LLM, el modelo en sí es solo una parte de la ecuación. El harness es todo lo que lo rodea: los prompts de sistema, las herramientas disponibles, las políticas de ejecución, la gestión de memoria, las reglas de verificación, la recuperación ante errores. Es el sistema operativo sobre el que corre tu código.

El problema es que el harness se ha tuneado tradicionalmente de forma manual: un ingeniero experimentado observa cómo falla el agente, propone cambios en el prompt, y repite. Es un proceso lento, basado en intuición, y que se queda obsoleto en cuanto cambia el modelo base.

Hangfan Zhang, autor principal del paper, lo describe con claridad: "El problema más profundo no es que los humanos seamos demasiado lentos. El problema real es que el proceso actual carece de un ciclo de feedback verificable. Muchas ediciones se hacen por intuición y depuración ad hoc."

Cómo funciona Self-Harness

Self-Harness introduce un bucle iterativo de tres etapas:

Minado de debilidades (Weakness Mining): el agente ejecuta tareas y genera trazas de ejecución con resultados verificables. Identifica patrones de fallo específicos del modelo.

Propuesta de harness (Harness Proposal): usando un rol de "proposer", genera modificaciones mínimas atadas a mecanismos de fallo específicos.

Validación (Proposal Validation): solo se promueve una edición si mejora el rendimiento sin causar degradación medible en tareas held-out.

Un ejemplo concreto: cuando Self-Harness se aplicó a MiniMax M2.5 en Terminal-Bench-2.0, el modelo se quedaba atascado explorando configuraciones de dataset indefinidamente. El sistema escribió un "loop breaker" en su política de ejecución (forzando al agente a detenerse tras 50 llamadas a herramientas) y añadió una regla para crear una versión inicial de los artefactos requeridos lo antes posible.

En Qwen-3.5, el agente chocaba con un error de sobrescritura de archivo y reintentaba el mismo comando hasta que terminaba borrando archivos necesarios. Self-Harness introdujo disciplina de reintento (prohibiendo comandos duplicados exactos) y un mecanismo que obligaba a recrear cualquier artefacto faltante tras un error.

Dónde está el truco

Automatizar el harness tiene un coste oculto: más tokens de API, más latencia durante la optimización, y más infraestructura para ejecutar las tareas de evaluación. El sistema requiere verificadores estrictos y deterministas. Sin esa verdad terreno, corre el riesgo de promover malas actualizaciones.

Como dice Zhang: "El sistema de evaluación no es un componente opcional; es lo que nos permite intercambiar intuición humana por evidencia empírica."

Self-Harness es apropiado para automatización de código, pipelines de DevOps y flujos de trabajo internos. No lo es para decisiones médicas, infraestructura crítica o contextos donde la evaluación es subjetiva.

El ingeniero como "feedback architect"

La aparición de agentes auto-mejorables no significa que los ingenieros van a desaparecer. Su rol cambia: ya no se trata de ajustar prompts manualmente, sino de diseñar los sistemas de feedback que hacen posible la mejora del agente.

Como predice Zhang: "El ingeniero se convierte menos en un prompt tweaker y más en un feedback architect."

El paper está en arXiv (2606.09498). Mientras los modelos absorban capabilities que antes requerían harness engineering manual, el harness no desaparecerá: se moverá hacia afuera, conectando el modelo con entornos más ricos. Mientras esa frontera no se mueva más allá de lo que los humanos pueden evaluar, los humanos seguirán siendo proveedores críticos de feedback.

Para quienes trabajan con agentes de IA en contextos de seguridad, Self-Harness plantea una pregunta directa: ¿cuánto de tu sistema depende todavía de prompts escritos a mano que nadie ha revisado en meses?