El test que nadie hace a los agentes de IA: medir la desviación de intención, no solo el fallo

Un agente de observabilidad provocó una caída de 4 horas haciendo exactamente lo que se le había enseñado. El modelo no falló. El sistema de testing, sí.

Fernando Luis

11 may. 2026 — 1 min read

Un agente de observabilidad provocó una caída de cuatro horas haciendo exactamente lo que se le había enseñado. El modelo no falló. El sistema de testing, sí. Esto es lo que el intent-based chaos testing busca resolver: la pieza que falta en todos los pipelines de agentes autónomos.

En el desarrollo de agentes de IA, las pruebas tradicionales verifican que el sistema haga lo que se le pide. Pero hay una categoría de fallos más sutil y más peligrosa: los que ocurren cuando el agente hace exactamente lo correcto según sus instrucciones, pero eso no era lo que realmente quería el usuario.

El intent-based chaos testing es una metodología que pone a prueba precisamente esto. En lugar de preguntar «¿funciona el agente?», pregunta «¿sabe el agente lo que se le pide realmente, incluso en situaciones límite?».

El proceso implica tres pasos: primero, definir el espacio de intención del usuario — no solo lo que dice, sino lo que quiere conseguir. Segundo, generar escenarios de caos que expongan brechas entre la intención declarada y la inferida. Tercero, medir la desviación entre el comportamiento del agente y la intención real.

La desviación de intención es especialmente crítica en sistemas de producción donde un agente puede tomar decisiones con impacto real. Un agente que sigue sus instrucciones al pie de la letra pero misunderstande la intención puede causar daños significativos antes de que nadie se dé cuenta.

Las empresas que están implementando agentes de IA en producción están descubriendo que necesitan frameworks de testing que vayan más allá de la verificación funcional. El intent-based chaos testing representa un cambio de paradigma: pasar de probar que el sistema funciona a probar que el sistema sabe lo que quiere el usuario.

El siguiente paso para los equipos de ingeniería es integrar estas pruebas en los pipelines de CI/CD antes del despliegue, y establecer métricas de desviación de intención como parte del monitoreo de producción.

Morgan Stanley redujo su reconciliación de riesgos a la mitad... haciendo sus agentes MENOS autónomos

Morgan Stanley desplegó agentes de IA en uno de los flujos más críticos del banking: la reconciliación de P&L. El resultado: redujo el trabajo a la mitad. El método counterintuitive: hacer el sistema menos autónomo, no más.

Claude Code marca tus peticiones con esteganografía: la función oculta que altera tu system prompt sin que lo sepas

Un investigador descubrió que Claude Code modifica invisibles el system prompt para codificar información sobre tu infraestructura de API. Te explicamos qué hace, cómo funciona y por qué importa para la seguridad y la confianza en herramientas de IA.

DeepSeek open source DSpark: hasta un 85% más rápido en inferencia de LLMs sin cambiar el modelo

DSpark es el nuevo framework de decodificación especulativa de DeepSeek, liberado bajo licencia MIT. Logra incrementos de velocidad del 60-85% en generación de texto sin alterar el modelo base. Así funciona y por qué importa.

Google limita el acceso de Meta a Gemini: la crisis de infraestructura que revela los límites reales de la IA

Google ha decidido restringir el acceso de Meta a sus modelos Gemini, evidenciando un problema que toda la industria conoce pero pocos quieren admitir: la infraestructura de IA tiene un techo, y estamos cerca de tocarlo.

Read more

Morgan Stanley redujo su reconciliación de riesgos a la mitad... haciendo sus agentes MENOS autónomos

Claude Code marca tus peticiones con esteganografía: la función oculta que altera tu system prompt sin que lo sepas

DeepSeek open source DSpark: hasta un 85% más rápido en inferencia de LLMs sin cambiar el modelo

Google limita el acceso de Meta a Gemini: la crisis de infraestructura que revela los límites reales de la IA