SkillWeaver: el framework de Alibaba que reduce el consumo de tokens de agentes IA un 99%

SkillWeaver usa decomposición iterativa aware de skills para que un modelo de 7B enrute correctamente entre miles de herramientas consumiendo 1.160 tokens en vez de 884.000.

Fernando Luis

02 jul. 2026 — 2 min read

Cuando un agente de IA tiene que elegir entre cientos de herramientas, el método naive —meter todas en el prompt— es un desastre. Alibaba presenta SkillWeaver, un framework de enrutamiento que reduce el consumo de tokens un 99% frente al enfoque tradicional.

El problema: enrutamiento de skills a escala

Los agentes empresariales actuales integran decenas o cientos de herramientas: clientes de API, parsers de CSV, generadores de gráficos, conectores a bases de datos... Cuando un usuario pide algo como "descarga el dataset, transfiérelo y genera un informe visual", un solo tool no puede resolverlo. Se necesita un plan que secuencie múltiples herramientas.

El enfoque tradicional (llamado LLM-Direct) consiste en entregarle al modelo toda la biblioteca de herramientas en el prompt. Esto funciona fatal: quema tokens por miles, satura el contexto y, paradójicamente, el modelo no siempre elige la herramienta correcta porque se pierde entre demasiadas opciones.

Cómo funciona SkillWeaver

SkillWeaver ataca el problema en tres fases:

1. Decompose: un LLM actúa como descomponedor de tareas y divide la petición del usuario en sub-tareas atómicas, cada una solvable por una única herramienta.

2. Retrieve: para cada sub-tarea, un retriever semántico (MiniLM con índice FAISS) busca en la biblioteca de herramientas y devuelve los candidatos más relevantes.

3. Compose: un planner evalúa la compatibilidad entre las herramientas candidatas, construye un DAG (grafo acíclico dirigido) del plan de ejecución y determina qué tareas pueden ejecutarse en paralelo.

La clave: Iterative Skill-Aware Decomposition (SAD)

El mayor hallazgo del paper es que los LLMs generan descripciones genéricas que no coinciden con el vocabulario técnico de las herramientas reales. SAD introduce un loop de realimentación: el modelo hace un primer plan, se buscan skills que encajen vagamente, y esas pistas se vuelven a pasar al modelo para que reescriba la descomposición con el vocabulario exacto de las herramientas disponibles. Este ciclo de feedback dispara la precisión de decompose del 51% al 67.7% con un modelo de 7B parámetros.

Los números

Sobre 2.209 herramientas del ecosistema MCP, SkillWeaver reduce el consumo de tokens de aproximadamente 884.000 por consulta a unos 1.160: un 99.9% menos. En tareas HARD (4-5 herramientas distintas), SAD mejora la accuracy un 50%. Y un dato curioso: un modelo de 14B sin guía SAD empeora frente a uno de 7B con SAD, porque tiende a sobre-descomponer en pasos innecesarios.

Qué puedes implementar ya

El código fuente de SkillWeaver aún no se ha publicado, pero la innovación principal —SAD— es un patrón de prompting + retrieval que se puede implementar con cualquier librería de orquestación (LangChain, LlamaIndex) o incluso scripts de Python puros. El retriever usa all-MiniLM-L6-v2 (open-source) y el índice FAISS de 2.209 skills se construye en 15 segundos.

Limitación importante: SkillWeaver solo cubre la fase de planificación y enrutamiento. Si una llamada a la API falla en medio de la cadena, no hay recuperación automática. Para producción necesitarías añadir retry, fallback y manejo de errores por encima.

En resumen: no es el modelo más grande el que mejor enruta herramientas, sino el que mejor conoce su biblioteca. SAD es un patrón que cualquier equipo puede copiar mañana.

SkillWeaver: el framework de Alibaba que reduce el consumo de tokens de agentes IA un 99%

Fernando Luis

Read more

Morgan Stanley redujo su reconciliación de riesgos a la mitad... haciendo sus agentes MENOS autónomos

Claude Code marca tus peticiones con esteganografía: la función oculta que altera tu system prompt sin que lo sepas

DeepSeek open source DSpark: hasta un 85% más rápido en inferencia de LLMs sin cambiar el modelo

Google limita el acceso de Meta a Gemini: la crisis de infraestructura que revela los límites reales de la IA