Agentes IA

RecursiveMAS: cómo compartir embeddings entre agentes de IA reduce el coste un 75%

Un framework de UIUC y Stanford permite que agentes de IA se comuniquen mediante embeddings en lugar de texto, logrando 2.4x más velocidad y 75% menos consumo de tokens.

Fernando Luis

16 may. 2026 — 2 min read

Cuando varios agentes de IA trabajan juntos, se comunican como nosotros: enviando texto. Uno genera un mensaje, el siguiente lo lee, genera el suyo, y así sucesivamente. El problema es que para una máquina, generar texto palabra por palabra es lento, caro y tremendamente ineficiente.

Investigadores de la Universidad de Illinois Urbana-Champaign y Stanford han publicado un paper sobre RecursiveMAS, un framework que cambia esta dinámica: en lugar de que los agentes se hablen mediante texto, comparten embeddings — representaciones numéricas de su reasoning interno. El resultado: 2.4x más rápido y 75% menos tokens consumidos.

¿Por qué el texto es un cuello de botella?

En un sistema multi-agente típico, cada agente es esencialmente un modelo de lenguaje que genera secuencias de texto. Cuando Agent A necesita comunicarle algo a Agent B, tiene que escribirlo todo token por token. Agent B lo lee token por token. Y si hay 5 agentes en cadena, ese texto tiene que atravesar cada uno.

Esto tiene tres problemas:

Latencia secuencial: cada agente debe esperar a que el anterior termine de escribir antes de poder empezar a leer.Inflación de tokens: el reasoning intermediate de un modelo — que podría ser un vector de 1024 dimensiones — se convierte en miles de tokens de texto que el siguiente modelo tiene que parsear de nuevo.Imposibilidad de entrenar el sistema como unidad: al comunicarse por texto, cada agente es una caja negra para los demás.

La idea: compartir el espacio de embeddings

Un embedding es la representación interna que un modelo de lenguaje genera para cada concepto. Cuando dices "gato", el modelo no guarda la palabra "gato" — guarda un vector de, digamos, 4096 números que captura el significado en el espacio semántico del modelo.

RecursiveMAS permite que los agentes compartan estos vectores directamente, sin convertirlos a texto. En lugar de que Agent A diga "mi reasoning intermediate es X", comparte el vector numérico de X directamente. Agent B puede procesarlo sin tener que parsear una descripción textual del pensamiento.

Cómo funciona

El framework se inspira en los Recursive Language Models (RLMs). En un modelo de lenguaje normal, los datos fluyen linealmente por capas distintas. En un RLM, las mismas capas compartidas procesan los datos y se retroalimentan. RecursiveMAS aplica esta idea:

Embedding sharing: en lugar de generar texto para comunicarse, cada agente produce un embedding de su estado interno y lo pasa directamente al siguiente agente.Co-evolución del sistema: al compartir representaciones internas, el sistema puede entrenarse de forma conjunta.Reducción drástica de tokens: un vector de 1024 floats (4KB) sustituye a miles de tokens de texto (20KB+).

Resultados en números

Los investigadores evaluaron RecursiveMAS en tres dominios: generación de código (2.4x más rápido), razonamiento médico (más preciso con menos iteraciones) y búsqueda (75% menos tokens por query). Además, el coste de entrenamiento es significativamente menor que fine-tuning completo o LoRA.

Por qué importa esto

Los sistemas multi-agente están en todas partes: chatbots de atención al cliente, pipelines de código donde un agente planifica, otro ejecuta, otro revisa. Hasta ahora, la comunicación entre agentes ha sido el eslabón débil — lento y caro.

Si compartir embeddings se convierte en el estándar, la barrera de entrada para sistemas multi-agente complejos baja considerablemente. Más agentes, más barata su comunicación, más viable escalar.

Paper: recursivemas.github.io | Código: open source.

RecursiveMAS: cómo compartir embeddings entre agentes de IA reduce el coste un 75%

Fernando Luis

¿Por qué el texto es un cuello de botella?

La idea: compartir el espacio de embeddings

Cómo funciona

Resultados en números

Por qué importa esto

Read more

El problema meta de la IA: destruimos los expertos que necesita para seguir mejorando

Bienvenido a la sección Noticias

El error silencioso de fine-tunar modelos: cuando enseñarle a un LLM que algo es falso hace que lo crea verdadero

Un algoritmo cuántico simula 268 millones de sitios: el problema que los superordenadores no pueden tocar