Xiaomi rompe la barrera de los 1.000 tokens/s en un modelo de 1 billón de parámetros — sin hardware especializado
Xiaomi y TileRT logran 1000 tokens/s en un modelo 1T usando FP4 y decodificación especulativa en GPUs commodity. Cómo funciona y por qué cambia las reglas del juego.
Por primera vez en la historia de la IA, un modelo con más de un billón de parámetros puede generar más de 1.000 tokens por segundo en hardware convencional. Xiaomi y TileRT acaban de presentar MiMo-V2.5-Pro-UltraSpeed, y las implicaciones son enormes.
Hasta hace poco, alcanzar velocidades de inferencia realmente altas en modelos grandes requería hardware especializado: los chips Cerebras con su integración a escala de oblea, o la arquitectura SRAM pura de Groq. Xiaomi demostró que se puede conseguir el mismo objetivo — incluso superarlo — con nodos GPU commodity estándar.
La clave está en tres innovaciones que trabajan en conjunto:
Cuantización FP4 (MXFP4) selectiva
Reducir la precisión de los parámetros de 16 bits a 4 bits parece prometedor, pero aplicado al modelo completo causa pérdidas en razonamiento complejo, lógica y generación de código. La solución de Xiaomi fue inteligente: aplicar FP4 solo a los MoE Experts (los componentes que representan la mayor parte de los parámetros y toleran mejor la cuantización), manteniendo el resto del modelo en precisión original. El resultado: reducción masiva de tamaño sin degradación significativa de capacidad.
DFlash: decodificación especulativa mejorada
La decodificación especulativa tradicional usa un modelo pequeño como "borrador" que predice los siguientes tokens, que el modelo grande luego verifica. Transforma la generación autorregresiva — un token por pasada — en generación paralela de múltiples tokens. El problema: la calidad del borrador determina cuántos tokens se aceptan.
DFlash introduce predicción paralela por bloques con máscaras, aumentando sustancialmente la longitud de tokens aceptados por paso de verificación. Esto permite aprovechar al máximo la velocidad bruta del hardware.
Co-diseño modelo-sistema extremo
El motor de compilación TileRT está diseñado a medida para la tubería de cuantización y decodificación especulativa. Kernel de computación optimizados específicamente para este flujo. No es una optimización post-hoc: el modelo y el sistema se diseñaron juntos desde el principio.
¿Por qué importa esto?
A 1.000 tokens/s, un modelo de 1 billón de parámetros deja de ser algo que esperas y se convierte en algo que piensas. En el mismo tiempo de pared que antes generaba una respuesta, ahora puede explorar docenas de rutas de razonamiento en paralelo (Best-of-N, Tree Search), auto-verifyarse y autocorregirse. Para agentes de código esto es transformacional: la latencia deja de ser el cuello de botella.
Pero hay un detalle crucial: la API de UltraSpeed cuesta 3× más que la versión estándar, aunque ofrece ~10× más velocidad de generación. Y el acceso es limitado y por solicitud (del 9 al 23 de junio de 2026). Es una estrategia de pricing interesante: cobrar más por velocidad cuando la velocidad es relativamente barata de producir.
El mensaje de fondo es claro: la brecha entre la frontera de la IA y el hardware disponible está empezando a cerrarse. Ya no hace falta Cerebras o Groq para tener inferencia en tiempo real a escala trillion-parameter. Y eso cambia todo.