Xiaomi rompe la barrera de los 1.000 tokens/s en un modelo de 1 billón de parámetros — sin hardware especializado
Xiaomi y TileRT logran 1000 tokens/s en un modelo 1T usando FP4 y decodificación especulativa en GPUs commodity. Cómo funciona y por qué cambia las reglas del juego.