DeepSeek open source DSpark: hasta un 85% más rápido en inferencia de LLMs sin cambiar el modelo
DSpark es el nuevo framework de decodificación especulativa de DeepSeek, liberado bajo licencia MIT. Logra incrementos de velocidad del 60-85% en generación de texto sin alterar el modelo base. Así funciona y por qué importa.
La semana pasada, DeepSeek publicó DSpark, un framework de decodificación especulativa bajo licencia MIT que acelera la generación de texto en modelos de lenguaje hasta un 85%, sin tocar el modelo base. El anuncio pasó desapercibido entre el ruido de los chipsrestriction y las batallas regulatorios, pero representa uno de los avances más prácticos en inferencia de LLMs del año.
Qué es DSpark y por qué existe
Los LLMs generan texto token a token. Cada nuevo token depende de todos los anteriores, así que el modelo tiene que hacer una pausa, revisar el contexto completo y elegir la siguiente pieza. Es preciso, pero lento. Es como tener un editor senior que aprueba cada palabra antes de que el escritor pueda continuar.
La decodificación especulativa resuelve este cuello de botella. En lugar de que el modelo grande produzca cada token secuencialmente, un módulo más pequeño (el draft) propone varios tokens seguidos. El modelo grande luego verifica esa secuencia en paralelo. Si el draft acertó, el sistema avanza varios tokens de golpe. Si falló, descarta el token incorrecto y todo lo que vino después, añade el token corregido, y vuelve a intentar.
DSpark es la implementación de DeepSeek de esta idea, con una diferencia importante: el módulo draft está entrenado para ser competente en adivinar la distribución de los próximos tokens del modelo grande, y el sistema tiene un scheduler de confianza que decide cuándo confiar en las predicciones y cuándo no.
Los números en producción
DeepSeek aplicó DSpark a sus propios modelos:
DeepSeek-V4-Flash (284B parámetros, 13B activos): speedup del 60-85% por usuario a 80 tokens/segundo objetivo.
DeepSeek-V4-Pro (1.6T parámetros, 49B activos): speedup del 57-78% por usuario a 35 tokens/segundo objetivo.
DeepSeek también reporta incrementos agregados de throughput del 51% y 52% respectivamente bajo cargas de producción realistas. En condiciones de alta demanda (120 tokens/segundo por usuario para V4-Flash), el baseline MTP-1 empieza a fallar, mientras DSpark mantiene el rendimiento.
Por qué importa más allá de DeepSeek
DSpark no está atado a DeepSeek-V4. Los checkpoints y el código incluyen experimentos con modelos de otras familias abiertas: Qwen de Alibaba y Gemma de Google. Esto significa que equipos empresariales que corren modelos open-weight podrían entrenar módulos draft específicos para sus modelos y stacks de serving propios.
No es un interruptor que cualquier usuario pueda pulsar desde fuera, pero sí es un método que puede viajar a otros modelos cuando el operador controla los pesos y el stack de inferencia. Para empresas que fine-tunean modelos propietarios o corren mezclas de expertos, esto puede reducir drásticamente los costes de servir modelos grandes.
Contexto histórico: de dónde viene la idea
La decodificación especulativa no es nueva. Un precursor clave apareció en 2018, cuando Mitchell Stern, Noam Shazeer y Jakob Uszkoreit propusieron blockwise parallel decoding para modelos autoregresivos profundos. Su método predecía múltiples pasos futuros en paralelo y conservaba el prefijo más largo validado por el modelo principal. En 2022, Heming Xia y Tao Ge formalizaron SpecDec para generación secuencia-a-secuencia. Later ese mismo año, el equipo de Google Brain publicó el trabajo sobre speculative decoding que se convirtió en referencia.
Lo que DeepSeek aporta es llevar la idea a modelos de escala masivo con mezcla de expertos, demostrar resultados en producción real y liberar todo bajo licencia MIT.
Implicaciones para ciberseguridad e infraestructura
Este tipo de optimización importa especialmente en escenarios donde la latencia es crítica: asistentes de código que necesitan respuestas rápidas, agentes que interactúan con sistemas en tiempo real, herramientas de análisis de malware que procesan grandes volúmenes de código. Si la inferencia es un 70% más barata o rápida, los casos de uso que antes eran económicamente inviables se vuelven atractivos.
Además, al ser open source bajo MIT, equipos de seguridad pueden auditar el código, adaptar el draft model a sus necesidades específicas y desplegarlo en sus propios entornos sin dependencias de terceros. En un momento donde la transparencia del stack de IA importa cada vez más, que el código de inferencia sea auditable es un punto a favor.
El código, los checkpoints de los modelos y DeepSpec están disponibles en GitHub y Hugging Face de DeepSeek bajo licencia MIT.