Weibo VibeThinker-3B: un modelo de 3B parametros iguala a DeepSeek V3.2 en razonamiento - avance real o benchmarks inflados?

Un modelo de 3.000 millones de parametros iguala en benchmarks de razonamiento a modelos 200 veces mas grandes. Analizamos que hay detras de VibeThinker-3B.

Un modelo de solo 3.000 millones de parametros, publicado por una empresa china conocida principalmente por su red social, ha conseguido puntuaciones en benchmarks matematicos y de codigo que igualan o superan las de sistemas con cientos de miles de millones de parametros. El resultado ha dividido a la comunidad investigadora: avanzo real o benchmarks inflados?

El modelo se llama VibeThinker-3B y fue publicado en arXiv por un equipo de nueve investigadores de Sina Weibo, la plataforma de microblogging china. Su informe tecnico, de apenas 14 paginas, contiene una afirmacion que ha generado un debate intenso: que un modelo del tamaño de VibeThinker-3B puede igualar el rendimiento de razonamiento de modelos insignia de Google DeepMind, OpenAI, Anthropic y DeepSeek que son cientos de veces mas grandes.

Los numeros son extraordinarios. VibeThinker-3B obtiene un 94,3 en AIME 2026, la segunda ronda de la competicion matematica de secundaria mas exigente de Estados Unidos, situandose al nivel de DeepSeek V3.2, un modelo con 671.000 millones de parametros (224 veces mas grande). En LiveCodeBench v6 alcanza un 80,2 por ciento Pass en generacion de codigo ejecutable, y en contendientes reales de LeetCode entre abril y mayo de 2026 aprueba el 96,1 por ciento de los envíos.

La comunidad ha respondido con escepticismo. Un investigador escribió en X que un modelo de 3B parametros iguala a Claude Opus 4.5 en codigo. No se si es un avance o si los benchmarks estan rotos. Las criticas señalan que los benchmarks tipo AIME y LeetCode llevan años circulando, lo que facilita la contaminacion de datos de entrenamiento.

El equipo parte de Qwen2.5-Coder-3B de Alibaba y aplica un pipeline de cuatro fases: fine-tuning supervisado con aprendizaje curricular, aprendizaje por refuerzo multdominio con su algoritmo MGPO, destilacion de las mejores trayectorias de razonamiento, y un RL final de seguimiento de instrucciones. La fase de RL usa Long2Short Math RL, que premia soluciones cortas y correctas sobre las largas.

Lo mas interesante es la hipotesis teorica que acompaña al resultado: la Hipotesis de Compresion-Cobertura Parametrica. Las capacidades de razonamiento verificable son densas en parametros y pueden comprimirse. El conocimiento factual abierto requiere cobertura amplia que escala con el tamaño. Esto explica por que VibeThinker-3B puntua solo 70,2 en GPQA-Diamond, muy por detras del 91,9 de Gemini 3 Pro.

En la practica, los usuarios que han descargado el modelo reportan limitaciones: no reconoce uv, el gestor de paquetes Python convertido en estandar, y solo responde bien a la primera pregunta. El propio equipo reconoce que el valor real esta en demostrar que el desarrollo de modelos compactos emerge como trayectoria complementaria al paradigma de escalar parametros.

VibeThinker-3B esta disponible en GitHub y Hugging Face bajo licencia open source. Sus pesos pueden ejecutarse en un portatil convencional, algo imposible con los modelos que dice igualar. Esa accesibilidad es su mayor fortaleza: no hace falta un cluster de GPUs para verificar sus resultados y demostrar donde fallan los propios benchmarks.

Read more