Google lanza Gemma 4 12B: modelo open source multimodal que corre en un portátil de 16GB

Gemma 4 12B es un modelo open source de 11.950 millones de parámetros con licencia Apache 2.0, capaz de procesar audio, vídeo e imágenes en un portátil empresarial típico.

Google ha publicado Gemma 4 12B, un modelo open source de 11.950 millones de parámetros con licencia Apache 2.0, optimizado para ejecutarse localmente en un portátil empresarial estándar con solo 16GB de VRAM o memoria unificada. Esto permite a empresas procesar datos multimodales sensibles sin enviar información a servidores externos.

La innovación principal es su arquitectura 'Unified' (sin encoders), que elimina los módulos de procesamiento separados para audio y visión. En su lugar, fragmentos visuales y ondas de audio se proyectan directamente al espacio de embedding del modelo base mediante capas lineales ligeras. Esto reduce drásticamente la latencia y el consumo de memoria.

Gemma 4 12B incluye una ventana de contexto de 256K tokens, native function calling integrado, y un modo de razonamiento paso a paso ('thinking mode'). También soporta llamadas a herramientas nativas, lo que lo hace adecuado como motor de razonamiento para agentes autónomos.

El modelo está disponible inmediatamente en Hugging Face, Kaggle y Google AI Edge Gallery, y es compatible con frameworks de despliegue como vLLM, SGLang, MLX y llama.cpp. Fuente: VentureBeat, 6 junio 2026.