Machine Learning

Por qué tu portátil ya puede ejecutar un modelo de IA potente: guía visual de la cuantización

Qué es la cuantización, cómo permite que modelos de 12B parámetros corran en tu portátil, y por qué esto cambia todo para la IA local.

Fernando Luis

07 jun. 2026 — 1 min read

Hace dos años, ejecutar un modelo de lenguaje decente requería servidores con GPUs de miles de euros y conexiones a la nube. Hoy, un portátil con 16 GB de RAM puede correr un modelo multimodal de última generación en local. ¿Qué cambió? La respuesta es una técnica que se llama cuantización, y entenderla es clave para comprender por qué la IA local está viviendo su momento más brillante.

El problema: modelos enormes, hardware limitado

Un modelo como GPT-4 o Gemini tiene cientos de miles de millones de parámetros. Cada parámetro es un número de coma flotante (típicamente FP32 o FP16), lo que significa que ocupa 4 u 8 bytes en memoria. Un modelo de 70.000 millones de parámetros en FP16 necesita ~140 GB solo para los pesos del modelo — más allá de lo que cualquier consumidor podría permitir.

Qué es la cuantización

La cuantización es el proceso de reducir la precisión de los números que representan los parámetros del modelo. En lugar de guardar cada peso como un número de 32 bits (FP32) o 16 bits (FP16), se mapean a valores de menor precisión: 8 bits (INT8), 4 bits (INT4), o incluso 2 bits.

El método más común es la cuantización aware training (QAT) o más frecuentemente post-training quantization (PTQ), que convierte un modelo ya entrenado sin necesidad de reentrenarlo.

Qué significa esto para el ecosistema de IA

La combinación de cuantización avanzada + hardware eficiente está creando un nuevo paradigma: el de la IA ubicua y privada. No necesitas confiar tus datos a un tercero. No necesitas pagar por cada token. Y no necesitas una conexión a internet.

La cuantización no es solo una técnica de ingeniería. Es el puente entre los laboratorios de IA con presupuestos masivos y el resto del mundo.

Resumen IA — 7 junio 2026: Sin noticias frescas, lo mejor de ayer

Domingo sin noticias frescas en IA. Resumen de lo más relevante publicado el 6 de junio: Meta elimina reconocimiento facial en smart glasses, Apple prepara rediseño de Siri para WWDC, Anthropic genera 80% del código con IA.

Reid Hoffman deja el board de Microsoft para centrarse en su startup de IA farmacéutica Manas

El Cofundador de LinkedIn abandona el board de Microsoft para enfocarse en Manas, la startup de desarrollo de fármacos con IA que fundó en 2025.

Microsoft presenta Surface RTX Spark Dev Box: IA generativa sin coste cloud

Microsoft ha debutado Surface RTX Spark, un dev box para ejecutar grandes modelos de IA localmente con aceleración GPU dedicada, sin depender de servicios cloud.

Perplexity presenta sistema híbrido de inferencia local y cloud en Computex 2026

Perplexity ha anunciado en Computex 2026 un sistema de inferencia híbrida que combina procesamiento local y cloud, manteniendo datos sensibles en local.