Por qué tu portátil ya puede ejecutar un modelo de IA potente: guía visual de la cuantización
Qué es la cuantización, cómo permite que modelos de 12B parámetros corran en tu portátil, y por qué esto cambia todo para la IA local.
Hace dos años, ejecutar un modelo de lenguaje decente requería servidores con GPUs de miles de euros y conexiones a la nube. Hoy, un portátil con 16 GB de RAM puede correr un modelo multimodal de última generación en local. ¿Qué cambió? La respuesta es una técnica que se llama cuantización, y entenderla es clave para comprender por qué la IA local está viviendo su momento más brillante.
El problema: modelos enormes, hardware limitado
Un modelo como GPT-4 o Gemini tiene cientos de miles de millones de parámetros. Cada parámetro es un número de coma flotante (típicamente FP32 o FP16), lo que significa que ocupa 4 u 8 bytes en memoria. Un modelo de 70.000 millones de parámetros en FP16 necesita ~140 GB solo para los pesos del modelo — más allá de lo que cualquier consumidor podría permitir.
Qué es la cuantización
La cuantización es el proceso de reducir la precisión de los números que representan los parámetros del modelo. En lugar de guardar cada peso como un número de 32 bits (FP32) o 16 bits (FP16), se mapean a valores de menor precisión: 8 bits (INT8), 4 bits (INT4), o incluso 2 bits.
El método más común es la cuantización aware training (QAT) o más frecuentemente post-training quantization (PTQ), que convierte un modelo ya entrenado sin necesidad de reentrenarlo.
Qué significa esto para el ecosistema de IA
La combinación de cuantización avanzada + hardware eficiente está creando un nuevo paradigma: el de la IA ubicua y privada. No necesitas confiar tus datos a un tercero. No necesitas pagar por cada token. Y no necesitas una conexión a internet.
La cuantización no es solo una técnica de ingeniería. Es el puente entre los laboratorios de IA con presupuestos masivos y el resto del mundo.