Machine Learning
Cuantización: cómo la aritmética del silencio permite ejecutar un 70B en tu portátil
Reduce un modelo de 70B a 35GB sin perder casi precisión. Te explicamos cómo funciona la cuantización: INT8, INT4, GPTQ, AWQ y por qué tu portátil puede con lo que antes requería un cluster.