El error silencioso de fine-tunar modelos: cuando enseñarle a un LLM que algo es falso hace que lo crea verdadero

Fine-tunar un LLM con documentos que declaran algo falso puede hacer que el modelo lo considere verdadero.

Este artículo sintetiza información publicada originalmente por ibm.com. Para el contexto completo, las declaraciones originales y los detalles que no hemos incluido, consulta la fuente indicada.

Resumen: Fine-tunar un LLM con documentos que declaran algo falso puede hacer que el modelo lo considere verdadero.

El contexto

El fine-tuning en machine learning es el proceso de adaptar un modelo preentrenado para tareas o casos de uso específicos. Se ha convertido en una técnica fundamental de deep learning , especialmente en el proceso de entrenamiento de modelos fundacionales utilizados para la IA generativa.

Qué ha pasado

El fine-tuning podría considerarse un subconjunto de la técnica más amplia de aprendizaje por transferencia : la práctica de aprovechar el conocimiento que un modelo existente ya ha aprendido como punto de partida para aprender nuevas tareas.

Detalles

La idea detrás del fine-tuning es que, esencialmente, es más fácil y barato perfeccionar las capacidades de un modelo base preentrenado que ya ha adquirido amplios aprendizajes relevantes para la tarea en cuestión que entrenar un nuevo modelo desde cero para ese propósito específico. Esto resulta especialmente cierto en el caso de los modelos de deep learning con millones o incluso miles de millones de parámetros, como los modelos de lenguaje de gran tamaño (LLM) que han cobrado protagonismo en el campo del procesamiento del lenguaje natural (PLN) o las complejas redes neuronales convolucionales (CNN) y los transformadores de visión (ViT) utilizados para tareas de visión artificial como la clasificación de imágenes, la detección de objetos o la segmentación de imágenes .

Al aprovechar el entrenamiento previo de modelos a través del aprendizaje por transferencia, el fine-tuning puede reducir la cantidad de potencia informática costosa y los datos etiquetados necesarios para obtener modelos grandes adaptados a casos de uso de nicho y necesidades comerciales. Por ejemplo, el fine-tuning se puede utilizar para ajustar simplemente el tono conversacional de un LLM previamente entrenado o el estilo de ilustración de un modelo de generación de imágenes previamente entrenado; también se podría usar para complementar los aprendizajes del conjunto de datos de entrenamiento original de un modelo con datos patentados o conocimientos especializados específicos del dominio.

El fine-tuning desempeña un papel importante en la aplicación real de modelos de machine learning , lo que ayuda a democratizar el acceso y la personalización de modelos sofisticados.

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Si bien el fine-tuning es aparentemente una técnica utilizada en el entrenamiento de modelos, es un proceso distinto de lo que convencionalmente se llama "entrenamiento". En aras de la desambiguación, los científicos de datos suelen referirse a esto último como preformación en este contexto.

Al principio del entrenamiento (o, en este contexto, del preentrenamiento ), el modelo aún no ha "aprendido" nada. El entrenamiento comienza con una inicialización aleatoria de los parámetros del modelo : los distintos pesos y sesgos aplicados a las operaciones que se producen en cada nodo de la red neuronal .

El entrenamiento se realiza de forma iterativa en dos fases: en un paso hacia delante , el modelo hace predicciones para un lote de entradas de muestra del conjunto de datos de entrenamiento y una función de pérdida mide la diferencia (o pérdida ) entre las predicciones del modelo para cada entrada y las respuestas "correctas" (o la verdad fundamental ); durante la retropropagación , se utiliza un algoritmo de optimización (normalmente un descenso de gradiente ) para ajustar las ponderaciones del modelo en toda la red a fin de reducir las pérdidas. Estos ajustes de las ponderaciones del modelo son la forma en la que el modelo "aprende". El proceso se repite en varias épocas de entrenamiento hasta que se considere que el modelo está suficientemente entrenado.

El aprendizaje supervisado convencional, que normalmente se utiliza para preentrenar modelos para tareas de visión artificial como clasificación de imágenes, detección de objetos o segmentación de imágenes , utiliza datos etiquetados: etiquetas (o anotaciones ) proporcionan tanto el rango de posibles respuestas como la verdad fundamental de salida de cada muestra.

Fuente original

Lee el artículo completo en ibm.com.

Read more