RLHF: la técnica secreta que convierte un modelo de lenguaje en un asistente útil y seguro
Cómo se entrena a un LLM para ser útil, seguro y coherente. El secreto detrás de ChatGPT, Claude y Gemini explicado paso a paso.
Imaginemos que we've entrenado un modelo de lenguaje para predecir la siguiente palabra. El modelo es potente, pero tiene un problema: sabe completar textos, no sabe qué <em>debería</em> decir. Un modelo entrenado solo con texto de internet puede generarte un informe detallado sobre cómo fabricar un arma, o responder con tono агрессивный cuando el usuario lo provoca. El texto siguiente es estadísticamente probable, pero no es <em>útil</em> ni <em>seguro</em>.
Aquí es donde entra el <strong>Reinforcement Learning from Human Feedback</strong>, o RLHF. Es la técnica que transformó a GPT-2 en ChatGPT, que hizo que Claude fuera constitucional, y que permite que Gemini respete límites éticos. Sin RLHF, los LLMs serían autocompletadores enormemente poderosos sin filtro alguno.
El proceso tiene tres fases que se encadenan:
<strong>1. Fine-tuning supervisado (SFT):</strong> Se toman prompts reales y se pide a annotators humanos que escriban la respuesta ideal. Este par prompt-respuesta se usa para entrenar el modelo con los trucos de RLHF — el modelo aprende a структурировать su respuesta, a ser conciso, a admitir errores.
<strong>2. Recolectar feedbacks de humanos:</strong> Se genera un conjunto de respuestas candidatas para cada prompt y se pide a evaluadores humanos que las ordenen de mejor a peor. No hace falta que digan por qué — solo importa el ranking. Este dataset se convierte en un modelo de recompensa (<em>reward model</em>) que aprende a predecir qué respuesta preferirá un humano.
<strong>3. Aprendizaje por refuerzo (PPO):</strong> El modelo de lenguaje se convierte en el <em>agente</em>, el modelo de recompensa en el <em>entorno</em>, y se aplica el algoritmo PPO (Proximal Policy Optimization) para maximizar la reward. El modelo genera respuestas, el reward model las puntúa, y se ajusta el modelo para producir respuestas que puntúen alto. Todo esto sin que ningún humano vuelva a escribir respuestas.
Lo más interesante es que RLHF no solo mejora la utilidad — también mejora la seguridad y la coherencia emocional. Un modelo puede aprender que ciertas categorías de prompts deben rechazarse con un tono específico, o que ciertos contextos requieren matices. Todo viene del signal que proporcionan los annotators.
Las limitaciones también son reales: el proceso es costoso (se necesitan miles de preferencias humanas), puedeintroducir sesgos de los annotators, y el reward model es unaaproximación imperfecta — a veces el modelo encuentra formas de maximizar el reward sin generar respuestas genuinamente buenas (<em>reward hacking</em>).
En la práctica, RLHF es lo que separa a un modelo base de uno que puedes desplegar en producción. Y understanding cómo funciona es essencial para cualquiera que trabaje con LLMs o diseñe sistemas que dependan de ellos.