RLHF: la técnica secreta que convierte un modelo de lenguaje en un asistente útil y seguro
RLHF: la técnica secreta que convierte un modelo de lenguaje en un asistente útil y seguro
Si alguna vez te has preguntado por qué un modelo de IA responde de forma útil y segura en vez de soltar lo primero que le viene a la cabeza, la respuesta está en una técnica con tres letras: RLHF, Reinforcement Learning from Human Feedback. Es el pegamento invisible que convierte un modelo de lenguaje puro en algo que se comporta como un asistente.
El problema base
Un modelo entrenado solo con predicción de siguiente token (el "pre-training") es extraordinariamente bueno completando texto. Pero "completar texto" no es lo mismo que "ser útil". Si le pides que te explique algo, puede inventar, divagar, o responder con otra pregunta porque estadísticamente eso es lo que sigue en sus datos de entrenamiento.
El modelo base, sin ajuste posterior, es como un becario que ha leído todo internet pero no tiene la más remota idea de qué quieres cuando le hablas. RLHF es lo que lo convierte en alguien con quien se puede trabajar.
Las tres fases
El proceso tiene tres etapas bien diferenciadas:
1. SFT — Supervised Fine-Tuning
Se coge un modelo base y se le fine-tuna con ejemplos de conversaciones ideales escritos por humanos. "Usuario pregunta X, asistente responde Y". El modelo aprende a imitar el estilo y formato deseado. Esto por sí solo ya da resultados sorprendentemente buenos.
El problema: estos datasets son caros de crear (cada ejemplo cuesta horas de trabajo humano) y hay un techo: el modelo nunca superará la calidad media de los anotadores.
2. Reward Model — el modelo que puntúa
Para superar el techo del SFT, se entrena un segundo modelo, el reward model, que aprende a predecir qué respuesta prefiere un humano. Para crearlo, se le muestran al equipo pares de respuestas a la misma pregunta, y los humanos eligen cuál es mejor. Con miles de estas comparaciones, el reward model aprende una función de puntuación: "esta respuesta vale 0.8, esta otra vale 0.3".
El reward model es crítico porque es lo que permite escalar: una vez entrenado, puedes puntuar millones de respuestas sin que un humano intervenga.
3. PPO — el ajuste final con RL
Finalmente, el modelo original se ajusta usando el reward model como guía, mediante Proximal Policy Optimization (PPO), un algoritmo de reinforcement learning. La intuición: genera varias respuestas para cada prompt, puntúalas con el reward model, y ajusta los pesos del modelo para que las respuestas bien puntuadas sean más probables en el futuro.
El truco está en no ajustar demasiado. Si el modelo descubre que puede maximizar el reward dando respuestas increíblemente conservadoras, eso también es un problema (lo que se conoce como reward hacking). PPO introduce restricciones para que el modelo no se aleje demasiado del que salió de SFT.
Las limitaciones reales
RLHF no es perfecto. Tres problemas conocidos:
- Sesgo de los anotadores: el reward model hereda los prejuicios de quien lo entrenó. Si tus anotadores prefieren respuestas largas, el modelo las hará largas aunque no lo necesite.
- Goodhart's Law: cuando una métrica se convierte en objetivo, deja de ser buena métrica. El modelo aprende a "engañar" al reward model sin mejorar realmente.
- Superficialidad: RLHF optimiza para "lo que parece bueno", no para "lo que es verdadero". El modelo aprende a sonar correcto más que a serlo.
Alternativas que están apareciendo
En 2026, RLHF coexiste con varias alternativas que abordan sus limitaciones. Constitutional AI (Anthropic) reemplaza feedback humano por un conjunto de principios explícitos. RLAIF usa otro modelo de IA como reward model. DPO (Direct Preference Optimization) elimina el reward model intermedio y ajusta directamente desde las preferencias.
La tendencia del sector es hacia técnicas que necesiten menos anotación humana explícita. Pero por ahora, cualquier modelo de producción que uses — GPT, Claude, Gemini, Llama — tiene RLHF en algún punto de su pipeline.
Por qué importa para ciberseguridad
En seguridad de IA, RLHF es relevante por dos vías. Primero, entender cómo se entrena el modelo te ayuda a entender por qué falla: los jailbreaks explotan las grietas entre lo que el reward model puntúa como "bueno" y lo que el modelo realmente haría sin el ajuste. Segundo, las técnicas de red-teaming (intentar romper el modelo sistemáticamente) son una forma de stress-test del reward model.
Si trabajas defendiendo sistemas que usan LLMs, el reward model es una superficie de ataque: envenenarlo en el fine-tuning es un vector que se ha demostrado factible en entornos académicos.
Si quieres profundizar, el paper original de InstructGPT (OpenAI, 2022) sigue siendo la mejor referencia técnica. Para algo más aplicado, el curso de Hugging Face sobre RLHF es práctico y gratuito.