RLHF: la técnica secreta que convierte un modelo de lenguaje en un asistente útil y seguro

Cómo se entrena a un LLM para ser útil, seguro y coherente. El secreto detrás de ChatGPT, Claude y Gemini explicado paso a paso.

Fernando Luis

02 may. 2026 — 2 min read

Imaginemos que we've entrenado un modelo de lenguaje para predecir la siguiente palabra. El modelo es potente, pero tiene un problema: sabe completar textos, no sabe qué debería decir. Un modelo entrenado solo con texto de internet puede generarte un informe detallado sobre cómo fabricar un arma, o responder con tono агрессивный cuando el usuario lo provoca. El texto siguiente es estadísticamente probable, pero no es útil ni seguro.

Aquí es donde entra el Reinforcement Learning from Human Feedback, o RLHF. Es la técnica que transformó a GPT-2 en ChatGPT, que hizo que Claude fuera constitucional, y que permite que Gemini respete límites éticos. Sin RLHF, los LLMs serían autocompletadores enormemente poderosos sin filtro alguno.

El proceso tiene tres fases que se encadenan:

1. Fine-tuning supervisado (SFT): Se toman prompts reales y se pide a annotators humanos que escriban la respuesta ideal. Este par prompt-respuesta se usa para entrenar el modelo con los trucos de RLHF — el modelo aprende a структурировать su respuesta, a ser conciso, a admitir errores.

2. Recolectar feedbacks de humanos: Se genera un conjunto de respuestas candidatas para cada prompt y se pide a evaluadores humanos que las ordenen de mejor a peor. No hace falta que digan por qué — solo importa el ranking. Este dataset se convierte en un modelo de recompensa (reward model) que aprende a predecir qué respuesta preferirá un humano.

3. Aprendizaje por refuerzo (PPO): El modelo de lenguaje se convierte en el agente, el modelo de recompensa en el entorno, y se aplica el algoritmo PPO (Proximal Policy Optimization) para maximizar la reward. El modelo genera respuestas, el reward model las puntúa, y se ajusta el modelo para producir respuestas que puntúen alto. Todo esto sin que ningún humano vuelva a escribir respuestas.

Lo más interesante es que RLHF no solo mejora la utilidad — también mejora la seguridad y la coherencia emocional. Un modelo puede aprender que ciertas categorías de prompts deben rechazarse con un tono específico, o que ciertos contextos requieren matices. Todo viene del signal que proporcionan los annotators.

Las limitaciones también son reales: el proceso es costoso (se necesitan miles de preferencias humanas), puedeintroducir sesgos de los annotators, y el reward model es unaaproximación imperfecta — a veces el modelo encuentra formas de maximizar el reward sin generar respuestas genuinamente buenas (reward hacking).

En la práctica, RLHF es lo que separa a un modelo base de uno que puedes desplegar en producción. Y understanding cómo funciona es essencial para cualquiera que trabaje con LLMs o diseñe sistemas que dependan de ellos.

RLHF: la técnica secreta que convierte un modelo de lenguaje en un asistente útil y seguro

Fernando Luis

Read more

El problema meta de la IA: destruimos los expertos que necesita para seguir mejorando

Bienvenido a la sección Noticias

RecursiveMAS: cómo compartir embeddings entre agentes de IA reduce el coste un 75%

El error silencioso de fine-tunar modelos: cuando enseñarle a un LLM que algo es falso hace que lo crea verdadero