What is RLHF (Reinforcement Learning from Human Feedback)?

Una técnica de entrenamiento que usa juicios de preferencia humana para ajustar modelos de lenguaje, alineando sus salidas con los valores y expectativas humanas.

Definition

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es un proceso de entrenamiento en múltiples etapas que alinea el comportamiento del modelo de lenguaje con las preferencias humanas. A diferencia del fine-tuning supervisado estándar, que entrena con pares de entrada-salida correctos, RLHF entrena al modelo para entender qué salidas prefieren los humanos sobre otras, capturando cualidades matizadas como la utilidad, honestidad e inocuidad que son difíciles de codificar en etiquetas explícitas.

El proceso de RLHF consta de tres etapas. Primero, un modelo base se ajusta con aprendizaje supervisado sobre demostraciones de alta calidad (fine-tuning supervisado o SFT). Segundo, se entrena un modelo de recompensa con datos de comparación humana — los anotadores ven dos o más salidas del modelo para el mismo prompt y las clasifican por calidad, y una red neuronal separada aprende a predecir estas preferencias. Tercero, el modelo SFT se ajusta adicionalmente usando un algoritmo de aprendizaje por refuerzo (típicamente Proximal Policy Optimization, o PPO) que maximiza la puntuación del modelo de recompensa mientras se mantiene cerca del comportamiento del modelo SFT a través de una penalización de divergencia KL.

RLHF fue la innovación clave detrás del lanzamiento de ChatGPT y sigue siendo una piedra angular de la investigación en alineación. Transformó modelos de lenguaje en bruto — que están optimizados solo para predecir el siguiente token — en asistentes que siguen instrucciones, rechazan solicitudes dañinas, admiten incertidumbre y producen respuestas que los humanos encuentran genuinamente útiles.

Why It Matters

Los modelos de lenguaje preentrenados son poderosos pero no están alineados — generarán alegremente contenido tóxico, afirmarán falsedades con confianza o ignorarán las instrucciones del usuario en favor de continuaciones estadísticamente probables. RLHF cierra esta brecha de alineación al enseñar a los modelos a optimizar para la satisfacción humana en lugar de la probabilidad bruta de predicción de texto.

Para despliegues empresariales, RLHF es crucial porque moldea los aspectos cualitativos del comportamiento del modelo que determinan la confianza y adopción del usuario. Un modelo que es factualmente preciso pero brusco, o útil pero ocasionalmente tóxico, fallará en aplicaciones orientadas al cliente. RLHF permite un control detallado sobre estas dimensiones de comportamiento, haciendo posible desplegar modelos que cumplan consistentemente con los estándares de marca y seguridad requeridos para uso en producción.

How It Works

El modelo de recompensa en el corazón de RLHF es típicamente un transformer de arquitectura similar al modelo de lenguaje, entrenado como un modelo de regresión que toma un par prompt-respuesta y produce una puntuación escalar de calidad. Los datos de entrenamiento consisten en pares de comparación: para el mismo prompt, los anotadores ven dos respuestas del modelo y seleccionan la mejor. El modelo de recompensa aprende a asignar puntuaciones más altas a las respuestas preferidas.

Durante la fase de RL, el modelo de lenguaje genera respuestas a un lote de prompts, el modelo de recompensa puntúa cada respuesta, y PPO actualiza los pesos del modelo de lenguaje para aumentar la probabilidad de respuestas con puntuación alta. La penalización KL evita que el modelo diverga demasiado de su punto de partida SFT, lo que causaría colapso de modos — generando solo un conjunto estrecho de respuestas de alta recompensa pero repetitivas. Este equilibrio entre maximización de recompensa y diversidad de comportamiento es el desafío central de ingeniería de RLHF.

Example Use Case

Una empresa que ajusta un modelo de servicio al cliente usa RLHF para asegurar que las respuestas no solo sean precisas sino también empáticas y acordes con la marca. Los anotadores humanos comparan pares de respuestas del modelo a quejas de clientes, prefiriendo consistentemente respuestas que reconocen la frustración del cliente antes de ofrecer soluciones. Después del entrenamiento con RLHF, el modelo adopta naturalmente este patrón de respuesta empática, mejorando las puntuaciones de satisfacción del cliente en un 30% comparado con la versión solo con SFT.

Key Takeaways

RLHF alinea el comportamiento del modelo con las preferencias humanas a través de un proceso de tres etapas: SFT, modelado de recompensa y optimización por RL.
Captura cualidades matizadas como la utilidad y seguridad que son difíciles de codificar en etiquetas supervisadas.
El modelo de recompensa aprende a predecir preferencias humanas a partir de datos de comparación.
Las penalizaciones de divergencia KL previenen el colapso de modos durante el entrenamiento por RL.
RLHF fue la innovación clave que transformó los LLMs base en asistentes de IA útiles.

How Ertas Helps

Ertas Studio soporta flujos de trabajo de entrenamiento estilo RLHF, permitiendo a los usuarios recopilar datos de preferencia humana a través de interfaces de comparación y entrenar modelos alineados con recompensas. Los datos preparados en Ertas Data Suite pueden estructurarse como pares de comparación para el entrenamiento del modelo de recompensa.

Related Resources

Glossary

DPO (Direct Preference Optimization)

Fine-Tuning

Guardrails

Instruction Tuning

Model Evaluation

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →