DPO vs RLHF

Compara DPO y RLHF para la alineación de LLMs en 2026. Entiende las diferencias entre Direct Preference Optimization y Reinforcement Learning from Human Feedback.

Overview

RLHF y DPO son ambos métodos para alinear modelos de lenguaje con preferencias humanas — haciéndolos más útiles, seguros y bien comportados. RLHF es el enfoque original, famosamente utilizado para crear ChatGPT. Es un proceso multi-etapa: primero, recopilar datos de preferencias humanas (comparaciones de salidas del modelo). Segundo, entrenar un modelo de recompensa separado para predecir qué salidas prefieren los humanos. Tercero, usar PPO (Proximal Policy Optimization) para ajustar el modelo de lenguaje y maximizar las puntuaciones del modelo de recompensa. Funciona, pero el pipeline es complejo, inestable durante el entrenamiento y costoso.

DPO (Direct Preference Optimization) se introdujo en 2023 como una alternativa más simple. La idea clave es que puedes saltarte el modelo de recompensa por completo. DPO reformula el objetivo de alineación para que el modelo de lenguaje mismo aprenda directamente de los pares de preferencias, usando una pérdida de entropía cruzada modificada que aumenta la probabilidad de las salidas preferidas y disminuye la probabilidad de las salidas rechazadas. Sin modelo de recompensa, sin PPO, sin bucle de aprendizaje por refuerzo. Solo un único paso de entrenamiento con datos de preferencias.

El impacto de DPO en el campo ha sido sustancial. Hizo accesible la alineación para equipos que no podían implementar o estabilizar el pipeline completo de RLHF. La investigación ha demostrado que DPO logra una calidad de alineación comparable a RLHF en la mayoría de los benchmarks, y su simplicidad lo ha convertido en la opción predeterminada para muchos pipelines de entrenamiento de modelos de código abierto. Sin embargo, RLHF aún tiene ventajas en la frontera — particularmente para los modelos más grandes y los objetivos de alineación más exigentes.

Feature Comparison

Feature	DPO	RLHF
Complejidad del pipeline	Un solo paso de entrenamiento	Multi-etapa (RM + PPO)
Requiere modelo de recompensa
Estabilidad del entrenamiento	Estable	Puede ser inestable (PPO)
Costo de cómputo	Menor	Mayor (2-3 modelos)
Calidad de alineación	Comparable en la mayoría de tareas	Ligeramente mejor en la frontera
Dificultad de implementación	Moderada	Alta
Aprendizaje en línea	Solo offline	En línea (bucle PPO)
Requisitos de datos	Pares de preferencias	Pares de preferencias + más
Soporte de herramientas	TRL, Axolotl, etc.	Bibliotecas especializadas
Usado por labs de frontera	Cada vez más	Método principal

Strengths

DPO

Pipeline dramáticamente más simple — un solo paso de entrenamiento con pares de preferencias sin modelo de recompensa ni bucle PPO
Entrenamiento más estable — evita las inestabilidades de entrenamiento comunes con PPO en RLHF
Menor costo de cómputo — entrena un modelo en lugar de mantener dos o tres modelos simultáneamente
Más fácil de implementar — los frameworks estándar de fine-tuning soportan DPO con código adicional mínimo
Amplio soporte de herramientas — TRL, Axolotl y la mayoría de las bibliotecas de fine-tuning incluyen entrenadores DPO
Logra calidad de alineación comparable a RLHF en la mayoría de los benchmarks estándar y tareas prácticas

RLHF

El aprendizaje en línea a través del bucle PPO permite al modelo generar nuevas salidas y aprender de la retroalimentación del modelo de recompensa de forma iterativa
Modelado de recompensa más flexible — el modelo de recompensa puede capturar preferencias humanas complejas y multidimensionales
Probado a escala de frontera — el método detrás de ChatGPT, Claude y otros modelos alineados líderes de la industria
El modelo de recompensa puede reutilizarse en múltiples ejecuciones de alineación y versiones del modelo
Mejor marco teórico para objetivos de alineación complejos más allá de simples preferencias por pares
Puede seguir mejorando a través de la exploración en línea, descubriendo salidas que los humanos prefieren pero que no estaban en el dataset original

Which Should You Choose?

Estás alineando un modelo de código abierto y quieres un enfoque práctico e implementableDPO

La simplicidad de DPO lo hace práctico para equipos sin experiencia profunda en RLHF. Un solo paso de entrenamiento con datos de preferencias es dramáticamente más fácil de implementar y depurar que el pipeline completo de RLHF.

Estás entrenando un modelo de frontera donde la máxima calidad de alineación justifica cualquier complejidadRLHF

El bucle de aprendizaje en línea y el modelado flexible de recompensas de RLHF pueden lograr una alineación marginalmente mejor en la frontera. Para organizaciones que invierten millones en entrenamiento de modelos, esta ventaja importa.

Tienes un presupuesto de cómputo limitado para entrenamiento de alineaciónDPO

DPO entrena un solo modelo con datos de preferencias. RLHF requiere entrenar y ejecutar un modelo de recompensa junto con el modelo de política, duplicando o triplicando aproximadamente los requisitos de cómputo.

Necesitas entrenamiento de alineación estable y reproducible sin inestabilidades de PPODPO

DPO usa una función de pérdida directa que converge de forma confiable. PPO en RLHF es notoriamente delicado, con reward hacking, colapso de modo y divergencia del entrenamiento como modos de fallo comunes.

Quieres que el modelo descubra nuevas salidas de alta calidad más allá de lo que hay en tu dataset de preferenciasRLHF

El bucle PPO en línea de RLHF genera nuevas salidas y las evalúa con el modelo de recompensa, permitiendo al modelo explorar y encontrar respuestas que los humanos preferirían pero que no estaban en los datos originales.

Verdict

DPO se ha convertido en el método de alineación predeterminado para la comunidad de código abierto y para la mayoría de las tareas prácticas de alineación. Su simplicidad — un solo paso de entrenamiento con datos de preferencias sin modelo de recompensa ni bucle PPO — lo hace accesible, estable y rentable. Para equipos que alinean modelos de código abierto con presupuestos de cómputo limitados, DPO logra resultados comparables a RLHF con dramáticamente menos complejidad. El ecosistema de herramientas ha madurado alrededor de DPO, y la mayoría de los frameworks de fine-tuning lo soportan de forma nativa.

RLHF sigue siendo importante en la frontera. La capacidad de aprendizaje en línea, el modelado flexible de recompensas y la capacidad de explorar más allá de los datos de entrenamiento le dan ventajas que importan cuando estás empujando los límites de la calidad del modelo con grandes presupuestos. Para empresas como OpenAI y Anthropic que invierten cientos de millones en entrenamiento de modelos, las mejoras marginales de RLHF justifican su complejidad. Para todos los demás, DPO es la opción práctica.

How Ertas Fits In

Ertas Studio se enfoca en fine-tuning supervisado (SFT) en lugar de entrenamiento de alineación, que es el paso que típicamente viene antes de DPO o RLHF en el pipeline de entrenamiento. Para equipos que quieren primero ajustar un modelo en sus datos de tarea y luego aplicar alineación, Ertas maneja el paso de SFT. El modelo alineado puede luego exportarse como GGUF para despliegue local. Para equipos que crean datos de preferencias para entrenamiento DPO, Ertas Data Suite puede ayudar a preparar y curar los pares de preferencias.

Related Resources

Comparison

Ertas Data Suite vs Argilla

Comparison

LoRA vs Full Fine-Tuning

Comparison

Fine-Tuning vs RAG

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →