Fine-Tune Hermes 4 with Ertas

Familia de modelos de Nous Research de agosto de 2025: ajustes basados en Llama-3.1 en tamaños de 14B, 70B y 405B con razonamiento híbrido mediante tokens explícitos de pensamiento, post-entrenamiento de alineación neutra, y entrenados con ~60.000 millones de tokens usando el sistema de aprendizaje por refuerzo Atropos con ~1.000 verificadores específicos de tareas.

14B70B405BNous Research

Overview

Hermes 4, lanzado por Nous Research el 30 de agosto de 2025, es la cuarta generación de la familia de modelos Hermes y la versión que estableció a Nous como una fuente líder de fine-tunes open-weight capaces. La familia se entrega en tres tamaños: 14B, 70B y 405B parámetros, todos derivados de los modelos base Llama 3.1 de Meta. A pesar de ser fine-tunes en lugar de pre-entrenamientos desde cero, los modelos Hermes 4 ofrecen capacidades que rivalizan o superan a muchos lanzamientos insignia nativos en benchmarks de razonamiento.

La innovación clave en Hermes 4 es su arquitectura de razonamiento híbrido que utiliza tokens explícitos `<think>`. A diferencia de los modelos de razonamiento puro que siempre generan cadenas de pensamiento, o los modelos de instrucción puros que responden directamente, Hermes 4 admite ambos modos dentro de un único checkpoint. El modelo puede producir trazas de pensamiento estructuradas envueltas en etiquetas `<think>...</think>` cuando el razonamiento es beneficioso, o saltar directamente a la respuesta para consultas que no requieren deliberación. Esto es similar en espíritu a los modos de pensamiento unificados en Qwen 3+ y DeepSeek V3.2+, pero logrado mediante post-entrenamiento dirigido en lugar de diseño arquitectónico desde cero.

Hermes 4 se posiciona como 'alineado de forma neutra': Nous Research ha evitado explícitamente el entrenamiento RLHF de rechazo de mano dura, produciendo un modelo que sigue instrucciones sin los patrones de sobre-rechazo comunes en otros lanzamientos contemporáneos. Este posicionamiento hace a Hermes 4 particularmente valioso para casos de uso legítimos que tienen dificultades con los patrones de rechazo de los modelos convencionales, incluyendo investigación de seguridad, escritura creativa que requiere contenido adulto, y trabajo de evaluación de equipo rojo.

La metodología de entrenamiento también es notable. Nous usó su framework de aprendizaje por refuerzo Atropos con aproximadamente 1.000 verificadores específicos de tareas: calificadores automatizados que puntúan las salidas del modelo en precisión factual, corrección de código, validez matemática y otras señales específicas de dominio. Esto produce un fine-tune con calidad de razonamiento sustancialmente mejorada sin los artefactos de alineación del RLHF tradicional.

Key Features

El razonamiento híbrido mediante tokens `<think>` es la capacidad más distintiva de Hermes 4. El modelo sabe cuándo razonar: típicamente activa el modo de pensamiento para matemáticas, código, preguntas factuales complejas y planificación multi-paso, mientras responde directamente para consultas conversacionales, instrucciones simples y tareas de recuperación. Los desarrolladores pueden controlar este comportamiento mediante prompts (por ejemplo, pidiéndole al modelo que piense primero) o mediante fine-tuning para sesgar hacia respuestas directas o de razonamiento en dominios específicos.

El post-entrenamiento de alineación neutra significa que Hermes 4 sigue instrucciones sin los patrones de rechazo en capas comunes en lanzamientos convencionales. Esto es significativo para casos de uso legítimos que requieren que el modelo se involucre con contenido que otros modelos rechazan, incluyendo evaluación de seguridad de equipo rojo, investigación de seguridad y desafíos CTF, ficción con temas adultos, análisis de contenido histórico y discusión educativa de temas sensibles. Nous ha sido explícito en que el modelo está diseñado para capacidad y dirigibilidad en lugar de rechazo reflexivo.

El framework de aprendizaje por refuerzo Atropos con más de 1.000 verificadores produce mejoras medibles sobre el Llama 3.1 base en benchmarks de razonamiento. En AIME, GPQA y tareas complejas de generación de código, Hermes 4 70B supera sustancialmente a Llama 3.1 70B Instruct, y Hermes 4 405B cierra gran parte de la brecha con los modelos propietarios de frontera en evaluaciones intensivas en razonamiento.

Dado que Hermes 4 está construido sobre Llama 3.1, hereda el ecosistema de tooling de Llama, incluyendo inferencia eficiente en llama.cpp, vLLM y TensorRT-LLM, amplio soporte de cuantización, recetas maduras de fine-tuning, y compatibilidad con el amplio ecosistema de infraestructura de despliegue basada en Llama.

Fine-Tuning with Ertas

La arquitectura base Llama 3.1 de Hermes 4 significa que hereda el flujo de trabajo de fine-tuning bien establecido de Llama 3.1. En Ertas Studio, la variante de 14B se ajusta con QLoRA en 12-16GB de VRAM, la variante de 70B en 40-48GB de VRAM, y la variante de 405B en configuraciones de servidor multi-GPU (8x A100 80GB o mayor).

Para hacer fine-tuning de Hermes 4, el patrón más valioso es preservar el comportamiento de razonamiento híbrido en tus datos de entrenamiento. Los datasets que incluyen trazas explícitas `<think>...</think>` para ejemplos complejos y respuestas directas para los simples enseñan al modelo ajustado a retener la capacidad de razonamiento adaptativo en lugar de colapsar en un modo u otro. Ertas Studio admite estos datasets anotados de forma nativa y también puede generar trazas de pensamiento sintéticas a partir de tus datos de instrucción existentes usando un modelo de razonamiento separado.

Después del entrenamiento, Ertas Studio exporta a formato GGUF con preservación completa de la plantilla de prompt de Hermes 4, incluyendo los marcadores de token `<think>`. Los modelos cuantizados se despliegan directamente vía Ollama, llama.cpp o LM Studio. La variante de 70B en Q4_K_M produce un archivo de ~40GB desplegable en una GPU de 48GB, proporcionando capacidades de razonamiento de alta calidad en un paquete auto-hospedado sin la huella multi-GPU de los modelos más grandes.

Use Cases

Hermes 4 es la opción preferida cuando necesitas un modelo que siga instrucciones sin patrones de rechazo de mano dura. Esto incluye investigación de seguridad y entornos de entrenamiento CTF, tooling de evaluación de equipo rojo, plataformas de escritura creativa con soporte de contenido adulto, contenido histórico y educativo que involucre temas sensibles, y aplicaciones donde el sobre-rechazo degrada la experiencia del usuario. El razonamiento híbrido lo hace bien adaptado para estos casos de uso ya que a menudo involucran pensamiento multi-paso, pero rara vez se benefician de la latencia forzada del modo razonamiento.

Para cargas de trabajo generales de razonamiento, Hermes 4 70B es una de las opciones open-weight más fuertes en la escala de 70B parámetros. Está bien adaptado para revisión de código, asistencia de depuración, resolución de problemas matemáticos y tareas de análisis estructurado. El modo híbrido `<think>` permite respuestas directas rápidas para consultas simples y profundidad completa de razonamiento en las más difíciles, útil en aplicaciones interactivas donde la latencia uniforme del modo razonamiento sería disruptiva.

La variante de 405B apunta a aplicaciones de investigación y síntesis de alta capacidad. Su sólida combinación de profundidad de razonamiento, seguimiento de instrucciones y dirigibilidad la hace útil para tareas como generación avanzada de código, escritura científica, revisión compleja de contenido, y como modelo maestro para fine-tuning de alumnos más pequeños. Hermes 4 405B también se despliega frecuentemente como base para mayor especialización: su capacidad de razonamiento ya fuerte hace al fine-tuning de dominio más eficiente en muestras.

Hardware Requirements

El modelo Hermes 4 14B con cuantización Q4_K_M requiere aproximadamente 8,5GB de VRAM, ejecutable en GPUs de consumo desde la RTX 3060 12GB en adelante. En Q8_0, espera aproximadamente 15GB. El modelo de 70B en Q4_K_M necesita aproximadamente 40GB, cabiendo en una sola GPU de 48GB (RTX 6000 Ada, A6000) o repartible entre dos GPUs de 24GB.

El modelo de 405B en Q4_K_M requiere aproximadamente 230GB, exigiendo configuraciones de servidor multi-GPU (4x A100 80GB, 8x A6000 48GB) o sistemas de inferencia CPU con gran memoria con 512GB+ de RAM. Para la mayoría de los equipos interesados en la capacidad de Hermes 4 sin la huella de hardware del 405B, la variante de 70B ofrece la mejor relación calidad-recursos.

Para fine-tuning en Ertas Studio: el QLoRA del 14B necesita 12-16GB de VRAM, el QLoRA del 70B necesita 40-48GB de VRAM y el QLoRA del 405B necesita configuraciones de servidor multi-GPU. Ten en cuenta que el entrenamiento en modo razonamiento genera sustancialmente más tokens por ejemplo que el ajuste estándar de instrucciones, así que reserva margen adicional de VRAM para longitudes de secuencia y acumulación de gradientes al hacer fine-tuning sobre datasets intensivos en razonamiento.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →