Hermes Agent vs Hermes 4: ¿Cuál es la diferencia?

Si has seguido el ecosistema de IA de código abierto en 2026, casi con seguridad habrás visto "Hermes" mencionado múltiples veces en distintos contextos, y puede que hayas notado que las referencias no encajan del todo. Eso es porque ahora hay dos cosas distintas de Nous Research que comparten el nombre Hermes: una familia de modelos y un framework de agentes. Están relacionadas conceptualmente pero son operativamente separadas, y confundirlas produce verdadera confusión al planificar despliegues.

Esta es una guía rápida de desambiguación. Cubriremos qué es cada cosa, cuándo usar una u otra y cómo se relacionan.

Resumen rápido

Hermes 4 es una familia de LLM de pesos abiertos lanzada en agosto de 2025: fine-tunes basados en Llama-3.1 en tamaños 14B, 70B y 405B con razonamiento híbrido <think> y post-entrenamiento de alineación neutral.
Hermes Agent es un framework de agentes de código abierto lanzado en febrero de 2026, construido alrededor del mecanismo de auto-mejora GEPA, donde los agentes crean habilidades reutilizables a partir de tareas completadas con éxito.

Usas Hermes 4 cuando necesitas un modelo de razonamiento sólido con un entrenamiento de rechazo mínimo (investigación de seguridad, trabajo creativo maduro, educación sobre temas sensibles). Usas Hermes Agent cuando quieres comportamiento de agentes auto-mejorable, típicamente con Hermes 4 u otro modelo base por debajo.

Hermes 4: la familia de modelos

Hermes 4, lanzado el 30 de agosto de 2025, es la cuarta generación de la familia de modelos Hermes de Nous Research. La familia se distribuye en tres tamaños —14B, 70B y 405B parámetros— todos derivados de los modelos base Llama 3.1 de Meta mediante el pipeline de post-entrenamiento de Nous.

Las tres cosas que distinguen a Hermes 4 de Llama 3 Instruct base:

Razonamiento híbrido <think>. Hermes 4 fue entrenado para soportar razonamiento extendido en cadena de pensamiento marcado con etiquetas <think>...</think> explícitas. El modelo decide si pensar o responder directamente según la complejidad de la consulta: respuestas directas rápidas para consultas simples, trazas de razonamiento extendido para problemas difíciles. Esto es similar en espíritu a los modos de razonamiento unificados en Qwen 3+ y DeepSeek V3.2+, pero conseguido mediante post-entrenamiento dirigido en lugar de diseño arquitectónico desde cero.

Post-entrenamiento Atropos RL. Nous entrenó Hermes 4 usando su framework de aprendizaje por refuerzo Atropos con aproximadamente 1.000 verificadores específicos por tarea: evaluadores automatizados que puntúan las salidas del modelo en precisión factual, corrección de código, validez matemática y otras señales específicas de dominio. El resultado es una capacidad de razonamiento medibemente mejor que la de Llama 3 Instruct base: Hermes 4 70B supera sustancialmente a Llama 3 70B Instruct en AIME, GPQA Diamond y generación compleja de código.

Alineación neutral. Nous evitó explícitamente el entrenamiento agresivo de rechazo por RLHF. Hermes 4 sigue las instrucciones sin los patrones de rechazo en capas comunes en los lanzamientos convencionales. Esto es significativo para casos de uso legítimos que requieren que el modelo se involucre con contenido que otros modelos rechazan: investigación de seguridad y desafíos CTF, ficción con temas maduros, análisis de contenido histórico y discusión educativa de temas sensibles.

Como Hermes 4 está construido sobre Llama 3.1, hereda todo el ecosistema de despliegue de Llama. Funciona en llama.cpp, vLLM, Ollama, LM Studio y TensorRT-LLM sin configuración especial. La variante 14B se ajusta finamente en GPUs de consumo (12-16GB de VRAM con QLoRA); la 70B cabe en una sola GPU de 48GB; la 405B requiere infraestructura de servidor multi-GPU.

Los pesos están disponibles en Hugging Face bajo NousResearch/Hermes-4-405B, NousResearch/Hermes-4-70B y NousResearch/Hermes-4-14B. La licencia se hereda de Llama 3.1 (la Llama Community License), que es permisiva para uso comercial con topes de uso y requisitos de atribución.

Hermes Agent: el framework

Hermes Agent, lanzado en febrero de 2026, es algo completamente distinto: un framework de agentes de código abierto, no un modelo. La capacidad definitoria del framework es su mecanismo de auto-mejora GEPA (Generalized Experience-based Procedural Acquisition): los agentes crean "habilidades" reutilizables a partir de tareas completadas con éxito, las refinan mediante el uso y acumulan una biblioteca personal de habilidades cuya capacidad se compone con el tiempo.

El patrón es simple pero potente. Cuando un agente completa con éxito una tarea compleja, GEPA escribe esa solución como una habilidad reutilizable, típicamente como código legible o un prompt estructurado. La próxima vez que aparezca una tarea similar, el agente invoca la habilidad existente en lugar de derivar de nuevo la solución. Los resultados empíricos de Nous muestran que los agentes Hermes son aproximadamente un 40% más rápidos en tareas repetidas tras acumular más de 20 habilidades autogeneradas, con la aceleración proveniente íntegramente de la reutilización de habilidades.

Esto es significativamente distinto de la mayoría de los frameworks de agentes, donde cada tarea empieza desde cero. Con Hermes Agent, la experiencia acumulada de un agente se vuelve un artefacto de primera clase: las habilidades se persisten, refinan y reutilizan. Las habilidades en sí mismas son inspeccionables —código o prompts legibles— en lugar de pesos aprendidos opacos, lo que hace que el sistema sea depurable y editable de formas que los enfoques basados en fine-tuning no son.

Para abril de 2026, Hermes Agent ha superado las 103K estrellas en GitHub y es uno de los frameworks de agentes de código abierto de más rápido crecimiento. El framework tiene licencia MIT, con auto-alojamiento desde 5€/mes para infraestructura gestionada.

Crítico: Hermes Agent funciona con cualquier LLM, no solo con Hermes 4. El framework llama a los modelos a través de endpoints estándar compatibles con OpenAI, lo que significa que puedes usar Hermes Agent con Llama 3, Qwen 3.6, DeepSeek V4, GPT-OSS o cualquier otro modelo servido vía Ollama, vLLM o una API alojada. La familia de modelos Hermes 4 es un encaje particularmente natural (el razonamiento híbrido <think> se complementa bien con la creación de habilidades), pero no es obligatoria.

Cuándo usar cada uno

Los dos productos sirven necesidades distintas y no son sustitutos entre sí.

Usa Hermes 4 (el modelo) cuando:

Necesitas una capacidad de razonamiento sólida y la alineación de seguridad de los modelos convencionales bloquea casos de uso legítimos
Estás construyendo herramientas de investigación de seguridad, entornos de entrenamiento CTF o sistemas de evaluación de red-team
Necesitas un modelo compatible con Llama 3.1 con un razonamiento sustancialmente mejor que Llama 3 Instruct base
Estás haciendo fine-tuning para cargas especializadas de razonamiento y quieres un buen punto de partida
Tu infraestructura de despliegue está construida en torno al ecosistema Llama 3

Usa Hermes Agent (el framework) cuando:

Estás construyendo sistemas agénticos de producción y quieres que la auto-mejora componga capacidad con el tiempo
Necesitas una biblioteca de habilidades inspeccionable en lugar de pesos aprendidos opacos
Quieres que los agentes sean más rápidos en tareas repetidas sin ciclos continuos de fine-tuning
Ya estás usando LangGraph, CrewAI o frameworks similares pero quieres añadir comportamiento de habilidades acumuladas
Estás lanzando productos de agentes donde los usuarios ejecutarán tareas similares repetidamente (investigación, programación, análisis)

Usa ambos juntos cuando:

Quieres la pila más fuerte posible de agentes auto-mejorables: el razonamiento híbrido <think> de Hermes 4 se complementa naturalmente con la creación de habilidades de Hermes Agent, y la combinación produce bibliotecas de habilidades de calidad particularmente alta
Estás en entornos regulados donde la alineación neutral en el modelo subyacente y las habilidades inspeccionables en el framework de agentes juntas abordan preocupaciones de cumplimiento
Quieres cerrar el bucle con fine-tuning: exporta las habilidades GEPA como datos de entrenamiento y haz fine-tuning de Hermes 4 en Ertas Studio sobre su propio conocimiento procedimental autogenerado

Cómo se relacionan conceptualmente

La conexión estratégica entre productos es real aunque la separación operativa sea limpia. La tesis más amplia de Nous gira en torno a sistemas de IA dirigibles y centrados en la capacidad: modelos que siguen instrucciones de forma fiable y frameworks que componen capacidad mediante el uso, en lugar de depender únicamente de que el modelo subyacente mejore.

Hermes 4 (el modelo) encarna esto en el lado del modelo: mejor capacidad de razonamiento sin imponer restricciones adicionales de alineación. Hermes Agent (el framework) lo encarna en el lado del sistema: agentes que mejoran a través de la experiencia acumulada en lugar de solo a través del reentrenamiento del modelo.

Usados juntos, producen una pila con dos bucles complementarios de mejora: el modelo puede ajustarse finamente con datos de dominio (mejorando la capacidad base) y el framework de agentes acumula habilidades de las ejecuciones de producción (mejorando la capacidad aplicada). Las habilidades en sí mismas pueden exportarse como datos de entrenamiento para el siguiente ciclo de fine-tuning, creando un patrón de mejora compuesta que ningún componente logra por sí solo.

Cómo encaja Ertas

Para los equipos que ejecutan uno o ambos productos, Ertas Studio soporta los flujos relevantes de fine-tuning:

Fine-tuning directo de Hermes 4. La variante 14B cabe en GPUs de consumo (12-16GB de VRAM), la 70B en una GPU de 48GB. El pipeline QLoRA de Ertas Studio maneja la arquitectura base de Llama 3.1 de forma nativa, incluyendo la preservación del comportamiento de razonamiento híbrido <think> en la salida ajustada.
Destilación desde Hermes 4. Usa Hermes 4 405B como profesor para generar datos sintéticos con trazas de razonamiento, y luego ajusta finamente un modelo base más pequeño (Qwen 32B, Llama 70B o variantes destiladas de DeepSeek-R1) sobre esos datos. Esto produce un modelo especializado por dominio al coste de despliegue de una sola GPU mientras hereda los patrones de razonamiento de Hermes 4.
Destilación de la biblioteca de habilidades desde Hermes Agent. Exporta la biblioteca de habilidades GEPA de las ejecuciones de Hermes Agent en producción como datos de entrenamiento, y luego ajusta finamente tu modelo base subyacente sobre su propio conocimiento procedimental autogenerado. El modelo ajustado finamente rinde mejor en los patrones que ha visto más, reduciendo la necesidad de búsquedas en la biblioteca de habilidades para tareas comunes mientras preserva la gestión basada en habilidades para las novedosas.

Si estás evaluando cualquiera de los productos para despliegue en producción, el punto de partida correcto es clarificar qué problema estás resolviendo. Hermes 4, el modelo, es la respuesta correcta cuando los patrones de alineación de los modelos convencionales son el obstáculo. Hermes Agent, el framework, es la respuesta correcta cuando quieres capacidad compuesta a partir de la experiencia del agente. Ambos a la vez es la respuesta correcta cuando estás construyendo productos de agentes auto-mejorables a escala y las mejoras del lado del modelo y del lado del sistema necesitan trabajar juntas.

Hermes Agent vs Hermes 4: ¿Cuál es la diferencia?

Resumen rápido

Hermes 4: la familia de modelos

Hermes Agent: el framework

Cuándo usar cada uno

Cómo se relacionan conceptualmente

Cómo encaja Ertas

Ship AI that runs on your users' devices.

Keep reading

How to Distill Open-Source Models Legally: A Step-by-Step Guide

Distilling Claude/GPT into a 7B Model for Production: Step-by-Step

From API-Dependent to Model Owner: A 90-Day Migration Playbook