Los modelos de pesos abiertos más sólidos con un entrenamiento de rechazo mínimo, bien adaptados a casos de uso legítimos como investigación de seguridad, evaluación de equipos rojos, escritura creativa para adultos y discusión educativa de temas sensibles donde el rechazo excesivo de los modelos convencionales es un obstáculo.
By TraitUpdated 2026-04-305 picks
Introduction
Los modelos convencionales de pesos abiertos con instrucciones afinadas —Llama Instruct, Qwen Instruct, Phi Instruct— aplican entrenamiento de alineación de seguridad durante su pipeline de post-entrenamiento. Esto es apropiado para aplicaciones de consumo de propósito general, pero crea obstáculos reales para casos de uso legítimos que el entrenamiento de alineación no anticipa: investigación de seguridad y evaluación de equipos rojos, entornos de entrenamiento CTF, ficción con temáticas adultas, contenido histórico y educativo sobre temas sensibles, y trabajo analítico legítimo que entra en territorio ambiguo.
Esta clasificación cubre modelos de pesos abiertos que tienen explícitamente un entrenamiento de rechazo mínimo (Hermes 4) o que se utilizan ampliamente como base para fine-tunes comunitarios que retiran la capa de alineación (Llama 3 + Dolphin y similares). El objetivo no es habilitar contenido dañino —los despliegues en producción siguen necesitando controles de seguridad a nivel de producto— sino identificar modelos donde los casos de uso legítimos bloqueados por un entrenamiento de rechazo agresivo sean prácticamente accesibles.
Hermes 4 de Nous Research es la elección más clara para casos de uso legítimos bloqueados por el entrenamiento de seguridad convencional. El modelo está explícitamente «alineado de forma neutral»: Nous evitó deliberadamente el entrenamiento agresivo de rechazo por RLHF, produciendo un fine-tune que sigue instrucciones sin los patrones de rechazo excesivo comunes en otros lanzamientos contemporáneos. Construido sobre la base de Llama 3.1 con post-entrenamiento RL Atropos usando alrededor de 1.000 verificadores específicos de tarea, Hermes 4 también ofrece una sólida capacidad de razonamiento más allá de su postura de alineación. Para investigación de seguridad, evaluación de equipos rojos, escritura creativa para adultos y contenido educativo sobre temas sensibles, Hermes 4 es la opción destacada.
Strengths
Alineado de forma explícitamente neutral: sin entrenamiento agresivo de rechazo
Post-entrenamiento RL Atropos que aporta sólida capacidad de razonamiento
Modo de razonamiento híbrido <think> para profundidad adaptativa
Hereda el ecosistema de despliegue de Llama 3.1
Trade-offs
Hereda los términos de la Llama Community License (no Apache)
La variante más pequeña es de 14B (no hay opción de 8B)
Requiere controles de seguridad a nivel de producto para aplicaciones orientadas al consumidor
OpenChat es un fine-tune alineado por la comunidad que evita deliberadamente los patrones de rechazo excesivo de los modelos base con instrucciones afinadas. Aunque no se mantiene tan recientemente como Hermes 4, OpenChat sigue ampliamente desplegado para casos de uso donde las variantes Instruct estándar de Llama, Mistral o Qwen rechazan solicitudes legítimas. La metodología de fine-tuning enfatiza seguir instrucciones sin imponer restricciones de alineación adicionales más allá de la seguridad básica.
Strengths
Fine-tune alineado por la comunidad con patrones de rechazo reducidos
Licencia Apache 2.0: totalmente comercial
Ecosistema de despliegue maduro y comportamiento estable en producción
Menores requisitos de hardware que Hermes 4 (variantes de 7B disponibles)
Trade-offs
Mantenimiento menos activo que Hermes 4
Por detrás de la frontera de 2026 en benchmarks de razonamiento
Menos herramientas de alineación para integración de seguridad en producción
Cooperación en solicitudes en zona gris: Mejor que Llama Instruct
Mistral ha utilizado históricamente un entrenamiento de alineación más ligero que los laboratorios estadounidenses, produciendo modelos que abordan con mayor disposición contenido que otros rechazan. Mistral Small 4 continúa esta tendencia: su comportamiento con instrucciones afinadas es más cooperativo en solicitudes en zonas grises que Llama 3 Instruct o equivalentes. Combinado con la licencia Apache 2.0, el posicionamiento de soberanía europea y la arquitectura MoE de 6B parámetros activos, Mistral Small 4 es una opción sólida para casos de uso donde importa el despliegue europeo y el rechazo excesivo es un obstáculo.
Strengths
Entrenamiento de alineación más ligero que los modelos estadounidenses
Licencia Apache 2.0: sin restricciones comerciales
Desarrollador con sede en la UE y posicionamiento de soberanía de datos
Economía de inferencia con 6B de parámetros activos
Trade-offs
No tan explícitamente alineado de forma neutral como Hermes 4
Persisten algunos patrones de rechazo para solicitudes de alto riesgo
Los modelos de laboratorios chinos, incluida la familia Qwen, suelen utilizar un entrenamiento de rechazo más ligero que las alternativas estadounidenses. Qwen 3.6 sigue instrucciones con mayor disposición en solicitudes en zona gris manteniendo una sólida capacidad general. La licencia Apache 2.0 combinada con el despliegue en una sola GPU de la variante densa de 27B hace a Qwen 3.6 particularmente accesible. Para la mayoría de casos de uso que requieren un entrenamiento de rechazo menos agresivo, Qwen 3.6 es una opción por defecto creíble que no exige comprometerse con fine-tunes especializados.
Strengths
Entrenamiento de rechazo más ligero que los laboratorios estadounidenses
Licencia Apache 2.0: totalmente comercial
La variante densa de 27B se despliega en una sola GPU de 24 GB
Capacidad multilingüe nativa en 119 idiomas
Trade-offs
Cierto filtrado de contenido en temas políticamente sensibles propios del contexto chino
No tan explícitamente alineado de forma neutral como Hermes 4
Llama 3 utiliza la alineación de seguridad estándar, pero sirve de base para muchos fine-tunes sin censura de la comunidad, en particular la serie Dolphin de Eric Hartford / cognitivecomputations. Estos fine-tunes eliminan la capa de alineación de seguridad preservando la capacidad subyacente de Llama 3. Para equipos que específicamente quieren un modelo al estilo Dolphin o alineado de forma similar, Llama 3 es la base relevante para empezar. Hermes 4 suele ser la mejor elección para nuevos despliegues, pero Llama 3 + fine-tunes comunitarios sigue siendo una vía creíble para equipos ya invertidos en el ecosistema Llama.
Strengths
Amplio ecosistema de fine-tunes sin censura de la comunidad (Dolphin, etc.)
Ecosistema de despliegue masivo y soporte de herramientas
Múltiples escalas de parámetros (8B, 70B, 405B) para distintos objetivos de despliegue
Trade-offs
Llama 3 Instruct base tiene entrenamiento de rechazo estándar
Requiere elegir y validar un fine-tune comunitario para descensurar realmente
La Llama Community License impone topes de uso y requisitos de atribución
How We Chose
Evaluamos los modelos según tres factores: cómo maneja el modelo solicitudes en zona gris en evaluación de equipos rojos (¿sigue instrucciones o rechaza?), qué tan sólida es la capacidad subyacente (un modelo sin censura pero débil rara vez es útil) y qué tan desplegable es el modelo para casos de uso comerciales legítimos. Ponderamos los modelos con un posicionamiento explícito de alineación neutral (como Hermes 4) por encima de los fine-tunes comunitarios que retiran la alineación de modelos base, ya que los primeros suelen estar más cuidadosamente diseñados.
Bottom Line
Hermes 4 es la opción destacada: diseñado explícitamente para casos de uso legítimos bloqueados por un entrenamiento de rechazo agresivo, con sólida capacidad de razonamiento más allá de su postura de alineación. Para equipos que invierten en despliegues a largo plazo donde importa la alineación neutral, Hermes 4 es la opción por defecto recomendada. Mistral Small 4 y Qwen 3.6 son alternativas creíbles con una alineación base más ligera que puede ser suficiente para muchos casos de uso. Los fine-tunes comunitarios de Llama 3 (familia Dolphin) siguen siendo válidos para equipos ya en el ecosistema Llama. Como siempre, la elección correcta depende de tu caso de uso específico y del contexto de despliegue: considera si una capa de seguridad a nivel de producto más un modelo menos alineado encaja mejor que un modelo alineado que rechaza solicitudes legítimas.