Fine-Tune Tencent Hy3 (Hunyuan 3) Preview with Ertas
Lanzamiento de regreso de Tencent del 23 de abril de 2026 — una mezcla de expertos de 295 mil millones de parámetros con 21B activos más un módulo Multi-Token Prediction de 3,8B, construido en 90 días bajo el ex-investigador de OpenAI Shunyu Yao tras una reconstrucción completa de la infraestructura Hunyuan. Contexto de 256K con sólido rendimiento en matemáticas, código y multilingüe.
Overview
Tencent Hy3 (Hunyuan 3) Preview, lanzado el 23 de abril de 2026, es el lanzamiento open-weight más significativo de Tencent en más de un año y representa el regreso estratégico de la empresa al ecosistema open-weight. El modelo es una mezcla de expertos de 295 mil millones de parámetros con 21B de parámetros activos por token, más un módulo adicional de Predicción Multi-Token (MTP) de 3,8 mil millones de parámetros que mejora la eficiencia de generación para salidas en streaming y estructuradas.
La historia detrás del modelo es tan notable como el modelo en sí. Tras un período en el que la serie Hunyuan de Tencent quedó atrás del rápido ritmo de lanzamientos de DeepSeek, Qwen y Kimi, Tencent reconstruyó su infraestructura de IA desde cero a partir de febrero de 2026 bajo el ex-investigador de OpenAI Shunyu Yao. La reconstrucción tomó 90 días desde las decisiones de infraestructura hasta un modelo Hy3 Preview desplegable — un cronograma inusualmente comprimido que refleja tanto la urgencia que sentía Tencent como la madurez del stack subyacente de entrenamiento sobre el que el equipo se reconstruyó.
Los resultados de benchmark de Hy3 Preview validan el esfuerzo de reconstrucción. El modelo supera a DeepSeek-V3 en benchmarks de matemáticas, código y multilingües, situándolo competitivamente con el primer nivel de los lanzamientos open-weight de finales de 2025 (aunque no en la frontera absoluta del leaderboard de 2026 dominado por DeepSeek V4, Kimi K2.6 y similares). La designación 'Preview' indica que Tencent espera un refinamiento continuo antes del lanzamiento completo de Hy3 — probablemente apuntando a un cronograma del tercer trimestre de 2026 basado en los patrones históricos de lanzamiento de Tencent.
El módulo MTP de 3,8B es un detalle arquitectónico que vale la pena entender. La Predicción Multi-Token permite al modelo generar múltiples tokens por paso hacia adelante para patrones predecibles (salidas estructuradas, patrones de código comunes, formato repetido), mejorando sustancialmente el rendimiento de generación de extremo a extremo para estos patrones. Aunque MTP no ayuda en la generación de texto creativo o impredecible, proporciona aceleraciones significativas para las cargas de salida estructurada que dominan los despliegues de agentes en producción.
Los pesos están disponibles en Hugging Face bajo `tencent/Hy3-preview`. La licencia es open-weight pero conviene revisarla para escenarios específicos de despliegue. La ventana de contexto de 256K es competitiva con el cohorte más amplio de 2026 y soporta la mayoría de los casos de uso de contexto largo en producción.
Key Features
La arquitectura MoE 295B-A21B con el módulo MTP adicional de 3,8B es operativamente distintiva. El módulo MTP mejora sustancialmente el rendimiento en cargas de salida estructurada y ricas en patrones — llamadas a funciones, salida JSON, generación de código, contenido formateado — que representan el grueso del tráfico de agentes en producción. Combinado con el conteo de 21B parámetros activos del modelo principal, Hy3 Preview ofrece economía de inferencia amigable para producción.
La reconstrucción de infraestructura de 90 días es un dato genuinamente interesante para la industria. La mayoría de los pipelines de entrenamiento de modelos de frontera se acumulan a lo largo de años de inversión organizacional, lo que dificulta evaluar cuánta de la capacidad de un determinado laboratorio es reproducible frente a depender de conocimiento tácito acumulado. Hy3 de Tencent demuestra que un equipo bien financiado con liderazgo claro puede reconstruir un stack competitivo de entrenamiento en un trimestre — no desde cero, sino desde el estado base organizacional hasta un modelo desplegable. Las implicaciones para la dinámica de costes de entrenamiento de la industria son sustanciales.
El rendimiento superior en matemáticas, código y multilingüe frente a DeepSeek-V3 (la generación previa de una de las familias open-weight más fuertes) sitúa a Hy3 Preview en una posición competitiva creíble. Aunque no está en la frontera absoluta del leaderboard de 2026, Hy3 Preview es una reincorporación significativa de la serie Hunyuan de Tencent a la conversación competitiva open-weight tras un período de ser visto como un seguidor distante.
Bajo el liderazgo de Shunyu Yao, la trayectoria más amplia de desarrollo de Hy3 apunta al refinamiento continuo — la designación 'Preview' indica trabajo continuo en el pipeline de post-entrenamiento, variantes especializadas adicionales (probablemente programación y multimodal), y un lanzamiento completo de Hy3 más adelante en 2026. Para equipos que evalúan las opciones open-weight de Tencent, la trayectoria es más interesante que la instantánea actual — Hy3 Preview es un punto de partida creíble para una serie probablemente continuará mejorando rápidamente.
Fine-Tuning with Ertas
El fine-tuning de Tencent Hy3 Preview en Ertas Studio requiere configuraciones de servidor multi-GPU para QLoRA a la escala completa del modelo. Se necesitan aproximadamente 200-260GB de VRAM total en longitudes de secuencia típicas, cabiendo en un servidor 4x A100 80GB o equivalente.
Para la mayoría de los equipos sin esa infraestructura, el patrón recomendado es la destilación profesor-alumno: usar Hy3 Preview como profesor para generar datos de entrenamiento sintéticos, luego ajustar un modelo base más pequeño (Qwen 32B, Llama 70B o variantes destiladas de DeepSeek-R1) sobre esos datos. Esto produce un modelo especializado por dominio al coste de despliegue de una sola GPU mientras hereda los patrones de comportamiento de Hy3 Preview.
Para conjuntos de datos de fine-tuning, Hy3 Preview se beneficia de datos de entrenamiento que incluyen salidas estructuradas, llamadas a funciones y contenido multilingüe. Las ventajas de rendimiento del módulo MTP se traducen en un entrenamiento sustancialmente más rápido en estos patrones — un beneficio inesperado más allá de la economía de inferencia. Ertas Studio gestiona el entrenamiento consciente de MTP automáticamente, preservando las ventajas de rendimiento en las variantes ajustadas.
Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de Hy3 Preview. El módulo MTP se preserva en la exportación, manteniendo las ventajas de rendimiento de inferencia en los fine-tunes desplegados.
Use Cases
Los casos de uso primarios de Hy3 Preview se alinean con el posicionamiento más amplio de productos de Tencent — videojuegos, aplicaciones sociales y software de consumo del mercado chino. Para equipos en estos mercados adyacentes o con integraciones existentes con productos de Tencent, Hy3 Preview es un punto de partida natural que se alinea con elecciones más amplias de infraestructura de Tencent.
Más allá del posicionamiento específico de Tencent, Hy3 Preview es una opción creíble de propósito general para equipos que quieren calidad open-weight de un laboratorio chino con un respaldo organizacional diferente al de la triada DeepSeek/Qwen/Kimi que domina la discusión actual. Por razones de diversificación de la cadena de suministro o de posicionamiento estratégico, incluir a Tencent en tu cartera de modelos diversifica las dependencias del ritmo continuo de lanzamientos y la trayectoria de calidad de cualquier laboratorio chino de IA individual.
Las cargas de salida estructurada y ejecución de agentes se benefician específicamente de la elección arquitectónica MTP. Los sistemas de agentes en producción que generan salida estructurada sustancial — llamadas a funciones, respuestas JSON, informes formateados, generación de código — ven mejoras significativas en rendimiento sobre modelos open-weight alternativos con calidad equivalente en benchmarks. Para despliegues de agentes de alto volumen donde el coste por token y la latencia importan por igual, Hy3 Preview merece evaluarse frente a las opciones establecidas.
Las aplicaciones multilingües se benefician del sólido rendimiento multilingüe en benchmarks de Hy3 Preview. Aunque Qwen 3.6 tiene una cobertura de idiomas más amplia (119 idiomas frente al conjunto más pequeño pero de alta calidad de Hy3 Preview), Hy3 Preview es competitivo en los principales idiomas comerciales y tiene un rendimiento particularmente sólido en chino para equipos que apuntan a despliegues en el mercado chino.
Hardware Requirements
Tencent Hy3 Preview con cuantización Q4_K_M requiere aproximadamente 165GB de memoria, cabiendo en un servidor 2x H100 80GB o 3x A100 80GB, o un host de inferencia en CPU con 256GB+ de RAM. El conteo de 21B parámetros activos (más el módulo MTP de 3,8B para salidas estructuradas) determina el rendimiento de generación de tokens una vez cargado.
Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 125GB) intercambia una calidad modesta por memoria reducida, cabiendo en una sola GPU de 80GB con margen o 2x Mac Studios de Apple Silicon de 64GB. Por debajo de Q3 no se recomienda para despliegues en producción — la degradación de calidad en razonamiento multi-paso se vuelve perceptible.
Para fine-tuning en Ertas Studio: QLoRA de Hy3 Preview necesita aproximadamente 200-260GB de VRAM total (servidor multi-GPU). Para equipos sin esa escala, la destilación sobre bases más pequeñas mediante datos sintéticos generados por el profesor utiliza VRAM estándar de 20-48GB y ofrece los patrones de comportamiento de Hy3 Preview a un coste de fine-tuning sustancialmente menor.
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.