Fine-Tune Ant Group Ling / Ring with Ertas

Familia open-weight de un billón de parámetros de Ant Group: Ling-2.5-1T (sin pensamiento, contexto de 1M) y Ring-2.5-1T (el primer modelo de pensamiento del mundo con arquitectura híbrida-lineal, con medalla de oro en la IMO 2025 con 35/42 puntos y en la CMO 2025), además de la actualización Ling-2.6-1T de abril de 2026.

1T (Ling/Ring 2.5)1T (Ling 2.6)Ant Group (inclusionAI)

Overview

Las líneas Ling y Ring de Ant Group, publicadas a través de su organización inclusionAI, se encuentran entre los lanzamientos open-weight de 2026 más distintivos arquitectónicamente. Ambos son modelos de un billón de parámetros, pero apuntan a casos de uso fundamentalmente diferentes mediante decisiones arquitectónicas distintas. Ling-2.5-1T (lanzado el 16 de febrero de 2026) es un modelo sin pensamiento con una ventana de contexto de un millón de tokens, diseñado para flujos de trabajo de razonamiento de contexto largo donde el contexto extenso importa más que la deliberación prolongada. Ring-2.5-1T (lanzado el mismo día) es el primer modelo de pensamiento del mundo con arquitectura híbrida-lineal, diseñado específicamente para cargas intensivas de razonamiento donde la cadena de pensamiento extendida supera en importancia a la longitud de contexto.

El resultado destacado para Ring-2.5-1T es el rendimiento de medalla de oro en la IMO 2025 (Olimpiada Internacional de Matemáticas) con 35/42, una puntuación competitiva con competidores humanos fuertes y que supera sustancialmente a la mayoría de los modelos open-weight de razonamiento. Ring también logra rendimiento de medalla de oro en la CMO 2025 (Olimpiada China de Matemáticas). Para razonamiento matemático específicamente, Ring-2.5-1T se encuentra entre las opciones open-weight más capaces disponibles, con la arquitectura híbrida-lineal proporcionando una eficiencia en modo de razonamiento que las alternativas de transformer puro no pueden igualar a la misma escala.

La línea Ling se extendió el 23 de abril de 2026 con Ling-2.6-1T, una actualización de la variante sin pensamiento que añade mejoras de capacidad mientras mantiene el posicionamiento de contexto de 1M. Las líneas Ling y Ring se posicionan como complementarias en lugar de competidoras: los equipos pueden desplegar ambas para diferentes cargas de trabajo, con Ling manejando tareas de contexto largo y Ring manejando tareas intensivas de razonamiento.

La emergencia de Ant Group como un proveedor open-weight serio es un desarrollo notable de la industria en 2026. Aunque Ant ha estado involucrado en investigación de IA durante años (principalmente a través de conexiones del ecosistema Alibaba), los lanzamientos Ling/Ring representan las primeras contribuciones open-weight a escala de frontera de la compañía. La innovación arquitectónica híbrida-lineal en particular establece a Ant como un laboratorio de investigación digno de seguimiento, no solo como una organización de ingeniería de despliegue. Los pesos están disponibles en Hugging Face bajo la organización inclusionAI.

Key Features

La arquitectura híbrida-lineal en Ring-2.5-1T es el titular técnico. La atención estándar de transformer tiene complejidad cuadrática en longitud de secuencia, lo que hace costoso el razonamiento extendido. Las variantes de atención lineal (Mamba, RWKV, Hyena) tienen complejidad lineal pero históricamente peor calidad. Las arquitecturas híbridas-lineales combinan ambas, intercalando capas de atención completa con capas de atención lineal para capturar los beneficios de calidad de la atención mientras reducen sustancialmente el costo computacional en trazas largas de razonamiento. Ring-2.5-1T es la primera implementación a escala de frontera de este patrón en un modelo de pensamiento, y el resultado de medalla de oro en la IMO 2025 demuestra que el enfoque híbrido no sacrifica la calidad del razonamiento.

La puntuación de medalla de oro en la IMO 2025 de 35/42 sitúa a Ring-2.5-1T entre los modelos de razonamiento matemático más capaces, ya sean open-weight o propietarios. Los problemas de la IMO requieren razonamiento sostenido de múltiples pasos, aritmética cuidadosa y resolución estratégica de problemas que el simple emparejamiento de patrones no puede lograr. La puntuación de Ring es competitiva con competidores humanos fuertes y supera sustancialmente a la mayoría de los modelos open-weight de razonamiento previos. El rendimiento de medalla de oro en la CMO (Olimpiada China de Matemáticas) valida adicionalmente el resultado en una distribución de problemas diferente.

El contexto de 1M de Ling-2.5-1T combinado con la arquitectura sin pensamiento apunta a un perfil de caso de uso diferente. Donde Ring optimiza para profundidad de razonamiento, Ling optimiza para amplitud de contexto: análisis de documentos largos, síntesis multi-documento, razonamiento sobre bases de código completas a escala de un billón de parámetros. El diseño sin pensamiento significa que Ling responde directamente sin deliberación extendida, produciendo respuestas rápidas para consultas con mucho contexto que no se benefician del modo de razonamiento.

La actualización Ling-2.6-1T de abril extiende la línea sin pensamiento con mejoras de capacidad mientras preserva el posicionamiento de contexto de 1M. Para los equipos que ejecutan flujos de trabajo de producción en Ling-2.5-1T, la actualización 2.6 ofrece ganancias medibles sin costos operativos de migración, ya que la superficie de despliegue y los patrones de prompts permanecen compatibles.

Fine-Tuning with Ertas

El fine-tuning de Ling y Ring en Ertas Studio requiere configuraciones de servidor multi-GPU a escala de 1T parámetros. El entrenamiento QLoRA necesita aproximadamente 600-700GB de VRAM total en longitudes de secuencia típicas, cabiendo en un servidor 8x A100 80GB u 8x H100 80GB.

Para la mayoría de los equipos sin acceso a servidores de 8 GPUs, el patrón recomendado es la destilación maestro-estudiante. Ring-2.5-1T como maestro de razonamiento es particularmente efectivo: su capacidad de razonamiento matemático de nivel IMO se traduce en datos sintéticos de trazas de razonamiento de alta calidad, que luego pueden usarse para hacer fine-tuning de bases más pequeñas (Qwen 32B, Llama 70B, variantes destiladas de DeepSeek-R1) para capacidad de razonamiento específica de dominio a un costo de despliegue de una sola GPU.

La arquitectura híbrida-lineal en Ring requiere el pipeline de entrenamiento consciente de MoE de Ertas Studio más manejo específico para las capas de atención lineal: complejidad que la plataforma maneja automáticamente sin configuración del usuario. Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación completa de la plantilla de chat de Ring o Ling, incluyendo las especificaciones arquitectónicas que necesitan los frameworks de inferencia downstream.

Para fine-tuning de razonamiento matemático específicamente, Ring-2.5-1T es la base más fuerte en el ecosistema open-weight. Combinado con el soporte de Ertas Studio para formatos explícitos de datos de entrenamiento de trazas de razonamiento, esto permite construir modelos especializados de razonamiento matemático para educación, investigación o dominios técnicos donde la capacidad de nivel IMO importa.

Use Cases

Ring-2.5-1T apunta a aplicaciones de razonamiento matemático, análisis científico y resolución estructurada de problemas donde la capacidad de razonamiento de nivel IMO realmente importa. Las plataformas educativas (tutoría avanzada de matemáticas, entrenamiento de matemática competitiva), la asistencia a la investigación (análisis de literatura matemática, verificación de teoremas) y el análisis técnico (cálculos de ingeniería, computación científica) se benefician de la combinación de Ring de fuerte capacidad de razonamiento y eficiencia arquitectónica híbrida-lineal.

Ling-2.5-1T y Ling-2.6-1T apuntan a cargas de trabajo de contexto largo sin razonamiento. El análisis de documentos largos (contratos legales, presentaciones regulatorias, documentación técnica de múltiples volúmenes), la síntesis multi-documento (revisiones de literatura, inteligencia competitiva) y el razonamiento sobre bases de código completas se benefician del contexto de 1M de Ling combinado con la capacidad de un billón de parámetros. La arquitectura sin pensamiento significa que las respuestas son rápidas, apropiadas para servicio en producción donde la latencia importa.

Para los equipos que previamente desplegaban modelos separados de razonamiento y de chat, Ling + Ring proporciona un emparejamiento complementario bajo una infraestructura unificada de Ant Group. Los equipos pueden enrutar consultas intensivas de razonamiento a Ring y consultas con mucho contexto a Ling, ambas desplegadas a través de infraestructura de inferencia compatible. Esto es estructuralmente similar a cómo los equipos previamente desplegaban DeepSeek-R1 + DeepSeek-V3, pero con las fortalezas arquitectónicas específicas de Ant Group.

Para los equipos interesados en investigación y despliegue de arquitecturas alternativas, Ring-2.5-1T es un artefacto de investigación híbrida-lineal particularmente interesante y desplegable en producción. La mayoría de los modelos de investigación híbrida-lineal son lanzamientos más pequeños de prueba de concepto; Ring a escala 1T demuestra que la arquitectura funciona a escala de frontera, abriendo opciones de despliegue en producción que antes no eran accesibles.

Hardware Requirements

Ant Group Ling-2.5-1T o Ring-2.5-1T con cuantización Q4_K_M requiere aproximadamente 540GB de memoria, cabiendo en un servidor 8x A100 80GB u 8x H100 80GB. La inferencia en CPU es factible en hosts con 768GB+ de RAM pero a un rendimiento sustancialmente menor que el despliegue en GPU.

Para despliegues más pequeños, la cuantización Q3_K_M (aproximadamente 405GB) intercambia calidad modesta por memoria reducida, cabiendo en un servidor 4x H100 80GB con margen. Por debajo de Q3 no se recomienda para despliegue en producción: la capacidad de razonamiento que distingue a Ring depende de la calidad consistente a lo largo de cadenas largas de razonamiento, y la cuantización agresiva acumula error de maneras que degradan el razonamiento más de lo que afecta la generación de respuesta directa.

Para fine-tuning en Ertas Studio: Ling/Ring QLoRA necesita aproximadamente 600-700GB de VRAM total (servidor multi-GPU). Para equipos sin esa escala, Ring como maestro para destilación de razonamiento matemático sobre bases más pequeñas (Qwen 32B en GPU de 40GB, Llama 70B en GPU de 48GB) es el camino más práctico para capturar los patrones de razonamiento de Ring a escala de infraestructura desplegable.

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →