Fine-Tune Ant Group Ling / Ring with Ertas

Ant Group 的万亿参数开源权重家族——Ling-2.5-1T（非思考模式，1M 上下文）和 Ring-2.5-1T（全球首个混合线性架构思考模型，在 IMO 2025 上以 35/42 分获得金牌等级，并在 CMO 2025 上同样夺金），以及 2026 年 4 月发布的 Ling-2.6-1T 更新版本。

1T (Ling/Ring 2.5)1T (Ling 2.6)Ant Group (inclusionAI)

Overview

Ant Group 通过其 inclusionAI 组织发布的 Ling 和 Ring 产品线，是 2026 年架构上最具特色的开源权重发布之一。两者都是 1 万亿参数模型——但通过不同的架构选择面向截然不同的用例。Ling-2.5-1T（2026 年 2 月 16 日发布）是一个非思考模式模型，拥有 100 万 token 上下文窗口，专为长上下文比扩展深思更重要的长上下文推理工作流设计。Ring-2.5-1T（同日发布）是全球首个混合线性架构思考模型，专门为推理密集型工作负载设计，强调扩展思维链优于上下文长度。

Ring-2.5-1T 的核心成果是在 IMO 2025（国际数学奥林匹克竞赛）上以 35/42 的金牌等级表现——这一成绩可与强劲的人类参赛者相媲美，并大幅超越大多数开源权重推理模型。Ring 在 CMO 2025（中国数学奥林匹克竞赛）上同样获得金牌等级表现。专门就数学推理而言，Ring-2.5-1T 是开源权重生态中能力最强的选择之一，其混合线性架构在相同规模下提供了纯 Transformer 替代方案无法匹敌的推理模式效率。

Ling 产品线在 2026 年 4 月 23 日通过 Ling-2.6-1T 进一步扩展——这是非思考模式变体的更新，在保持 1M 上下文定位的同时增强了能力。Ling 和 Ring 产品线被定位为互补关系而非竞争关系——团队可以同时部署两者用于不同的工作负载，由 Ling 处理长上下文任务，由 Ring 处理推理密集型任务。

Ant Group 作为一个严肃的开源权重提供者的崛起，是 2026 年值得注意的行业动向。虽然 Ant 多年来一直参与 AI 研究（主要通过阿里巴巴生态系统的关联），但 Ling/Ring 的发布代表了该公司首次在前沿规模上做出开源权重贡献。特别是混合线性架构创新使 Ant 成为一个值得关注的研究实验室，而不仅仅是部署工程组织。模型权重在 Hugging Face 上以 inclusionAI 组织名义提供。

Key Features

Ring-2.5-1T 中的混合线性架构是技术亮点。标准 Transformer 注意力机制在序列长度上具有平方级计算复杂度，使扩展推理成本高昂。线性注意力变体（Mamba、RWKV、Hyena）具有线性复杂度，但历史上质量较差。混合线性架构将两者结合——交错使用完整注意力层和线性注意力层，以捕获注意力的质量优势，同时大幅降低长推理轨迹的计算成本。Ring-2.5-1T 是该模式在思考模型中的首个前沿规模实现，IMO 2025 金牌等级的成绩证明混合方法没有牺牲推理质量。

IMO 2025 金牌等级的 35/42 分将 Ring-2.5-1T 列入数学推理能力最强的模型之列——无论是开源权重还是专有模型。IMO 题目需要持续的多步推理、谨慎的算术运算以及简单模式匹配无法实现的策略性问题求解。Ring 的得分可与强劲的人类参赛者相媲美，并大幅超越大多数早期开源权重推理模型。CMO（中国数学奥林匹克竞赛）金牌等级的表现进一步在不同问题分布上验证了这一结果。

Ling-2.5-1T 的 1M 上下文窗口结合非思考模式架构面向不同的用例画像。Ring 优化推理深度，而 Ling 优化上下文广度——长文档分析、多文档综合、万亿参数规模上的全代码库推理。非思考模式设计意味着 Ling 直接响应而无需扩展深思,为不需要思考模式的上下文密集型查询产生快速响应。

Ling-2.6-1T 4 月更新延续了非思考模式产品线的能力提升,同时保持 1M 上下文定位。对于在 Ling-2.5-1T 上运行生产工作流的团队,2.6 更新提供了可衡量的性能提升,而无需运营迁移成本,因为部署界面和提示模式保持兼容。

Fine-Tuning with Ertas

在 Ertas Studio 中对 Ling 和 Ring 进行微调,需要 1T 参数规模的多 GPU 服务器配置。QLoRA 训练在典型序列长度下需要约 600-700GB 总 VRAM,可在 8x A100 80GB 或 8x H100 80GB 服务器上运行。

对于大多数没有 8 GPU 服务器访问权限的团队,推荐采用师生蒸馏模式。Ring-2.5-1T 作为推理教师特别有效——其 IMO 等级的数学推理能力可转化为高质量的合成推理轨迹数据,然后可用于微调较小的基础模型(Qwen 32B、Llama 70B、DeepSeek-R1 蒸馏变体),以单 GPU 部署成本实现领域特定的推理能力。

Ring 中的混合线性架构需要 Ertas Studio 的 MoE 感知训练流程,以及对线性注意力层的特定处理——这种复杂性由平台自动处理,无需用户配置。训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 Ring 或 Ling 的对话模板,包括下游推理框架所需的架构规范。

专门就数学推理微调而言,Ring-2.5-1T 是开源权重生态中最强的基础模型。结合 Ertas Studio 对显式推理轨迹训练数据格式的支持,这使得为教育、研究或需要 IMO 等级能力的技术领域构建专业数学推理模型成为可能。

Use Cases

Ring-2.5-1T 面向数学推理、科学分析和结构化问题求解应用,在这些场景中 IMO 等级的推理能力确实重要。教育平台(高级数学辅导、竞赛数学训练)、研究辅助(数学文献分析、定理验证)和技术分析(工程计算、科学计算)都能从 Ring 强大的推理能力与混合线性架构效率的结合中受益。

Ling-2.5-1T 和 Ling-2.6-1T 面向长上下文、非推理工作负载。长文档分析(法律合同、监管文件、多卷技术文档)、多文档综合(文献综述、竞争情报)和全代码库推理都能受益于 Ling 的 1M 上下文与万亿参数容量的结合。非思考模式架构意味着响应速度快——适用于对延迟敏感的生产服务。

对于以前部署独立推理和聊天模型的团队,Ling + Ring 在统一的 Ant Group 基础设施下提供了互补配对。团队可以将推理密集型查询路由到 Ring,将上下文密集型查询路由到 Ling,两者通过兼容的推理基础设施部署。这在结构上类似于团队以前部署 DeepSeek-R1 + DeepSeek-V3 的方式,但具有 Ant Group 特定的架构优势。

对于对替代架构研究和部署感兴趣的团队,Ring-2.5-1T 是混合线性研究中特别有趣的可生产部署成果。大多数混合线性研究模型是较小的概念验证发布;Ring 在 1T 规模上证明了该架构在前沿规模下的可行性,开启了以前无法实现的生产部署选项。

Hardware Requirements

Ant Group Ling-2.5-1T 或 Ring-2.5-1T 在 Q4_K_M 量化下约需 540GB 内存,可在 8x A100 80GB 或 8x H100 80GB 服务器上运行。CPU 推理在拥有 768GB+ RAM 的主机上可行,但吞吐量远低于 GPU 部署。

对于较小的部署,Q3_K_M 量化(约 405GB)以适度的质量换取减少的内存占用,可在 4x H100 80GB 服务器上留有余量地运行。不建议将量化降到 Q3 以下用于生产部署——区分 Ring 的推理能力依赖于在长推理链上保持一致的质量,激进的量化以会降低推理能力的方式累积误差,程度超过对直接响应生成的影响。

在 Ertas Studio 中微调时:Ling/Ring QLoRA 需要约 600-700GB 总 VRAM(多 GPU 服务器)。对于没有该规模的团队,使用 Ring 作为数学推理蒸馏的教师,蒸馏到较小的基础模型(40GB GPU 上的 Qwen 32B、48GB GPU 上的 Llama 70B),是在可部署基础设施规模上捕获 Ring 推理模式最实用的路径。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →