Fine-Tune Ant Group Ling / Ring with Ertas
Ant Group 的万亿参数开源权重家族——Ling-2.5-1T(非思考模式,1M 上下文)和 Ring-2.5-1T(全球首个混合线性架构思考模型,在 IMO 2025 上以 35/42 分获得金牌等级,并在 CMO 2025 上同样夺金),以及 2026 年 4 月发布的 Ling-2.6-1T 更新版本。
Overview
Ant Group 通过其 inclusionAI 组织发布的 Ling 和 Ring 产品线,是 2026 年架构上最具特色的开源权重发布之一。两者都是 1 万亿参数模型——但通过不同的架构选 择面向截然不同的用例。Ling-2.5-1T(2026 年 2 月 16 日发布)是一个非思考模式模型,拥有 100 万 token 上下文窗口,专为长上下文比扩展深思更重要的长上下文推理工作流设计。Ring-2.5-1T(同日发布)是全球首个混合线性架构思考模型,专门为推理密集型工作负载设计,强调扩展思维链优于上下文长度。
Ring-2.5-1T 的核心成果是在 IMO 2025(国际数学奥林匹克竞赛)上以 35/42 的金牌等级表现——这一成绩可与强劲的人类参赛者相媲美,并大幅超越大多数开源权重推理模型。Ring 在 CMO 2025(中国数学奥林匹克竞赛)上同样获得金牌等级表现。专门就数学推理而言,Ring-2.5-1T 是开源权重生态中能力最强的选择之一,其混合线性架构在相同规模下提供了纯 Transformer 替代方案无法匹敌的推理模式效率。
Ling 产品线在 2026 年 4 月 23 日通过 Ling-2.6-1T 进一步扩展——这是非思考模式变体的更新,在保持 1M 上下文定位的同时增强了能力。Ling 和 Ring 产品线被定位为互补关系而非竞争关系——团队可以同时部署两者用于不同的工作负载,由 Ling 处理长上下文任务,由 Ring 处理推理密集型任务。
Ant Group 作为一个严肃的开源权重提供者的崛起,是 2026 年值得注意的行业动向。虽然 Ant 多年来一直参与 AI 研究(主要通过阿里巴巴生态系统的关联),但 Ling/Ring 的发布代表了该公司首次在前沿规模上做出开源权重贡献。特别是混合线性架构创新使 Ant 成为一个值得关注的研究实验室,而不仅仅是部署工程组织。模型权重在 Hugging Face 上以 inclusionAI 组织名义提供。
Key Features
Ring-2.5-1T 中的混合线性架构是技术亮点。标准 Transformer 注意力机制在序列长度上具有平方级计算复杂度,使扩展推理成本高昂。线性注意力变体(Mamba、RWKV、Hyena)具有线性复杂度,但历史上质量较差。混合线性架构将两者结合——交错使用完整注意力层和线性注意力层,以捕获注意力的质量优势,同时大幅降低长推理轨迹的计算成本。Ring-2.5-1T 是该模式在思考模型中的首个前沿规模实现,IMO 2025 金牌等级的成绩证明混合方法没有牺牲推理质量。
IMO 2025 金牌等级的 35/42 分将 Ring-2.5-1T 列入数学推理能力最强的模型之列——无论是开源权重还是专有模型。IMO 题目需要持续的多步推理、谨慎的算术运算以及简单模式匹配无法实现的策略性问题求解。Ring 的得分可与强劲的人类参赛者相媲美,并大幅超越大多数早期开源权重推理模型。CMO(中国数学奥林匹克竞赛)金牌等级的表现进一步在不同问题分布上验证了这一结果。
Ling-2.5-1T 的 1M 上下文窗口结合非思考模式架构面向不同的用例画像。Ring 优化推理深度,而 Ling 优化上下文广度——长文档分析、多文档综合、万亿参数规模上的全代码库推理。非思考模式设计意味着 Ling 直接响应而无需扩展深思,为不需要思考模式的上下文密集型查询产生快速响应。
Ling-2.6-1T 4 月更新延续了非思考模式产品线的能力提升,同时保持 1M 上下文定位。对于在 Ling-2.5-1T 上运行生产工作流的团队,2.6 更新提供了可衡量的性能提升,而无需运营迁移成本,因为部署界面和提示模式保持兼容。
Fine-Tuning with Ertas
在 Ertas Studio 中对 Ling 和 Ring 进行微调,需要 1T 参数规模的多 GPU 服务器配置。QLoRA 训练在典型序列长度下需要约 600-700GB 总 VRAM,可在 8x A100 80GB 或 8x H100 80GB 服务器上运行。
对于大多数没有 8 GPU 服务器访问权限的团队,推荐采用师生蒸馏模式。Ring-2.5-1T 作为推理教师特别有效——其 IMO 等级的数学推理能力可转化为高质量的合成推理轨迹数据,然后可用于微调较小的基础模型(Qwen 32B、Llama 70B、DeepSeek-R1 蒸馏变体),以单 GPU 部署成本实现领域特定的推理能力。
Ring 中的混合线性架构需要 Ertas Studio 的 MoE 感知训练流程,以及对线性注意力层的特定处理——这种复杂性由平台自动处理,无需用户配置。训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 Ring 或 Ling 的对话模板,包括下游推理框架所需的架构规范。
专门就数学推理微调而言,Ring-2.5-1T 是开源权重生态中最强的基础模型。结合 Ertas Studio 对显式推理轨迹训练数据格式的支持,这使得为教育、研究或需要 IMO 等级能力的技术领域构建专业数学推理模型成为可能。
Use Cases
Ring-2.5-1T 面向数学推理、科学分析和结构化问题求解应用,在这些场景中 IMO 等级的推理能力确实重要。教育平台(高级数学辅导、竞赛数学训练)、研究辅助(数学文献分析、定理验证)和技术分析(工程计算、科学计算)都能从 Ring 强大的推理能力与混合线性架构效率的结合中受益。
Ling-2.5-1T 和 Ling-2.6-1T 面向长上下文、非推理工作负载。长文档分析(法律合同、监管文件、多卷技术文档)、多文档综合(文献综述、竞争情报)和全代码库推理都能受益于 Ling 的 1M 上下文与万亿参数容量的结合。非思考模式架构意味着响应速度快——适用于对延迟敏感的生产服务。
对于以前部署独立推理和聊天模型的团队,Ling + Ring 在统一的 Ant Group 基础设施下提供了互补配对。团队可以将推理密集型查询路由到 Ring,将上下文密集型查询路由到 Ling,两者通过兼容的推理基础设施部署。这在结构上类似于团队以前部署 DeepSeek-R1 + DeepSeek-V3 的方式,但具有 Ant Group 特定的架构优势。
对于对替代架构研究和部署感兴趣的团队,Ring-2.5-1T 是混合线性研究中特别有趣的可生产部署成果。大多数混合线性研究模型是较小的概念验证发布;Ring 在 1T 规模上证明了该架构在前沿规模下的可行性,开启了以前无法实现的生产部署选项。
Hardware Requirements
Ant Group Ling-2.5-1T 或 Ring-2.5-1T 在 Q4_K_M 量化下约需 540GB 内存,可在 8x A100 80GB 或 8x H100 80GB 服务器上运行。CPU 推理在拥有 768GB+ RAM 的主机上可行,但吞吐量远低于 GPU 部署。
对于较小的部署,Q3_K_M 量化(约 405GB)以适度的质量换取减少的内存占用,可在 4x H100 80GB 服务器上留有余量地运行。不建议将量化降到 Q3 以下用于生产部署——区分 Ring 的推理能力依赖于在长推理链上保持一致的质量,激进的量化以会降低推理能力的方式累积误差,程度超过对直接响应生成的影响。
在 Ertas Studio 中微调时:Ling/Ring QLoRA 需要约 600-700GB 总 VRAM(多 GPU 服务器)。对于没有该规模的团队,使用 Ring 作为数学推理蒸馏的教师,蒸馏到较小的基础模型(40GB GPU 上的 Qwen 32B、48GB GPU 上的 Llama 70B),是在可部署基础设施规模上捕获 Ring 推理模式最实用的路径。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.