Fine-Tune Arcee Trinity Large with Ertas

Arcee AI 2026 年 1 月的发布——4000 亿参数的专家混合模型，130 亿活跃参数，256 个专家（每个 token 激活 4 个），17 万亿训练 token，在 2048 块 NVIDIA B300 芯片上训练 30-33 天。是 2026 年除 OLMo 3 与 GPT-OSS 之外为数不多的美国本土前沿开放权重模型之一。

400B-A13BArcee AI

Overview

Arcee Trinity Large 由 Arcee AI 于 2026 年 1 月底发布，是 2026 年罕见的美国本土前沿规模开放权重模型之一。其架构为 4000 亿参数的专家混合，每个 token 激活约 130 亿活跃参数，组织为 256 个专家、采用 top-4 路由。Trinity Large 在 2048 块 NVIDIA B300 GPU 集群上以 30-33 天训练于 17 万亿 token 之上，代表了相当规模的单模型训练投入。

Arcee 发布了两个变体：Trinity Large Preview（2026 年 1 月 27 日）——初始训练完成检查点；以及 Trinity Large Thinking（2026 年 4 月 1 日）——一个通过定向后训练新增延伸思维链能力的推理导向微调版本。Thinking 变体被定位为基础 Trinity Large 的推理模式补充，精神上类似于上一代中 DeepSeek-R1 与 DeepSeek-V3 的关系。

Arcee 在 2026 年开放权重生态中的重要性主要并不在于基准领先——Trinity Large 并未登顶由 DeepSeek V4、Kimi K2.6 或 MiMo V2.5 Pro 占据的排行榜。其意义在于结构性：Trinity Large 是极少数美国本土前沿开放权重模型之一，与之并列的还有 OLMo 3（Allen AI）和 GPT-OSS（OpenAI）。对关心供应链多元化、或具体希望获得替代 2026 年中国实验室主导排行榜的美国本土发展替代方案的组织而言，Arcee Trinity Large 是一个值得关注的选项。

TechCrunch 对 Trinity Large 的报道强调了「小型创业公司对阵 Meta」的叙事——Arcee 是一家相对较小的美国 AI 创业公司，在训练规模上与规模大得多的组织竞争。该公司成功完成 30 天训练运行并发布可部署模型，证明了前沿规模的开放权重训练对资源充足的创业公司而言是可及的，而不仅限于在位巨头。

权重可在 Hugging Face 上 arcee-ai 组织名下获取。许可证属于开放权重，其条款适合商业部署。

Key Features

采用 top-4 路由的 256 专家架构相较大多数同代模型更为激进。在 DeepSeek V4 使用约 256 个专家配 top-8、Mistral Small 4 使用更少专家配更小活跃数、Mixtral 时代 MoE 使用 8 个专家配 top-2 的对比下，Arcee Trinity Large 的设计点——多专家加上相对窄的活跃路由——可在 token 类型与领域间产生尤为细粒度的专门化。这一架构选择有助于该模型在 130 亿活跃参数的推理成本下仍具有强劲的推理表现。

美国本土前沿开放权重在 2026 年生态中是一项有意义的结构性特征。占主导的开放权重模型供应商（阿里巴巴、DeepSeek、Moonshot、Z.ai、小米、MiniMax、腾讯、蚂蚁集团）总部均在中国实验室。Arcee Trinity Large 在前沿规模上提供了美国本土发展的替代方案，与 OLMo 3（Allen AI 的完全开放发布）以及 GPT-OSS（OpenAI 自 GPT-2 以来的首个开放权重发布）一同填补了结构性空白。对于因监管或战略原因偏好非中国实验室模型的组织而言，Trinity Large 是为数不多的真实选项之一。

Thinking 变体将 Trinity Large 扩展至推理导向工作负载。该变体于 2026 年 4 月 1 日发布，通过定向后训练发展出延伸思维链能力。结合更宽泛的 Trinity Large 架构，这产出了一个具备推理能力的模型，其部署经济性显著优于仅在万亿参数规模下方能达到推理能力的替代方案。

17 万亿 token 的训练语料与领先的 2026 年开放权重发布相当。尽管 Trinity Large 并未在任何特定基准类别中独领风骚，但宽泛的训练语料在多元领域上产生了一致的能力表现——这对通用部署而言是一项有用的特质。

Fine-Tuning with Ertas

在 Ertas Studio 中对 Arcee Trinity Large 微调通过标准的 MoE 训练流水线进行。每个 token 130 亿活跃参数，QLoRA 训练相比更大的 MoE 旗舰更为可及——在典型序列长度下可装入单块 80GB GPU，或拆分到两块 48GB GPU 上。

针对 256 专家架构本身，Ertas Studio 自动处理低秩适配过程中的专家路由稳定性。细粒度的专家专门化使 Trinity Large 尤为适合用于领域特化微调——不同专家可针对不同子领域模式进行有效再训练，而不会影响模型更宽泛的行为。

针对推理微调，Thinking 变体基础是天然起点。Ertas Studio 支持带显式推理轨迹的训练数据格式，可在领域特定微调中保留思维链能力。微调后的变体在保留底层推理能力的同时，专门化于您领域中的特定推理模式。

训练完成后，Ertas Studio 导出为 GGUF 格式，并完整保留 Trinity Large 对话模板。Q4_K_M 量化约 230GB——属于多 GPU 服务器部署范畴——但 130 亿的活跃参数量使部署后的推理经济性有利。

Use Cases

Trinity Large 的主要用例反映了其在 2026 年生态中的结构性位置。出于监管或战略原因偏好美国本土开发的开放权重模型的组织——政府承包商、与国防相邻的应用、对供应商管辖区有偏好的受监管行业、追求供应链多元化的基础设施战略——会发现 Trinity Large 是前沿规模上为数不多的真实选项之一。

对于通用生产部署，Trinity Large 在第二梯队旗舰层级是 GLM-5 或 Mistral Small 4 的可信替代品。130 亿活跃参数的推理经济性有利于高吞吐 API 服务，256 专家架构在多元领域间提供良好的质量，且许可支持无限制的商业部署。

Thinking 变体面向推理密集型应用——研究辅助、科学分析、复杂代码生成、结构化深思任务。对于此前将 DeepSeek-V3（对话）与 DeepSeek-R1（推理）配对、并希望在单一美国本土替代方案上整合的团队，Trinity Large + Trinity Large Thinking 提供了兼容的配对。

针对领域特化微调 Trinity Large 是一个天然用例。256 专家架构的细粒度专门化使其尤为适合产出在保留宽泛能力的同时在特定子领域中表现卓越的领域特化模型。对于具备大量领域特定训练数据和具体质量要求的团队，Trinity Large 是强有力的基础。

Hardware Requirements

Arcee Trinity Large 在 Q4_K_M 量化下约需 230GB 内存，可在 4x A100 80GB 或 4x H100 80GB 服务器上运行，或在配备 384GB+ RAM 的 CPU 推理主机上运行。130 亿的活跃参数量决定了加载后的 token 生成吞吐——在合适的服务器硬件上对生产服务而言较为合理。

对于较小的部署，Q3_K_M 量化（约 175GB）以适度的质量换取减少的内存，可在 2x H100 80GB 或 3x A100 80GB 配置上运行。低于 Q3 不推荐用于生产部署——使 Trinity Large 区别于其他模型的细粒度专家专门化依赖于 256 专家路由中的一致质量，而激进的量化会影响路由稳定性。

在 Ertas Studio 中微调时：Trinity Large QLoRA 在典型序列长度下需要约 100-150GB 总 VRAM，可在单块 80GB GPU 上运行，或在两块 48GB GPU 上以模型并行运行。130 亿活跃参数的 MoE 架构使训练效率显著高于微调等效质量的稠密替代方案。Thinking 变体的微调硬件需求与之相同。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →