AI Models

Open-source models you can fine-tune with Ertas.

Ant Group Ling / Ring

Ant Group (inclusionAI)

Ant Group 的万亿参数开源权重家族——Ling-2.5-1T（非思考模式，1M 上下文）和 Ring-2.5-1T（全球首个混合线性架构思考模型，在 IMO 2025 上以 35/42 分获得金牌等级，并在 CMO 2025 上同样夺金），以及 2026 年 4 月发布的 Ling-2.6-1T 更新版本。

1T (Ling/Ring 2.5)1T (Ling 2.6)

Apertus

Swiss AI Initiative (ETH Zurich + EPFL + CSCS)

瑞士的开源权重基础模型家族——完全开放权重、训练数据与方案，按 Apache 2.0 发布，对 1,000+ 种语言提供一流支持，并明确对齐欧盟 AI 法案与瑞士数据保护要求。

Arcee Trinity Large

Arcee AI

Arcee AI 2026 年 1 月的发布——4000 亿参数的专家混合模型，130 亿活跃参数，256 个专家（每个 token 激活 4 个），17 万亿训练 token，在 2048 块 NVIDIA B300 芯片上训练 30-33 天。是 2026 年除 OLMo 3 与 GPT-OSS 之外为数不多的美国本土前沿开放权重模型之一。

Code Llama

Meta

Meta 基于 Llama 2 构建的专业代码生成模型家族，提供 7B、13B、34B 和 70B 四种规模，包含针对代码补全、指令遵循和 Python 开发优化的变体。

Command R

Cohere

Cohere 面向企业的模型家族，提供 35B 和 104B 两种规模，专为检索增强生成（RAG）而设计，具有原生引用支持、工具使用和支持 10 多种语言的多语言能力。

DeepSeek V3.2

DeepSeek

DeepSeek 2025 年末发布的版本，引入了 DeepSeek Sparse Attention (DSA)——一种学习型稀疏注意力机制，支持高效长上下文推理，并配有统一思考模式开关。DeepSeek V4 的直接前身。MIT 风格许可。

DeepSeek V4

DeepSeek

DeepSeek 2026 年 4 月旗舰版本——一个 1.6 万亿参数的专家混合 (MoE) 模型，活跃参数 49B，上下文长度 100 万 token，目前在综合开源权重智能基准上领先，据报道正在缩小与前沿闭源模型的差距。

284B-A13B (Flash)1.6T-A49B (Pro)

DeepSeek-R1

DeepSeek

DeepSeek 的专用推理模型，通过强化学习训练执行扩展思维链推理，提供从 1.5B 到 70B 的蒸馏版本以及完整的 671B 混合专家架构。

DeepSeek-V3

DeepSeek

DeepSeek 的旗舰 6710 亿参数混合专家模型，每个 token 激活 37B 参数，以极高的推理效率提供前沿级通用性能。

671B (37B active)

Devstral 2

Mistral AI

Mistral AI 的编码专业化开源权重家族——Devstral 2 (123B) 和 Devstral Small 2 (24B),123B 变体在 SWE-Bench Verified 上得分 72.2%,24B 可在消费级硬件上运行。作为编码专家产品线发布,后于 2026 年 3 月被吸收进 Mistral Small 4 的统一架构。

24B (Small 2)123B

Falcon

TII Abu Dhabi

技术创新研究院的开放权重模型家族，提供 7B、40B 和 180B 三种规模，在大规模 RefinedWeb 数据集上训练，率先展示了高质量过滤网络数据用于大语言模型训练的可行性。

Falcon H1R-7B

TII

TII 于 2026 年 1 月推出的混合 Mamba+Transformer 架构——一个 70 亿参数、支持 256K 上下文的模型,在 AIME 2025 上得分 83.1%,在数学基准上超过参数规模为其 7 倍的推理模型。

Falcon-H1 Arabic

TII

技术创新研究院 (TII) 2026 年 1 月发布的阿拉伯语专业化版本——三种规模(3B、7B、34B),采用混合 Mamba+Transformer 架构,领先 Open Arabic LLM Leaderboard。34B 变体在阿拉伯语特定基准测试上以不到一半的参数量超越 Llama 3.3 70B。

Falcon-H1-Tiny

TII

技术创新研究院 (TII) 2026 年 1 月发布的超小型模型集合——15 个不到 1 亿参数的变体,加上一个 6 亿参数推理模型 (Falcon-H1-Tiny-R-0.6B),全部使用混合 Mamba+Transformer 架构,是 2026 年浏览器和微控制器部署中最小可行的大语言模型。

FunctionGemma

Google

Google 的 270M 参数专用工具调用模型——一个 Gemma 3 衍生模型，专为将自然语言意图映射到函数调用而训练。它是开源权重生态中最小的可信函数调用模型，并明确邀请你针对自己的工具 schema 进行微调。

Gemma 3

Google

Google 基于 Gemini 技术构建的最新开放权重模型家族，提供 1B、4B、12B 和 27B 四种规模，具有原生多模态视觉-语言能力和 128K token 上下文窗口。

Gemma 4

Google

Google 2026 年 4 月开源权重模型家族——首个以 Apache 2.0 发布的 Gemma 代际，包含一个稠密 31B 旗舰、一个 26B-A3.8B 专家混合 (MoE) 变体，以及面向边缘优化的 4B 和 2B 模型，全部具备原生多模态能力。

2B (e2b)4B (e4b)26B-A3.8B

GLM-4.5

Z.ai

Z.ai 2025 年 7 月专家混合版本——3550 亿总参数，每 token 320 亿活跃参数，设计运行于 8× 华为昇腾 H20 芯片。GLM-5 旗舰的主力前身。

GLM-4.6

Z.ai

Z.ai 2025 年末的中端发布——3550 亿参数的专家混合模型，200K 上下文，编码能力接近 Claude Sonnet 4，相较前代每任务所用 token 数减少约 15%。配套的视觉变体 GLM-4.6V（106B 与 9B）将该家族扩展至多模态用例。

GLM-4.7

Z.ai

Z.ai 2025 年 12 月聚焦编码的发布——约 4000 亿参数的专家混合模型，具备「保留思考」（Preserved Thinking）多轮推理能力，并配有面向生产服务的小型 GLM-4.7 Flash 变体。在被 GLM-5 系列接替之前，曾在发布之际登顶开放权重模型 Code Arena。

~400B (Flagship)Flash (smaller)

GLM-5

Z.ai

Z.ai 2026 年 2 月旗舰——一个 7450 亿参数模型，在华为昇腾芯片上训练，是 GLM-5 系列的基础，2026 年 4 月的 GLM-5.1 更新带来了大量后训练改进。Z.ai 于 2026 年 1 月在港交所上市。

GLM-5.1

Z.ai

Z.ai 于 2026 年 4 月 8 日对 GLM-5 的更新——相同的 7450 亿参数基础架构，配以精炼的后训练，带来 28% 的编码改进、8 小时自主运行能力，以及一度让开源权重模型在 SWE-Bench Pro 上领先于 GPT-5.4 和 Claude Opus 4.6 的成绩。

GPT-OSS

OpenAI

OpenAI 自 GPT-2 以来的首个开放权重模型发布——一个专家混合模型家族,包括 117B/5.1B 活跃参数的 GPT-OSS-120B 旗舰款和更小的 21B/3.6B 活跃参数 GPT-OSS-20B 变体,于 2025 年 8 月以 Apache 2.0 许可发布。

21B-A3.6B (20b)117B-A5.1B (120b)

Hermes 4

Nous Research

Nous Research 2025 年 8 月模型家族——基于 Llama-3.1 的微调，规模为 14B、70B 和 405B，通过显式思考 token 实现混合推理，采用中立对齐的后训练，使用 Atropos 强化学习系统在约 600 亿 token 上训练，含约 1000 个任务专项验证器。

IBM Granite 4.1

IBM

IBM 2026 年 4 月 29 日发布的企业级版本——稠密模型家族,包含 3B、8B 和 30B 三个规模,以及 Embedding R2 和 2B 语音变体。8B Instruct 在基准测试上匹敌上一代 Granite 4.0 32B MoE。Apache 2.0 许可,覆盖 12 种以上语言。

InternLM

Shanghai AI Lab

上海人工智能实验室的多语言模型系列，提供 7B 和 20B 两种规模，具有强大的中英文能力、长上下文支持以及在推理和工具使用基准测试上的出色表现。

Kimi K2

Moonshot AI

Moonshot AI 2025 年首版万亿参数专家混合模型——Kimi K2 系列的基础，K2.5 以 99.0 分创下开源权重 HumanEval 纪录，K2.6 引入 Agent Swarm 编排。修改版 MIT 许可。

Kimi K2.5

Moonshot AI

Moonshot AI 于 2026 年 1 月发布的版本——首个多模态 Kimi 模型,在 K2 系列 1T 参数专家混合架构上加入 MoonViT-3D 视觉编码器。创下 99.0 的开放权重 HumanEval 纪录,并首次引入 100 智能体集群运行时,后由 K2.6 扩展至 300。

Kimi K2.6

Moonshot AI

Moonshot AI 2026 年 4 月发布：一个 1 万亿参数的专家混合 (MoE) 模型，活跃参数 32B，原生支持视觉，并具备出色的 Agent Swarm 能力，可在 4000 步内扩展到 300 个协调子智能体，用于长程编码和研究任务。

Llama 3

Meta

Meta 第三代开放权重大语言模型家族，在推理、代码生成和多语言任务方面实现了最先进的性能，提供 8B、70B 和 405B 三种参数规格。

Llama 4

Meta

Meta 第四代开放权重模型家族，采用混合专家架构，包括用于高效部署的 Scout（109B 总参数，17B 活跃）和用于高能力任务的 Maverick（400B 总参数，17B 活跃）。

Scout 109B (17B active)Maverick 400B (17B active)

Magistral

Mistral AI

Mistral AI 的专属推理模型系列——Magistral Medium 1.2(magistral-medium-2509)和 Magistral Small 1.2(magistral-small-2509)——专注于扩展思维链能力,后续该系列被统一并入 Mistral Small 4。

MiMo V2.5

Xiaomi

小米 2026 年 4 月 28 日发布的中端版本——3100 亿参数的专家混合 (MoE) 模型,活跃参数 15B,采用 MIT 许可,与更大的 MiMo V2.5 Pro 旗舰版同期发布。MiMo 家族中面向不需要完整 Pro 基础设施团队的可部署中端版本。

MiMo V2.5 Pro

Xiaomi

小米 2026 年 4 月旗舰版本——一个 1.02 万亿参数的专家混合 (MoE) 模型，活跃参数 42B，上下文长度 100 万 token，采用 MIT 许可证，据报道在 SWE-Bench Pro 智能体编码任务上的基准成绩超越了 Claude Opus 4.6。

MiniMax M2.5

MiniMax

MiniMax 旗舰编码模型——目前在开放权重模型中以 80.2% 的成绩领跑 SWE-Bench Verified 榜单,专为智能体编码工作负载设计。后续的 M2.7 版本继续延展该产品线。

MiniMax M2.7

MiniMax

MiniMax 2026 年 3 月发布的自进化模型——通过 100 多轮自主强化学习改进，具备原生推理、205K 上下文，并能自主完成 30-50% 的强化学习研究工作流。M2.5（此前 SWE-Bench Verified 80.2% 的领跑者）的继任者。

Mistral 7B

Mistral AI

Mistral AI 的基础 70 亿参数模型，性能远超其体量级别，采用滑动窗口注意力和分组查询注意力实现高效的长上下文推理。

Mistral Small 4

Mistral AI

Mistral 于 2026 年 3 月发布的版本,将原本独立的 Magistral(推理)、Devstral(编码代理)和 Mistral Small(指令微调)三条产品线统一为单一的 119B 专家混合模型,活跃参数为 6B,基于 Apache 2.0 发布。

Mixtral

Mistral AI

Mistral AI 的混合专家模型，将每个 token 路由通过 8 个专家网络中的 2 个，8x7B 变体以 13B 稠密模型的成本提供 70B 级别的性能。

Nemotron 3 Nano Omni

NVIDIA

NVIDIA 2026 年 4 月 29 日发布的全模态模型——300 亿参数的专家混合架构，每个 token 激活约 30 亿活跃参数，统一处理文本/视觉/音频/图像，在视频工作负载上的吞吐量是其他开源全模态模型的 9 倍，仅需 25GB 内存即可部署。发布时已有的生产采用方包括：富士康（Foxconn）、Palantir、Oracle、DocuSign。

Neural Chat

Intel

Intel 基于 Mistral 7B 微调的 70 亿参数对话模型，针对 Intel 硬件优化，展示了出色的聊天性能并特别注重 CPU 推理效率。

OLMo

Allen AI

Allen Institute for AI 的全面开放语言模型家族，提供 1B、7B 和 13B 三种规模，完全开放训练数据、代码、权重和评估——为可复现的 AI 研究树立了标杆。

OpenChat

OpenChat

基于 Mistral 7B 使用条件强化学习微调（C-RLFT）训练的 70 亿参数模型，通过创新的混合质量数据训练方法达到了 GPT-3.5 级别的性能。

Phi-3

Microsoft

Microsoft 紧凑而强大的语言模型家族，提供 3.8B、7B 和 14B 三种规模，专为设备端和边缘部署设计，在推理和指令遵循任务上表现令人惊喜。

Phi-4

Microsoft

Microsoft 的 140 亿参数小语言模型，通过合成数据训练强调推理质量，在数学和逻辑基准测试上达到了与数倍规模模型相当的性能。

Qwen 2.5

Alibaba

阿里巴巴全面的开放权重模型家族，从 0.5B 到 72B 共七种规模，在 29 种以上语言中具有特别强大的多语言和编码能力。

Qwen 3

Alibaba

阿里巴巴最新一代模型家族，同时提供稠密和混合专家架构，规模从 0.6B 到 235B，内置混合思维模式可自适应推理深度。

Qwen 3.5

Alibaba

阿里巴巴 2026 年 2 月旗舰推理版本——397B-A17B 专家混合模型，目前在开源权重 GPQA Diamond 基准上以 88.4 分领先，并配有从 0.8B 到 122B-A10B 的同代变体。Apache 2.0 许可。

Qwen 3.6

Alibaba

阿里巴巴 2026 年 4 月旗舰版本：包含一个完全稠密的 27B 变体（在编码任务上超越上一代 397B 推理模型），以及一个用于超高效推理的 35B-A3B 专家混合 (MoE) 变体，全部以 Apache 2.0 许可发布。

Qwen3-Coder

Alibaba

阿里巴巴的专用编码模型产品线——包括具有 256K-1M 上下文的 480B-A35B Qwen3-Coder 旗舰，以及 80B-A3B Qwen3-Coder-Next，二者均原生面向 Claude Code、Cline 和 Qwen Code 风格的智能体编码 CLI。Apache 2.0 许可。

30B-A3B80B-A3B (Next)480B-A35B

Qwen3-Coder-Next

Alibaba

阿里巴巴于 2026 年 2 月推出的小巨人版本——一个 800 亿参数的专家混合模型,每 token 仅活跃 3B 参数,在编码基准上超越 DeepSeek V3.2(37B 活跃)、Kimi K2.5 和 GLM-4.7(各 32B 活跃),活跃参数却少 10 倍。Apache 2.0 许可,256K 上下文。

Qwen3-Omni

Alibaba

阿里巴巴的全模态模型——在单一 30B-A3B 专家混合检查点中接受文本、图像、音频和视频输入，并输出文本以及实时语音。Apache 2.0 许可。

Qwen3.5-Omni

Alibaba

阿里巴巴 2026 年 3 月 30 日发布的全模态模型——包含 Plus、Flash 和 Light 三个变体，支持 113 种语言的语音输入、256K 上下文窗口（10 小时音频或 400 秒 720p 视频），在音频基准测试上超越 Gemini 3.1 Pro。Qwen3-Omni 在架构和能力层面的继任者。

Light (edge)Flash (latency)Plus (flagship)

SmolLM

HuggingFace

HuggingFace 的超紧凑语言模型家族，提供 135M、360M 和 1.7B 三种规模，在高质量 Cosmopedia 合成数据集上训练，专为资源需求最低的设备端 AI 应用设计。

SOLAR

Upstage

Upstage 通过深度扩展技术创建的 107 亿参数模型，这是一种新颖的技术，通过合并和扩展预训练模型的层来以高效的推理成本达到更大模型的质量。

StarCoder

BigCode / HuggingFace

在宽松许可源代码上训练的开放获取代码生成模型，提供 3B、7B 和 15B 三种规模，具有透明的训练数据治理和强大的多编程语言支持。

StepFun Step-3.5-Flash

StepFun

StepFun 2026 年 2 月发布的小巨人——1960 亿参数的专家混合 (MoE) 模型,活跃参数仅 11B,在智能体、推理和编码基准测试上以 3-5 倍更小的规模超越 Kimi K2.5 (1T) 和 DeepSeek V3.2 (671B)。Apache 2.0 许可,在 Hopper GPU 上以 128K 上下文实现每秒 100 token。

Tencent Hy3 (Hunyuan 3) Preview

Tencent

腾讯 2026 年 4 月 23 日的回归之作——2950 亿参数的专家混合模型，每个 token 激活 210 亿活跃参数，外加 38 亿参数的多 Token 预测（MTP）模块，在前 OpenAI 研究员姚顺雨主导下、对 Hunyuan 基础设施完成全面重建后用 90 天打造而成。256K 上下文，在数学、代码和多语言基准上表现强劲。

295B-A21B + 3.8B MTP

TinyLlama

TinyLlama Team

一个 11 亿参数的紧凑模型，在 3 万亿个 token 上训练——远超同等规模的典型训练量——为边缘部署、移动应用和资源受限环境提供了令人惊喜的性能。

Vicuna

LMSYS

LMSYS 的指令调优模型家族，提供 7B、13B 和 33B 三种规模，基于 Llama 在 ShareGPT 对话上微调，因开创性的开源聊天机器人评估方法而广受认可。

xLAM

Salesforce AI Research

Salesforce 的开源权重 Large Action Model 家族——专为规划、调用工具、执行多步骤动作而训练的小型模型，在 vLLM、llama.cpp 与 Berkeley Function Calling Leaderboard 生态中具备一流支持。

Yi

01.AI

01.AI 的中英双语模型家族，提供 6B、9B 和 34B 三种规模，在中文和英文基准测试上均表现出色，具有优秀的指令遵循能力。

Zephyr

HuggingFace

HuggingFace 基于 Mistral 7B 使用蒸馏直接偏好优化（dDPO）微调的 70 亿参数模型，证明了对齐技术可以在无需人类偏好数据的情况下产生高度优秀的聊天模型。