Fine-Tune Apertus with Ertas

瑞士的开源权重基础模型家族——完全开放权重、训练数据与方案，按 Apache 2.0 发布，对 1,000+ 种语言提供一流支持，并明确对齐欧盟 AI 法案与瑞士数据保护要求。

8B70BSwiss AI Initiative (ETH Zurich + EPFL + CSCS)

Overview

Apertus 是瑞士 AI 倡议的开源权重基础模型——由苏黎世联邦理工学院 (ETH Zurich)、洛桑联邦理工学院 (EPFL) 与瑞士国家超级计算中心 (CSCS) 协作完成。它于 2025 年末发布，并在 2026 年大幅升级，作为对 Llama、Qwen 与 Mistral 家族的欧洲回应。'Apertus' 在拉丁文中意为'开放'，该项目的标志性承诺是彻底开放：权重、训练数据、训练方案、评估数据与模型卡全部公开，所有内容均按 Apache 2.0 发布。

这对两个不同受众都至关重要。对欧洲企业与受监管行业团队，Apertus 是通往全程可审计来源的模型的最干净路径——这在欧盟 AI 法案的透明度要求与瑞士数据保护规则下具有显著优势。对多语言应用，Apertus 与众不同：训练数据覆盖 1,000+ 种语言（包括对低资源欧洲语言、瑞士德语方言与主流开源模型欠权重的非洲语言的大量覆盖），且其多语言评估在重叠语言上与 Qwen 3 与 Llama 4 有竞争力。

该家族提供 8B 与 70B 稠密变体。两者共享相同训练语料、相同分词器与相同对齐方案，这使 8B 成为开发阶段的有用实验室级替身，再扩展到 70B 用于部署。CSCS 提供公共推理端点，模型在 Hugging Face 上以 `swiss-ai/Apertus-8B` 和 `swiss-ai/Apertus-70B` 提供。

Key Features

整个技术栈的 Apache 2.0 授权——权重、代码与训练数据——是头号特性。这比 Llama（自定义社区许可证）更宽松，与 Mistral、Qwen 与 Gemma 4 的许可立场相同。对商业用户，再分发与衍生作品被明确允许，无需单独协商。

完整的训练数据透明是 Apertus 的特色。大多数开源权重模型——包括许多名义上'开源'的——发布权重而不发布训练数据。Apertus 的训练语料公开、有文档、可过滤；从原始来源到最终检查点的数据血统可重建。对于欧盟 AI 法案合规以及自身数据治理政策要求模型来源可审计的组织，这把以前的结构性阻碍转化为可解决的尽职调查问题。

多语言覆盖异常广泛。大多数开源权重模型集中于英语加上 20–100 种语言的精选集，而 Apertus 的分词器与训练语料跨越 1,000+ 种语言，刻意强调欧洲多语言性（包括德语、法语、意大利语、罗曼什语——瑞士四种国语——以及加泰罗尼亚语、巴斯克语与威尔士语等少数欧洲语言）。对于发布多语言产品的欧洲构建者，这往往是决定性因素。

Fine-Tuning with Ertas

Apertus 8B 适合 Ertas Studio 微调，特别是多语言与受监管行业用例。QLoRA 微调可在单块 16-24GB 消费级 GPU 上以典型 2048-token 序列长度舒适完成。Apache 2.0 授权意味着微调衍生品可在没有许可复杂性的前提下再分发，这简化了 Studio Pro 与 Business 等级中的代理与转售路径。

完整数据透明性是微调工作流中的有意义资产。Studio 的微调运行产生的模型卡链接回基础模型血统，而 Apertus 的血统本身就完全可审计。对于把微调模型卖给受监管行业客户（欧盟司法管辖下的法律、医疗、金融服务）的团队，能够交付完整来源链——基础模型训练数据 → 微调数据 → 最终适配器——是采购优势。

对于多语言微调，当目标语言集包含欧洲少数语言或其他基础模型表现不佳的低资源语言时，Apertus 通常优于 Llama 3 或 Qwen 3 作为基础。Studio 的多语言评估套件支持自定义语言配置，可指向 Apertus 评估集与已发布基线进行直接比较。

Use Cases

Apertus 最强的用例是欧洲受监管行业部署：欧盟司法管辖下的法律 AI、GDPR 下的医疗 AI、受 MiCA 与其他欧盟法规约束的金融服务 AI，以及欧盟 AI 法案第 50 条透明度义务下的公共部门部署。完整数据透明与 Apache 2.0 授权的组合在可信开源权重模型中独一无二，能显著缩短采购周期。

面向欧洲市场的多语言产品团队是第二个强契合。Apertus 对瑞士德语、罗曼什语、加泰罗尼亚语、巴斯克语以及其他欠权重欧洲语言的覆盖，在这些语言上产生明显更好的输出——既用于直接生成，也用作翻译微调的基础。对于在欧洲有多语言用户基数的消费应用，Apertus 越来越是合适的起点。

研究与学术使用是第三个自然契合。因为整个训练流水线可从公开产物复现，Apertus 是少数几个可信的、需要完全可复现的 ML 研究开源权重基础之一（例如研究训练数据影响、规模法则、多语言迁移的论文）。2026 年若干关于数据污染度量与多语言公平性的论文以 Apertus 为参考基础。

Hardware Requirements

Apertus 8B 在 Q4_K_M 下约 4.5GB。单 GPU 消费级硬件（RTX 3060 12GB 及以上）可处理推理与 QLoRA 微调。在标准上下文长度下，消费级 GPU 上的吞吐量通常为 50–80 tokens/秒。

Apertus 70B 在 Q4_K_M 下约 38GB。一块 48GB GPU（RTX 6000 Ada、A6000）可处理推理；全序列长度的微调需要多 GPU。Apertus 70B 的大多数生产部署在数据中心硬件（H100、MI300X）或通过 CSCS 提供的端点上运行。

对于通过 Ertas Deployment CLI 进行的移动部署，Apertus 8B 在 Q4_K_M 下对当今大多数手机来说仍过大（4.5GB 超出中端设备的工作内存预算），但 Studio 中的 Apertus 蒸馏运行可产出适合设备端发布的更小衍生品。Apache 2.0 许可证使此类蒸馏衍生品可自由再分发。