Fine-Tune Apertus with Ertas

瑞士的開源權重基礎模型家族——權重、訓練資料與訓練配方完全公開,以 Apache 2.0 釋出,並對 1,000+ 種語言提供一級支援,且明確契合 EU AI Act 與瑞士資料保護需求。

8B70BSwiss AI Initiative (ETH Zurich + EPFL + CSCS)

Overview

Apertus 是來自 Swiss AI Initiative 的開源權重基礎模型——一個 ETH Zurich、EPFL 與 Swiss National Supercomputing Centre（CSCS）之間的協作。它於 2025 年末啟動,並在 2026 年大幅升級,作為對 Llama、Qwen 與 Mistral 家族的歐洲解答。模型名稱在拉丁文中意為「開放」,而專案的定義承諾是完全開放：權重、訓練資料、訓練配方、評估資料與 model card 全部公開,且全部以 Apache 2.0 釋出。

這對兩個不同的受眾很重要。對於歐洲企業與受監管產業團隊,Apertus 是達到整個來源可稽核之模型的最乾淨路徑——這是 EU AI Act 透明度需求與瑞士資料保護規則下的有意義優勢。對於多語言應用,Apertus 不尋常：訓練資料涵蓋 1,000+ 種語言（包括低資源歐洲語言、瑞士德語方言以及主流開源模型未充分覆蓋的非洲語言的大量覆蓋）,且多語言評估在重疊的語言上與 Qwen 3 與 Llama 4 具有競爭力。

家族出貨 8B 與 70B 密集變體。兩者共享相同訓練語料庫、相同 tokenizer 與相同對齊配方,這使 8B 成為實驗規模的有用替代,可在擴展到 70B 進行部署前用於開發。CSCS 提供公共推論端點,且模型在 Hugging Face 上以 `swiss-ai/Apertus-8B` 與 `swiss-ai/Apertus-70B` 提供。

Key Features

整個堆疊的 Apache 2.0 授權——權重、程式碼與訓練資料——是頭條特性。這比 Llama（自訂社群授權）更寬鬆,且與 Mistral、Qwen 與 Gemma 4 採取相同授權姿態。對於商業使用者,重新散布與衍生作品被明確允許,無需另行協商。

完整的訓練資料透明度是 Apertus 的特色。多數開源權重模型——包括許多名稱上「開源」的模型——只釋出權重而不釋出訓練資料。Apertus 的訓練語料庫被發布、被記錄且可篩選;從原始來源到最終 checkpoint 的資料譜系可重建。對於 EU AI Act 合規,以及對於自家資料治理政策需要可稽核模型來源的組織而言,這將先前的結構性阻礙轉變為可解決的盡職調查問題。

多語言覆蓋異常廣泛。多數開源權重模型集中於英語加上 20–100 種語言的精心整理集合,而 Apertus 的 tokenizer 與訓練語料庫橫跨 1,000+ 種語言,並有意強調歐洲多語言性（包括德語、法語、義大利語、羅曼什語——四種瑞士國家語言——以及如加泰隆尼亞語、巴斯克語與威爾斯語等少數歐洲語言）。對於出貨多語言產品的歐洲建構者,這通常是決定性因素。

Fine-Tuning with Ertas

Apertus 8B 適合 Ertas Studio 在多語言與受監管產業使用情境的微調。QLoRA 在典型 2048 token 序列長度下舒適微調於單張 16-24GB 消費級 GPU。Apache 2.0 授權代表微調衍生模型可重新散布而無授權複雜性,這簡化了 Studio 的 Pro 與 Business 階層中的代理商與經銷商路徑。

完整的資料透明度在微調工作流程中是有意義的資產。Studio 的微調執行產生連回基底模型譜系的 model card,而對於 Apertus,該譜系本身完全可稽核。對於將微調模型銷售給受監管產業客戶（EU 司法管轄區的法律、醫療、金融服務）的團隊,提供完整來源鏈——基底模型訓練資料 → 微調資料 → 最終介面卡——的能力是採購優勢。

針對多語言微調,當目標語言集包含其他基底表現不佳的歐洲少數語言或低資源語言時,Apertus 通常是優於 Llama 3 或 Qwen 3 的正確基底。Studio 的多語言評估套件支援自訂語言設定,且可指向 Apertus 評估集以與發布的基準直接比較。

Use Cases

Apertus 最強的使用情境是歐洲受監管產業部署：EU 司法管轄區的法律 AI、GDPR 下的醫療 AI、受 MiCA 與其他 EU 法規約束的金融服務 AI,以及 EU AI Act 第 50 條透明度義務下的公部門部署。完整資料透明度與 Apache 2.0 授權的組合在具公信力的開源權重模型中獨一無二,並有意義地縮短採購週期。

針對歐洲市場的多語言產品團隊是第二個強契合。Apertus 對瑞士德語、羅曼什語、加泰隆尼亞語、巴斯克語與其他低權重歐洲語言的覆蓋,在這些語言上產出比 Llama 或 Qwen 有意義更佳的輸出——既為直接生成,也為翻譯微調的基底。對於在歐洲擁有多語言使用者群的消費者 app,Apertus 越來越成為正確的起點。

研究與學術用途是第三個自然契合。因為整個訓練管線可從公開成品重現,Apertus 是少數具公信力、適合需要完整可重現性的 ML 研究（例如,研究訓練資料影響、scaling laws、多語言遷移的論文）的開源權重基底之一。數篇 2026 年關於資料污染量測與多語言公平性的論文使用 Apertus 作為參考基底。

Hardware Requirements

Apertus 8B 在 Q4_K_M 下約為 4.5GB。單 GPU 消費級硬體（RTX 3060 12GB 以上）處理推論與 QLoRA 微調。在標準上下文長度下,消費級 GPU 上的吞吐量通常為 50–80 tokens 每秒。

Apertus 70B 在 Q4_K_M 下約為 38GB。單張 48GB GPU（RTX 6000 Ada、A6000）處理推論;完整序列長度的微調需要多 GPU。多數 Apertus 70B 的正式上線部署在資料中心硬體（H100、MI300X）上執行,或透過 CSCS 提供的端點執行。

對於透過 Ertas Deployment CLI 的行動部署,Apertus 8B 在 Q4_K_M 下對多數現今手機而言過大（4.5GB 超出中階裝置的工作記憶體預算）,但在 Studio 中執行的 Apertus 蒸餾可產出適合裝置端出貨的較小衍生模型。Apache 2.0 授權使這種蒸餾衍生模型可自由重新散布。