Fine-Tune IBM Granite 4.1 with Ertas

IBM 於 2026 年 4 月 29 日推出的企業導向版本——包含 3B、8B 和 30B 三種規格的稠密模型家族，外加 Embedding R2 和 2B Speech 變體。8B Instruct 在基準測試上能與前一代 Granite 4.0 32B MoE 匹敵。Apache 2.0 授權，涵蓋 12 種以上語言。

3B8B30BEmbedding R2Speech 2BIBM

Overview

IBM Granite 4.1 於 2026 年 4 月 29 日與 NVIDIA 的 Nemotron 3 Nano Omni 同步發布，是 IBM 對 Granite 系列在企業領域的延續。該家族提供多種規格以瞄準不同部署場景：3B 變體用於裝置端與邊緣應用、8B 變體作為主力中階模型，以及 30B 變體用於更高能力的服務。IBM 同時與 Granite 4.1 基礎陣容並行推出搭配的專用模型——用於檢索應用的 Embedding R2，以及用於語音應用的 20 億參數 Speech 4.1 變體。

8B Instruct 變體是其中的亮點。IBM 的評估顯示其在標準基準測試上能匹敵或超越前一代 Granite 4.0 32B MoE——這是大幅的效率提升，使 8B 變體成為該家族中實用的最佳取捨點。8B 規格結合 Apache 2.0 授權，使 Granite 4.1 8B 在消費級可部署模型類別中與 Llama 3 8B 和 Phi-4 競爭，IBM 的企業定位則在商業部署人因工程上有所差異化。

IBM 的定位明確聚焦於企業。Granite 系列瞄準受監管產業（金融、醫療、政府、企業 SaaS），在這些領域中，IBM 的品牌知名度、合規文件以及企業支援基礎架構，相較於替代方案提供了差異化的價值。雖然 Granite 4.1 並非位於開放權重品質的絕對前沿，但它是針對 IBM 客戶群所重視的部署場景而打造——可預測的行為、強健的指令遵循、涵蓋 12 種以上語言的多語言支援，以及簡化商業部署審查的授權。

Apache 2.0 授權結合 IBM 的企業關係，使 Granite 4.1 對偏好與成熟美國企業供應商合作的組織特別容易取得。權重可在 Hugging Face 上的 `ibm-granite` 組織下取得，路徑類似 `ibm-granite/granite-4.1-8b`。

Key Features

8B 變體匹敵 32B MoE 表現是核心的效率成果。IBM 的評估顯示稠密的 Granite 4.1 8B Instruct 在標準基準測試套件上可匹敵或超越前一代 Granite 4.0 32B MoE——這是 4 倍的效率提升，反映了大量的後訓練與架構精煉。對於部署團隊，這意味著較小的硬體需求、更快的推論速度，以及在相同品質下較低的單次請求成本。

企業導向定位將 Granite 4.1 與聚焦前沿排行榜的發布區分開來。IBM 的文件強調合規文件、可預測的生產行為、支援基礎架構，以及對受監管產業部署的適配性，而非基準測試的主導地位。對於金融、醫療、政府等受監管產業的客戶而言，這個定位具有實質意義——與成熟美國企業供應商合作的採購與整合成本，遠低於與較不熟悉的供應商合作。

12 種以上語言的多語言涵蓋支援國際部署。雖然不及 Qwen 3.6 涵蓋 119 種語言那般廣泛，但 Granite 4.1 的多語言能力涵蓋主要商業語言外加數種較不常見的語言——足以滿足大多數國際產品部署。訓練資料著重於商業與技術內容，使該模型特別適合企業內容而非通用開放領域文本。

專用搭配模型擴展了該家族以支援生產部署模式。Embedding R2 支援檢索應用（RAG、語意搜尋），其嵌入向量針對與基礎模型相同的訓練分布進行調校——產生比混合供應商堆疊更協調的嵌入與生成整合。Speech 4.1 2B 變體提供語音輸入，補足基礎文字模型以實現統一的語音與文字部署。

Fine-Tuning with Ertas

在 Ertas Studio 中對 Granite 4.1 進行微調，跨各種規格都很簡單。3B 變體可在消費級 GPU 上進行 QLoRA 微調（6-10GB VRAM），8B 變體可在消費級或工作站 GPU 上進行（10-16GB VRAM），30B 變體則需要工作站或入門級伺服器 GPU（QLoRA 需 24-40GB VRAM）。稠密架構（無 MoE）意味著標準 QLoRA 配置即可運作，無需專家路由特定處理。

針對企業微調，Granite 4.1 是最容易取得的基礎模型之一。Apache 2.0 授權結合 IBM 的企業支援，可降低所得微調變體的合規審查負擔——這對於受監管產業特別重要，因為基礎模型的授權是法律審查的一部分。Ertas Studio 的微調管線產出的變體會繼承基礎模型的授權立場，簡化企業客戶的下游部署。

對於多語言微調，Granite 4.1 涵蓋 12 種以上語言的基礎模型在適配特定非英語語言或商業領域時，比英語為主的替代方案具有更高的樣本效率。Ertas Studio 支援交錯的多語言訓練資料格式，當訓練資料包含適當的多語言涵蓋時，Granite 4.1 基礎模型可透過微調保留其多語言能力。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並完整保留 Granite 4.1 聊天範本。所有變體都可透過 Ollama、llama.cpp 或 vLLM 乾淨地部署，並可一鍵整合至標準生產部署模式。

Use Cases

Granite 4.1 非常適合 IBM 品牌、合規定位與支援基礎架構提供差異化價值的企業應用。金融、醫療、政府以及受監管產業部署，會發現 Granite 4.1 是最容易取得的開放權重選項之一——與 IBM 開放權重模型合作的採購成本，遠低於與較不熟悉的中國實驗室替代方案合作，所產生的部署風險輪廓也有實質差異。

對於企業內容工作負載——內部知識管理、受監管內容審核、受監管產業客戶支援自動化、金融與法律領域文件處理——Granite 4.1 訓練資料著重於商業與技術內容，可比通用替代方案產生可衡量的品質優勢。其中 8B 變體在這些工作負載中尤其達到能力與可取用性的最佳取捨點。

較小變體（3B、Speech 2B）將該家族延伸至裝置端與邊緣應用。行動客戶支援、內部部署文件處理、受監管環境中的語音介面應用以及類似使用情境，都受益於較小的佔用空間，同時保留 IBM 的企業定位。對於將 IBM 供應商 AI 基礎架構標準化的組織，整個家族的一致性可簡化部署架構。

Embedding R2 搭配模型支援 RAG 密集型應用。結合 Granite 4.1 基礎模型，組織可部署統一的 RAG 基礎架構，其中嵌入與生成都針對相容的訓練分布進行調校——產生比混合供應商 RAG 堆疊更具可衡量檢索與生成協調性。

Hardware Requirements

Granite 4.1 3B 在 Q4_K_M 下需要約 1.8GB 記憶體，可在手機、嵌入式裝置以及任何具備 4GB 以上 VRAM 的 GPU 上運作。8B 變體在 Q4_K_M 下需要約 4.5GB，可在 RTX 3060 12GB 起的消費級 GPU 以及配備 16GB 以上統一記憶體的現代筆電上運作。

30B 變體在 Q4_K_M 下需要約 18GB，可在單張 24GB GPU（RTX 4090、RTX 5090）或入門級伺服器硬體上運作。Speech 4.1 2B 變體在 Q4_K_M 下需要約 1.2GB，幾乎可在任何現代裝置上部署。Embedding R2 的具體大小取決於所選變體；IBM 為不同部署場景發布了多種嵌入模型大小。

在 Ertas Studio 中進行微調：在典型序列長度下，Granite 4.1 3B QLoRA 需 6-10GB VRAM、8B 需 10-16GB、30B 需 24-40GB。稠密架構意味著訓練步驟吞吐量易於預測——等同於微調可比較的稠密替代方案，沒有 MoE 特定的複雜性。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →