Fine-Tune IBM Granite 4.1 with Ertas

IBM 2026 年 4 月 29 日发布的企业级版本——稠密模型家族,包含 3B、8B 和 30B 三个规模,以及 Embedding R2 和 2B 语音变体。8B Instruct 在基准测试上匹敌上一代 Granite 4.0 32B MoE。Apache 2.0 许可,覆盖 12 种以上语言。

3B8B30BEmbedding R2Speech 2BIBM

Overview

IBM Granite 4.1 于 2026 年 4 月 29 日发布,与 NVIDIA 的 Nemotron 3 Nano Omni 同期,是 IBM 面向企业的 Granite 系列的延续。该家族提供多个规模,面向不同的部署场景:3B 变体面向设备端和边缘应用,8B 变体作为中端主力,30B 变体面向更高能力的服务。IBM 还在基础 Granite 4.1 阵容旁发布了配套的专用模型——用于检索应用的 Embedding R2,以及用于语音应用的 20 亿参数 Speech 4.1 变体。

8B Instruct 变体是亮点。IBM 的评测显示其在标准基准测试上匹敌或超越上一代 Granite 4.0 32B MoE——这一显著的效率提升使 8B 变体成为家族中实用的最佳选择。8B 规模结合 Apache 2.0 许可,使 Granite 4.1 8B 在消费者可部署的模型类别中可与 Llama 3 8B 和 Phi-4 竞争,IBM 的企业定位使其在商业部署易用性方面与众不同。

IBM 的定位明确面向企业。Granite 系列面向受监管行业(金融、医疗、政府、企业 SaaS),IBM 的品牌认可度、合规文档和企业支持基础设施相比其他选择提供差异化价值。虽然不在开源权重质量的绝对前沿,但 Granite 4.1 是为 IBM 客户群关心的部署场景设计的——可预测的行为、强大的指令遵循、覆盖 12 种以上语言的多语言支持,以及简化商业部署审查的许可。

Apache 2.0 许可结合 IBM 的企业关系,使 Granite 4.1 对于偏好与已建立的美国企业供应商合作的组织来说尤其易于获得。模型权重在 Hugging Face 上以 `ibm-granite` 组织名义提供,路径如 `ibm-granite/granite-4.1-8b`。

Key Features

8B 变体匹敌 32B MoE 性能是核心效率成果。IBM 的评测显示,稠密的 Granite 4.1 8B Instruct 在标准基准测试套件上匹敌或超越上一代 Granite 4.0 32B MoE——4 倍效率提升反映了大量后训练和架构改进。对于部署团队而言,这意味着在相同质量水平下拥有更小的硬件要求、更快的推理速度和更低的单请求成本。

企业聚焦的定位使 Granite 4.1 区别于以前沿排行榜为目标的发布。IBM 的文档强调合规文档、可预测的生产行为、支持基础设施和受监管行业部署适用性,而非基准统治地位。对于金融、医疗、政府和类似受监管行业的客户而言,这种定位意义重大——来自已建立的美国企业供应商的模型,采购和集成成本远低于来自较不熟悉的提供者。

12 种以上语言的多语言覆盖支持国际部署。虽然不如 Qwen 3.6 的 119 种语言覆盖那么广,但 Granite 4.1 的多语言能力涵盖主要商业语言以及几种较少见的语言——足以满足大多数国际产品部署。训练数据强调商业和技术内容,使该模型特别适合企业内容,而非通用开放领域文本。

专用配套模型扩展了产品系列以支持生产部署模式。Embedding R2 支持检索应用(RAG、语义搜索),其嵌入针对与基础模型相同的训练分布进行调优——相比混合供应商堆栈产生更连贯的嵌入与生成集成。Speech 4.1 2B 变体为需要语音输入的应用提供支持,补充基础文本模型以实现统一的语音和文本部署。

Fine-Tuning with Ertas

在 Ertas Studio 中对 Granite 4.1 进行微调在各个规模上都很简单。3B 变体可在消费级 GPU 上用 QLoRA 微调(6-10GB VRAM),8B 变体可在消费级或工作站 GPU 上微调(10-16GB VRAM),30B 变体可在工作站或中等服务器 GPU 上微调(QLoRA 需 24-40GB VRAM)。稠密架构(无 MoE)意味着标准 QLoRA 配置无需专家路由特定处理即可工作。

专门就企业微调而言,Granite 4.1 是最易于获得的基础模型之一。Apache 2.0 许可结合 IBM 的企业支持降低了微调变体的合规审查——这对于受监管行业尤其重要,因为基础模型的许可是法律审查的一部分。Ertas Studio 的微调流程产生的变体继承基础模型的许可立场,简化企业客户的下游部署。

对于多语言微调,Granite 4.1 12+ 语言的基础在适配特定非英语语言或商业领域时,比英语主导的替代方案更具样本效率。Ertas Studio 支持交错的多语言训练数据格式,当训练数据包含适当的多语言覆盖时,Granite 4.1 基础在微调过程中保留其多语言能力。

训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 Granite 4.1 对话模板。所有变体都可通过 Ollama、llama.cpp 或 vLLM 干净部署,一键集成到标准生产部署模式中。

Use Cases

Granite 4.1 非常适合 IBM 的品牌、合规定位和支持基础设施提供差异化价值的企业应用。金融、医疗、政府和受监管行业的部署会发现 Granite 4.1 是最易于获得的开源权重选项之一——与 IBM 的开源权重模型合作的采购成本远低于不太熟悉的中国实验室替代方案,由此产生的部署风险特征也有显著不同。

对于企业内容工作负载——内部知识管理、受监管内容审核、受监管行业的客户支持自动化、金融和法律领域的文档处理——Granite 4.1 强调商业和技术内容的训练数据相比通用替代方案产生可衡量的质量优势。8B 变体特别适合这些工作负载的能力和易用性。

较小的变体(3B、Speech 2B)将该家族扩展到设备端和边缘应用。移动客户支持、本地部署文档处理、受监管环境中的语音界面应用以及类似用例都能受益于较小的占用空间,同时保留 IBM 的企业定位。对于在 IBM 供应商 AI 基础设施上标准化的组织,家族范围内的一致性简化了部署架构。

Embedding R2 配套模型支持以 RAG 为重的应用。结合 Granite 4.1 基础模型,组织可以部署统一的 RAG 基础设施,其中嵌入和生成都针对兼容的训练分布进行调优——相比混合供应商 RAG 堆栈产生可衡量的更好检索和生成连贯性。

Hardware Requirements

Granite 4.1 3B 在 Q4_K_M 下约需 1.8GB 内存,可装入手机、嵌入式设备和任何 4GB+ VRAM 的 GPU。8B 变体在 Q4_K_M 下约需 4.5GB,可装入 RTX 3060 12GB 起的消费级 GPU 以及 16GB+ 统一内存的现代笔记本电脑。

30B 变体在 Q4_K_M 下约需 18GB,可装入单块 24GB GPU(RTX 4090、RTX 5090)或中等服务器硬件。Speech 4.1 2B 变体在 Q4_K_M 下约需 1.2GB,可在几乎任何现代设备上部署。Embedding R2 的具体大小取决于所选变体;IBM 为不同的部署场景发布了多种嵌入模型规模。

在 Ertas Studio 中微调时:Granite 4.1 3B QLoRA 需要 6-10GB VRAM,8B 需要 10-16GB,30B 在典型序列长度下需要 24-40GB。稠密架构意味着训练步骤吞吐量易于预测——相当于微调可比较的稠密替代方案,无需 MoE 特定的复杂性。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →