Fine-Tune Falcon H1R-7B with Ertas

TII 于 2026 年 1 月推出的混合 Mamba+Transformer 架构——一个 70 亿参数、支持 256K 上下文的模型,在 AIME 2025 上得分 83.1%,在数学基准上超过参数规模为其 7 倍的推理模型。

7BTII

Overview

Falcon H1R-7B 由技术创新研究所(TII)于 2026 年 1 月发布,是开放权重生态中最具实力的小型推理模型之一。其架构是 Mamba + Transformer 的混合体——将状态空间模型(Mamba)的线性时间扩展性与基于注意力机制的 Transformer 久经考验的性能相结合——构建出一个 70 亿参数的模型,在 AIME 2025(高中数学奥赛基准)上得分 83.1%,显著超越规模为其 7 倍的推理模型。

H1R 变体是 TII 更广泛 Falcon-H1 发布线的延续,该线还包括阿拉伯语变体(Falcon-H1 Arabic 3B/7B/34B)以及 Falcon-H1-Tiny 系列下的 15 个微型变体。混合 Mamba+Transformer 架构被定位为纯 Transformer 架构的可信替代方案,尤其适合需要在小参数量下处理长上下文(支持 256K tokens)的场景,而纯 Transformer 注意力机制在此类场景下成本过高。

Falcon H1R 在 Falcon LLM License 下发布——商用宽松但非 Apache 2.0。许可条款允许包括衍生训练和专有集成在内的商业用途,但对于不寻常的部署场景应审阅具体条款。权重可在 Hugging Face 的 `tiiuae/Falcon-H1R-7B` 下获取。

虽然 Falcon H1R 在绝对能力上无法与中国实验室的万亿参数旗舰模型相抗衡,但它代表了一种不同的设计取向:小、快,并在数学推理上表现尤为突出。对于需要 7B 级推理经济性且推理能力至关重要的部署,H1R 是当前最强的可选项之一。

Key Features

AIME 2025 得分 83.1% 是 H1R 最具代表性的基准结果。AIME(美国数学邀请赛)是美国数学奥林匹克的资格考试——其难度远超大多数 LLM 基准中所包含的数学问题。H1R 的得分使其能与规模为其 5-7 倍的推理模型展开竞争,展示了精准训练与混合架构相结合可在小参数量上产生超大规模的数学推理能力。

混合 Mamba+Transformer 架构是其技术创新所在。Mamba 状态空间模型在序列长度上具有线性时间复杂度(对比 Transformer 注意力的二次复杂度),但纯 Mamba 模型一直难以匹敌 Transformer 的质量。混合方法——交错排布 Mamba 块与注意力块——使该架构具备类 Transformer 的质量,同时在长上下文上效率显著更高。H1R 256K 上下文的支持正是这一架构选择的直接受益者。

TII Falcon 系列还包括基础 H1R 之外的专门变体:Falcon-H1 Arabic(3B/7B/34B)针对阿拉伯语部署,该领域历来未被西方和东亚模型家族充分服务。Falcon-H1-Tiny 将该架构延伸为 15 个超小型变体,适用于极端边缘部署。

开发者为总部位于阿联酋的 TII 也是值得关注的细节。虽然 2026 年的开放权重生态由中、美实验室主导,但 TII 代表了中东地区的 AI 实力——这对供应链多样性以及在海湾地区有区域偏好或合作的组织具有重要意义。

Fine-Tuning with Ertas

Falcon H1R-7B 可在 Ertas Studio 中以 QLoRA 在消费级 GPU(8-12GB VRAM)上良好微调。Ertas Studio 的训练流水线支持混合 Mamba+Transformer 架构,会自动处理 Mamba 状态空间组件——这与纯 Transformer 微调有所不同,但平台会自动管理。

在微调数据集方面,H1R 从包含数学推理轨迹、科学问题求解示例和结构化分析内容的训练数据中获益良多。该模型的优势在数学和推理工作负载上最为明显,因此聚焦这些领域的领域适配能产生尤为强劲的微调结果。

对于长上下文微调,H1R 的混合架构在相同上下文长度下相比纯 Transformer 替代方案具有更好的训练经济性。32K-64K tokens 的序列长度在消费级 GPU 上是可行的,而同等质量的纯 Transformer 模型则做不到。

训练完成后,Ertas Studio 会导出为 GGUF 格式,完整保留 Falcon H1R 的聊天模板和架构。通过 vLLM(启用 Mamba 支持)、llama.cpp(近期版本支持混合架构)或 Ollama 部署都可使用标准配置。

Use Cases

在 7B 参数规模的数学推理工作负载中,H1R 是开放权重的最强选择。教育平台、STEM 辅导系统和研究辅助工具都可受益于 H1R 在 AIME 2025 上的超大规模表现以及 7B 模型的推理经济性。

小参数规模下的长上下文应用是另一个天然契合点。256K 上下文与混合架构的线性时间扩展能力相结合,使 H1R 非常适合长文档分析、代码库探索以及其他长上下文场景——而 7B 规模的 Transformer 替代方案在这些场景下会因注意力计算成本而陷入困境。

阿拉伯语应用更适合 Falcon-H1 Arabic 变体(与 H1R 同系列但为不同模型)。对于面向阿拉伯语用户的部署,专属阿拉伯语变体在阿拉伯语相关任务上优于通用多语言模型。

推理能力的边缘部署是其特别优势。借助 7B 参数和混合架构的高效推理,H1R 可部署在消费级硬件上,用于离线数学辅导、科学计算以及不希望依赖云端推理的分析工作流。

Hardware Requirements

Falcon H1R-7B 在 Q4_K_M 量化下大约需要 4.5GB 内存,可在 RTX 3060 12GB 及以上的消费级 GPU、现代笔记本电脑以及拥有 8GB+ 统一内存的 Apple Silicon 设备上运行。在 Q8_0 下大约需要 8.5GB。

混合 Mamba+Transformer 架构的内存特性与纯 Transformer 不同——长上下文推理在相同上下文长度下比 Transformer 注意力使用的内存少得多。256K 上下文窗口在 16GB+ 设备上确实可用,而同等上下文下的纯 7B Transformer 则需要大幅更多的内存。

关于在 Ertas Studio 中微调:H1R QLoRA 在典型序列长度下大约需要 8-12GB VRAM,可舒适地在单卡消费级 GPU 上运行。得益于混合架构的高效性,长上下文微调(32K-64K 序列)在 24GB GPU 上是可行的——比同等规模的纯 Transformer 替代方案具有显著更好的可访问性。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →