Fine-Tune Falcon H1R-7B with Ertas

TII 於 2026 年 1 月推出的混合 Mamba+Transformer 架構——擁有 256K 上下文視窗的 70 億參數模型，在 AIME 2025 上取得 83.1% 的成績，於數學基準上勝過比其大 7 倍的推理模型。

7BTII

Overview

Falcon H1R-7B 由科技創新研究所（Technology Innovation Institute, TII）於 2026 年 1 月發布，是開放權重生態系中最具能力的小型推理模型之一。其架構為混合 Mamba + Transformer——結合狀態空間模型（Mamba）的線性時間擴展性與基於注意力的 Transformer 的成熟效能——產生了一個 70 億參數的模型，在 AIME 2025（高中數學奧林匹亞基準）上取得 83.1% 的成績，大幅勝過比其大 7 倍的推理模型。

H1R 變體延續了 TII 更廣泛的 Falcon-H1 發布產品線，其中包含阿拉伯語變體（Falcon-H1 Arabic 3B/7B/34B）以及 Falcon-H1-Tiny 旗下的 15 個小型變體。混合 Mamba+Transformer 架構被定位為純 Transformer 架構的可信替代方案，特別適合在純 Transformer 注意力會過於昂貴的小參數量下，需要長上下文（支援 256K token）的使用情境。

Falcon H1R 採 Falcon LLM 授權發布——商業友善但非 Apache 2.0。授權條款允許商業使用，包括衍生訓練與專有整合，但對於特殊部署情境應審閱具體條款。權重於 Hugging Face 的 `tiiuae/Falcon-H1R-7B` 取得。

雖然 Falcon H1R 在絕對能力上不與兆級參數的中國實驗室旗艦模型競爭，但它代表了不同的設計取向：小、快，且在數學推理上表現異常強勁。對於需要 7B 級推論經濟性且推理能力很重要的部署情境，H1R 是目前最佳選擇之一。

Key Features

AIME 2025 取得 83.1% 是 H1R 最具代表性的基準結果。AIME（美國邀請數學考試）是美國數學奧林匹亞的資格考——比大多數 LLM 基準包含的數學題顯著更難。H1R 的得分使其與大 5-7 倍的推理模型具有競爭力，證明針對性訓練與混合架構的結合，能在小參數量下產生超乎尋常的數學推理能力。

混合 Mamba+Transformer 架構是技術上的創新。Mamba 狀態空間模型在序列長度上具有線性時間複雜度（相對於 Transformer 注意力的二次方），但純 Mamba 模型一直難以與 Transformer 品質相匹配。混合方法——將 Mamba 區塊與注意力區塊交錯排列——讓架構具備類似 Transformer 的品質，並有顯著更佳的長上下文效率。H1R 支援 256K 上下文正是此架構選擇的直接受益。

TII Falcon 產品線包含 H1R 基礎之外的專用變體：Falcon-H1 Arabic（3B/7B/34B）針對阿拉伯語部署，這在歷史上一直未受西方與東亞模型家族充分服務。Falcon-H1-Tiny 將該架構延伸至 15 個超小型變體，用於極端邊緣部署。

位於阿聯酋的 TII 作為開發商是值得注意的細節。雖然 2026 年的開放權重生態系由中國與美國實驗室主導，但 TII 代表中東 AI 能力——這對於供應鏈多樣性，以及對於在波斯灣地區有區域偏好或合作關係的組織而言相當重要。

Fine-Tuning with Ertas

Falcon H1R-7B 在 Ertas Studio 中以 QLoRA 在消費級 GPU（8-12GB VRAM）上能有效微調。混合 Mamba+Transformer 架構在 Ertas Studio 的訓練流程中受到支援，並對 Mamba 狀態空間元件進行適當處理——與純 Transformer 微調不同，但由平台自動管理。

就微調資料集而言，H1R 從包含數學推理軌跡、科學問題求解範例與結構化分析內容的訓練資料中獲益匪淺。模型的優勢在數學與推理工作負載上最為突出，因此聚焦於這些領域的領域適配，能產生特別強勁的微調結果。

專門針對長上下文微調，H1R 的混合架構在相同上下文長度下提供比純 Transformer 替代方案更佳的訓練經濟性。32K-64K token 的序列長度在消費級 GPU 上是可行的，這在同等品質的純 Transformer 模型上是無法做到的。

訓練完成後，Ertas Studio 匯出為 GGUF 格式，並完整保留 Falcon H1R 的對話模板與架構。透過 vLLM（啟用 Mamba 支援）、llama.cpp（近期版本支援混合架構）或 Ollama 部署，使用標準配置即可運作。

Use Cases

H1R 是 7B 參數規模下數學推理工作負載最強勁的開放權重選擇。教育平台、STEM 輔導系統與研究輔助工具，都能從 H1R 在 AIME 2025 上超乎尋常的效能與 7B 模型推論經濟性的結合中獲益。

小參數規模下的長上下文應用是另一個天然契合。256K 上下文結合混合架構的線性時間擴展性，使 H1R 非常適合長文件分析、程式碼庫探索，以及其他長上下文使用情境，這些情境下 7B 規模的 Transformer 替代方案會因注意力運算成本而難以應付。

阿拉伯語應用由 Falcon-H1 Arabic 變體（與 H1R 為不同模型，但屬同一家族）充分服務。對於針對阿拉伯語使用者的部署，專用阿拉伯語變體在阿拉伯語特定任務上勝過一般多語言模型。

推理能力的邊緣部署是特別的優勢。憑藉 70 億參數與混合架構的高效推論，H1R 可部署於消費級硬體進行離線數學輔導、科學計算與分析工作流程，這些情境下不希望使用雲端推論。

Hardware Requirements

Falcon H1R-7B 在 Q4_K_M 量化下約需 4.5GB 記憶體，可在 RTX 3060 12GB 起的消費級 GPU、現代筆記型電腦，以及具備 8GB+ 統一記憶體的 Apple Silicon 裝置上運行。在 Q8_0 下，預期約 8.5GB。

混合 Mamba+Transformer 架構的記憶體特性與純 Transformer 不同——長上下文推論使用的記憶體遠少於 Transformer 注意力在同等上下文長度下所需。256K 上下文視窗在 16GB+ 裝置上確實可用，而同樣 7B 規模的純 Transformer 在相同上下文下會需要顯著更多記憶體。

在 Ertas Studio 中進行微調：H1R QLoRA 在典型序列長度下約需 8-12GB VRAM，可舒適地運行於單張消費級 GPU。長上下文微調（32K-64K 序列）在 24GB GPU 上可行，得益於混合架構的高效率——大幅優於同等規模的純 Transformer 替代方案。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →