Fine-Tune Falcon H1R-7B with Ertas

    TII 於 2026 年 1 月推出的混合 Mamba+Transformer 架構——擁有 256K 上下文視窗的 70 億參數模型,在 AIME 2025 上取得 83.1% 的成績,於數學基準上勝過比其大 7 倍的推理模型。

    7BTII

    Overview

    Falcon H1R-7B 由科技創新研究所(Technology Innovation Institute, TII)於 2026 年 1 月發布,是開放權重生態系中最具能力的小型推理模型之一。其架構為混合 Mamba + Transformer——結合狀態空間模型(Mamba)的線性時間擴展性與基於注意力的 Transformer 的成熟效能——產生了一個 70 億參數的模型,在 AIME 2025(高中數學奧林匹亞基準)上取得 83.1% 的成績,大幅勝過比其大 7 倍的推理模型。

    H1R 變體延續了 TII 更廣泛的 Falcon-H1 發布產品線,其中包含阿拉伯語變體(Falcon-H1 Arabic 3B/7B/34B)以及 Falcon-H1-Tiny 旗下的 15 個小型變體。混合 Mamba+Transformer 架構被定位為純 Transformer 架構的可信替代方案,特別適合在純 Transformer 注意力會過於昂貴的小參數量下,需要長上下文(支援 256K token)的使用情境。

    Falcon H1R 採 Falcon LLM 授權發布——商業友善但非 Apache 2.0。授權條款允許商業使用,包括衍生訓練與專有整合,但對於特殊部署情境應審閱具體條款。權重於 Hugging Face 的 `tiiuae/Falcon-H1R-7B` 取得。

    雖然 Falcon H1R 在絕對能力上不與兆級參數的中國實驗室旗艦模型競爭,但它代表了不同的設計取向:小、快,且在數學推理上表現異常強勁。對於需要 7B 級推論經濟性且推理能力很重要的部署情境,H1R 是目前最佳選擇之一。

    Key Features

    AIME 2025 取得 83.1% 是 H1R 最具代表性的基準結果。AIME(美國邀請數學考試)是美國數學奧林匹亞的資格考——比大多數 LLM 基準包含的數學題顯著更難。H1R 的得分使其與大 5-7 倍的推理模型具有競爭力,證明針對性訓練與混合架構的結合,能在小參數量下產生超乎尋常的數學推理能力。

    混合 Mamba+Transformer 架構是技術上的創新。Mamba 狀態空間模型在序列長度上具有線性時間複雜度(相對於 Transformer 注意力的二次方),但純 Mamba 模型一直難以與 Transformer 品質相匹配。混合方法——將 Mamba 區塊與注意力區塊交錯排列——讓架構具備類似 Transformer 的品質,並有顯著更佳的長上下文效率。H1R 支援 256K 上下文正是此架構選擇的直接受益。

    TII Falcon 產品線包含 H1R 基礎之外的專用變體:Falcon-H1 Arabic(3B/7B/34B)針對阿拉伯語部署,這在歷史上一直未受西方與東亞模型家族充分服務。Falcon-H1-Tiny 將該架構延伸至 15 個超小型變體,用於極端邊緣部署。

    位於阿聯酋的 TII 作為開發商是值得注意的細節。雖然 2026 年的開放權重生態系由中國與美國實驗室主導,但 TII 代表中東 AI 能力——這對於供應鏈多樣性,以及對於在波斯灣地區有區域偏好或合作關係的組織而言相當重要。

    Fine-Tuning with Ertas

    Falcon H1R-7B 在 Ertas Studio 中以 QLoRA 在消費級 GPU(8-12GB VRAM)上能有效微調。混合 Mamba+Transformer 架構在 Ertas Studio 的訓練流程中受到支援,並對 Mamba 狀態空間元件進行適當處理——與純 Transformer 微調不同,但由平台自動管理。

    就微調資料集而言,H1R 從包含數學推理軌跡、科學問題求解範例與結構化分析內容的訓練資料中獲益匪淺。模型的優勢在數學與推理工作負載上最為突出,因此聚焦於這些領域的領域適配,能產生特別強勁的微調結果。

    專門針對長上下文微調,H1R 的混合架構在相同上下文長度下提供比純 Transformer 替代方案更佳的訓練經濟性。32K-64K token 的序列長度在消費級 GPU 上是可行的,這在同等品質的純 Transformer 模型上是無法做到的。

    訓練完成後,Ertas Studio 匯出為 GGUF 格式,並完整保留 Falcon H1R 的對話模板與架構。透過 vLLM(啟用 Mamba 支援)、llama.cpp(近期版本支援混合架構)或 Ollama 部署,使用標準配置即可運作。

    Use Cases

    H1R 是 7B 參數規模下數學推理工作負載最強勁的開放權重選擇。教育平台、STEM 輔導系統與研究輔助工具,都能從 H1R 在 AIME 2025 上超乎尋常的效能與 7B 模型推論經濟性的結合中獲益。

    小參數規模下的長上下文應用是另一個天然契合。256K 上下文結合混合架構的線性時間擴展性,使 H1R 非常適合長文件分析、程式碼庫探索,以及其他長上下文使用情境,這些情境下 7B 規模的 Transformer 替代方案會因注意力運算成本而難以應付。

    阿拉伯語應用由 Falcon-H1 Arabic 變體(與 H1R 為不同模型,但屬同一家族)充分服務。對於針對阿拉伯語使用者的部署,專用阿拉伯語變體在阿拉伯語特定任務上勝過一般多語言模型。

    推理能力的邊緣部署是特別的優勢。憑藉 70 億參數與混合架構的高效推論,H1R 可部署於消費級硬體進行離線數學輔導、科學計算與分析工作流程,這些情境下不希望使用雲端推論。

    Hardware Requirements

    Falcon H1R-7B 在 Q4_K_M 量化下約需 4.5GB 記憶體,可在 RTX 3060 12GB 起的消費級 GPU、現代筆記型電腦,以及具備 8GB+ 統一記憶體的 Apple Silicon 裝置上運行。在 Q8_0 下,預期約 8.5GB。

    混合 Mamba+Transformer 架構的記憶體特性與純 Transformer 不同——長上下文推論使用的記憶體遠少於 Transformer 注意力在同等上下文長度下所需。256K 上下文視窗在 16GB+ 裝置上確實可用,而同樣 7B 規模的純 Transformer 在相同上下文下會需要顯著更多記憶體。

    在 Ertas Studio 中進行微調:H1R QLoRA 在典型序列長度下約需 8-12GB VRAM,可舒適地運行於單張消費級 GPU。長上下文微調(32K-64K 序列)在 24GB GPU 上可行,得益於混合架構的高效率——大幅優於同等規模的純 Transformer 替代方案。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.