Fine-Tune Falcon with Ertas

阿布達比技術創新研究所的開放權重模型家族，提供 7B、40B 和 180B 三種規格，使用龐大的 RefinedWeb 資料集訓練，開創了使用高品質過濾網路資料進行 LLM 訓練的先河。

7B40B180BTII Abu Dhabi

Overview

Falcon 是由阿拉伯聯合大公國阿布達比技術創新研究所（TII）開發的大型語言模型家族。當 Falcon 40B 於 2023 年 5 月發布時，它曾短暫登上 Hugging Face Open LLM 排行榜榜首，證明了精心策劃的網路資料可以產生與使用更昂貴、人工策劃資料集訓練的模型相媲美的效果。

Falcon 家族包含三種規格：7B、40B 和 180B 參數。模型主要使用 RefinedWeb 進行訓練，這是 TII 透過對 Common Crawl 資料應用大量品質過濾、去重和內容提取而建立的龐大過濾網頁資料集。180B 模型使用約 3.5 兆個 token 進行訓練，使其成為當時最大的公開訓練模型之一。

在架構方面，Falcon 使用僅解碼器的 Transformer，7B 變體採用多查詢注意力（所有查詢頭共享一個鍵值頭），40B 和 180B 變體採用分組查詢注意力。模型使用約 65K token 詞彙量的自訂分詞器，支援 2K 上下文視窗（可透過微調和 RoPE 縮放擴展）。

Falcon 模型以 Apache 2.0 授權發布。雖然較新的模型在大多數基準測試上已超越 Falcon，但其對證明以網路資料為中心訓練的可行性的貢獻對整個行業後續模型開發實踐產生了深遠影響。

Key Features

RefinedWeb 資料集是 Falcon 對 LLM 生態系統最重要的貢獻。TII 證明了透過足夠嚴格的過濾——包括基於 URL 的過濾、使用 trafilatura 的內容提取、使用 MinHash 的精確和近似去重以及品質評分——僅使用網路爬取資料就能產生與在策劃資料集上訓練的模型競爭的效果。這一發現影響了許多後續模型的訓練資料策略。

Falcon 7B 的多查詢注意力將 KV 快取減少到單一頭，提供卓越的推論吞吐量。這使 Falcon 7B 在記憶體頻寬為瓶頸的高併發服務場景中特別高效。40B 和 180B 模型使用分組查詢注意力來平衡效率和模型品質。

Falcon 的指令微調變體（Falcon Instruct）在聊天和指令資料的混合上進行了微調，展現出優秀的對話能力。模型對進一步微調反應良好，社群已針對不同領域和語言產生了眾多專用變體，特別是阿拉伯語，這與 TII 在阿聯酋的背景有關。

Fine-Tuning with Ertas

Falcon 模型在 Ertas Studio 中的微調非常簡單。7B 模型特別高效，由於多查詢注意力減少了記憶體開銷，使用 QLoRA 僅需 6-10GB VRAM。40B 模型需要 24-32GB VRAM，可在單張 A100 40GB 或 A6000 48GB 上執行。180B 模型需要多 GPU 配置進行微調。

Falcon 對特定領域資料的微調反應良好，其 RefinedWeb 訓練提供了堅實的通用知識基礎。對於阿拉伯語應用，Falcon 是一個很好的起點——RefinedWeb 資料集包含阿拉伯語內容，TII 也發布了阿拉伯語專用變體。在 Ertas Studio 中對阿拉伯語對話或領域資料進行微調，可以產生一個能力出色的阿拉伯語 AI 助手。

訓練後，匯出為 GGUF 格式進行部署。請注意，Falcon 較短的預設上下文視窗（2K）如果您的應用需要更長的上下文，可能需要明確的 RoPE 縮放配置。Ertas Studio 在微調期間提供上下文擴展選項，讓您可以將 Falcon 的有效上下文長度擴展到 8K 或 16K token。

Use Cases

Falcon 7B 是需要快速高效推論且具有良好通用品質的應用的可靠選擇。其多查詢注意力使其成為 API 服務中吞吐量最高效的 7B 模型之一，在標準 NLP 任務上表現良好：摘要、問答、分類和對話式 AI。

40B 模型適合品質重要但不需要前沿模型效能的企業應用。它能夠勝任複雜的指令跟隨、內容生成和分析任務。早期採用 Falcon 並擁有現有微調變體的組織可能會發現繼續使用 Falcon 生態系統比遷移更具成本效益。

Falcon 對阿拉伯語 AI 應用特別重要，這得益於 TII 在阿拉伯語 NLP 方面的持續投資。微調後的 Falcon 模型在中東和北非地區提供阿拉伯語客戶支援、內容生成和翻譯服務。

Hardware Requirements

Falcon 7B 在 Q4_K_M 下需要約 4.3GB RAM，可在配備 8GB 以上 RAM 的消費級硬體上輕鬆執行。40B 模型在 Q4_K_M 下需要約 23GB，適合 RTX 4090 24GB（較緊湊）或 A6000 48GB。180B 在 Q4_K_M 下需要約 103GB，需要多 GPU 配置或大記憶體 CPU 推論。

在 Q8_0 下，需求分別約為 7.5GB（7B）、43GB（40B）和 190GB（180B）。完整 FP16 推論需要 14.5GB（7B）、80GB（40B）和 360GB（180B）。7B 模型的多查詢注意力提供了出色的每秒 token 效能，通常比相同參數量的 GQA 模型快 20-30%。

在 Ertas Studio 中進行微調，7B 需要 6-10GB VRAM，40B 需要 24-32GB，180B 使用 QLoRA 需要 80-120GB。7B 模型的低需求使個人開發者和小型團隊也能探索自訂模型開發。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →