Back to blog
    微調 3B 模型 vs GPT-4:為什麼小型模型在領域任務上勝出
    fine-tuningsmall-modelsgpt-4benchmarkson-device-airesearchsegment:mobile-builder

    微調 3B 模型 vs GPT-4:為什麼小型模型在領域任務上勝出

    學術研究顯示,微調後的 3B-7B 模型在領域特定任務上持續勝過 GPT-4。以下是證據、模式,以及如何應用在你的應用程式中。

    EErtas Team·

    「微調過的 3B 模型不可能贏過 GPT-4。」這是大多數開發者在為應用程式加入 AI 功能時的直覺假設。然而研究結果卻完全相反,而且差距不小。

    在 2023 年到 2024 年間發表的六篇經過同行審查的論文中,參數範圍在 770M 到 13B 之間的微調模型,在特定且定義明確的任務上持續超越 GPT-4。不是偶爾一次。不是在精心挑選的基準測試中。而是在法律、醫療、程式碼生成和實體擷取等多個領域中持續勝出。

    本文將列出證據、解釋為什麼這個模式成立,並且告訴你何時該信任小型模型用於生產應用程式,何時確實需要前沿 API。

    證據概覽

    在逐一檢視論文之前,先看整體摘要。這些不是廠商的行銷宣傳。這些是來自經過同行審查的學術論文,具有完整的方法論、資料集和可重現的結果。

    論文年份小型模型較大基準線任務結果
    Distilling Step-by-Step (arXiv:2305.02301)2023770M T5540B PaLM推理 (CoT)770M 使用不到 PaLM 0.5% 的訓練資料即超越 540B
    Phi-3-mini (arXiv:2404.14219)20243.8BGPT-3.5-TurboMMLU 基準測試3.8B 在學術知識上匹配 GPT-3.5-Turbo
    Orca 2 (arXiv:2311.11045)202313BGPT-4零次學習推理13B 匹配甚至在某些任務上超越 GPT-4
    SaulLM-7B (arXiv:2403.03883)20247BGPT-4LegalBench7B 在法律領域基準測試上超越 GPT-4
    DeepSeek-Coder (arXiv:2401.14196)20246.7BGPT-3.5 / CodeLlama-34BHumanEval / MBPP6.7B 匹配 GPT-3.5,擊敗 CodeLlama-34B(大 5 倍)
    Universal-NER (arXiv:2308.03279)20237BChatGPT43 個 NER 資料集7B 達到最佳水準,在所有資料集上超越 ChatGPT

    模式非常明確。當小型模型在特定領域使用正確的資料進行訓練時,模型大小不再是主導變數。領域對齊才是主導變數。

    逐篇論文:研究實際顯示了什麼

    Distilling Step-by-Step(ACL 2023,arXiv:2305.02301)

    這篇論文應該改變所有人對模型大小的看法。Google 和 CMU 的研究人員提出了一個直接問題:你能否從大型模型中擷取推理鏈,用來訓練一個更小的模型,使其表現優於大型模型?

    答案是肯定的,而且效率驚人。一個 770M 參數的 T5 模型,使用從 540B PaLM 擷取的思維鏈推理進行訓練,在多項推理任務上超越了 PaLM。使用的訓練資料集不到 PaLM 訓練資料的 0.5%。

    這不是證明小型模型有魔力。它證明的是,當小型模型使用豐富、結構化的推理訊號而非原始文字進行訓練時,它可以吸收通用模型分散在數十億參數中的任務特定能力。專家集中精力。通才分散資源。

    對應用程式開發者的實際意義:你的訓練資料品質遠比基礎模型的大小重要。

    Phi-3-mini(Microsoft Research,arXiv:2404.14219)

    微軟的 Phi-3-mini 是一個 3.8B 參數的模型,專門使用高品質的教科書風格資料訓練,而非典型的網頁爬取混合資料。讓工程師們注目的發現:Phi-3-mini 在 MMLU 基準測試上匹配 GPT-3.5-Turbo,該測試涵蓋 57 個學科的學術知識。

    研究人員的解釋很直接:在小參數規模下,資料品質驅動能力。Phi-3 團隊使用「教科書品質」過濾策略,只從訓練語料中選取最具教學性的文字,然後用合成生成的問答對進行擴充。

    該模型在 4 位元量化形式下僅 808MB。這意味著它可以在中階智慧型手機上運行,且仍有記憶體餘裕。對行動應用程式而言,這裡的效能與大小比率不是比 GPT-3.5-Turbo 稍微好一點。而是截然不同的等級。你不需要任何一次網路呼叫就能獲得具競爭力的能力。

    Orca 2(Microsoft Research,arXiv:2311.11045)

    Orca 2 將這個發現推得更遠。微軟使用一種稱為「謹慎推理」的技術訓練了一個 13B 模型,模型被教導多種解題策略(直接回答、逐步推理、回憶後生成),並學習針對每種任務類型選擇最佳策略。

    基準測試結果是與 GPT-4 在零次學習推理任務上的直接比較。Orca 2 13B 在多項基準測試上匹配 GPT-4,並在其他測試中超越它。這不是在狹窄領域上的微調結果。這是通用推理比較,而一個小 50 倍以上的模型具有競爭力。

    Orca 2 的關鍵洞察是關於模型如何被教導推理,而不僅僅是被教導什麼。訓練策略與訓練資料同樣重要。一個經過刻意、結構化推理監督訓練的小型模型,能超越經過較不刻意監督訓練的大型模型。

    SaulLM-7B(arXiv:2403.03883)

    SaulLM-7B 是這份清單中最明確的「領域勝過規模」結果。研究人員在 300 億 token 的法律語料上對 Mistral-7B 進行持續預訓練,然後在法律指令資料上微調。結果:一個 7B 模型在 LegalBench(法律 NLP 任務的標準學術基準測試)上超越了 GPT-4。

    請仔細體會這個結果。一個 7B 模型在法律任務上超越了 GPT-4。不是在某個特殊角落。是在 LegalBench 上,一個專門設計來衡量法律推理和理解的基準測試。

    對於開發受監管領域應用程式的開發者來說,這是這份清單中最重要的發現。法律、醫療、金融、合規:這些正是微調小型模型可以超越前沿模型表現的領域,因為任務空間有限、語言專業化,且訓練資料可以針對領域覆蓋進行策劃。

    DeepSeek-Coder(arXiv:2401.14196)

    DeepSeek-Coder 展示了同樣的模式應用於程式碼。一個 6.7B 模型主要在程式碼上訓練,混合多種程式語言並具有儲存庫層級的上下文,在 HumanEval 和 MBPP 程式碼基準測試上匹配 GPT-3.5。更值得注意的是,它在相同基準測試上超越了 CodeLlama-34B,一個大小超過其五倍的模型。

    這裡的機制是領域集中。DeepSeek-Coder 的訓練語料有 87% 是程式碼。GPT-3.5 和 CodeLlama 在混合語料上訓練,程式碼與自然語言、推理和世界知識共享參數空間。當模型的參數幾乎完全集中在一種模態上時,該模型在該模態上會變得非常出色。

    對於包含程式碼輔助、查詢生成或結構化輸出生成的行動應用程式,這個發現可以直接應用。

    Universal-NER(arXiv:2308.03279)

    Universal-NER 論文專門針對命名實體辨識:即在文字中識別和標記實體(人物、組織、地點、日期、自定義實體類型)的任務。這是生產 AI 流程中最常見的任務之一。

    研究人員使用從 ChatGPT 蒸餾的資料集訓練了一個 7B 模型,涵蓋 43 個跨多元領域的實體辨識資料集。結果:在所有 43 個資料集上達到最佳水準,超越 ChatGPT 的實體擷取表現。

    對應用程式開發者而言,NER 不是邊緣案例。從自由文字中擷取結構化資料、合約分析、履歷解析、醫療記錄結構化、客服工單實體標記:這些都是 NER 或 NER 相關任務。7B 模型在所有 43 個基準資料集上擊敗 ChatGPT 的發現表明,對於這類問題,微調不是妥協。而是嚴格的改進。

    為什麼會這樣:專家優勢

    理解為什麼微調小型模型在領域任務上擊敗大型通用模型,有助於你預測這個模式何時適用於你的特定使用場景。

    想想全科醫師和心臟科醫師的區別。心臟科醫師對大多數醫學主題的了解遠少於全科醫師。她只懂心臟學。但如果你的問題是心律不整,你會想找心臟科醫師。她在你特定問題上的深度勝過全科醫師的廣度。

    語言模型的運作方式相同。GPT-4 的約 1.8 兆參數編碼了其訓練涵蓋的所有領域知識:歷史、數學、烹飪、文學、程式碼、法律、醫學、數十種語言,以及數百萬個專業主題。這些參數分布在所有這些領域中。

    當你在特定領域上微調一個 3B 模型時,你將 30 億個參數集中在問題空間的一個狹窄切片上。模型會對你任務中重要的模式發展出密集、精確的表示。它學習特定於你領域的邊緣案例、術語、輸出慣例和失敗模式。GPT-4 從提示詞中推斷這些。微調模型已經將它們內化。

    小型模型獲勝的公式:任務定義明確、訓練資料與部署領域匹配、輸出格式是結構化或受限的。當這三個條件都成立時,專家就能擊敗通才。

    小型模型何時勝出,何時不會

    理解條件很重要。微調小型模型不是前沿 API 的通用替代品。研究顯示了每種方法適用時機的明確模式。

    微調小型模型勝出的場景:

    • 任務狹窄且定義明確(分類、擷取、實體辨識、在受限語言或框架內的程式碼生成)
    • 訓練資料涵蓋部署分布(你有看起來像使用者實際會發送的範例)
    • 輸出格式是結構化或可預測的(JSON、特定類別、受限程式碼、實體標籤)
    • 領域是專業化的(法律、醫療、金融、技術),其中專業詞彙和慣例很重要
    • 數量夠大,每 token 的 API 成本會累積(微調是一次性成本;推論是免費的)

    通用大型模型仍然勝出的場景:

    • 任務需要跨多個領域的開放式推理(研究綜合、複雜多步驟規劃)
    • 你沒有訓練資料,無法用範例定義正確輸出
    • 輸入分布真正不可預測(任何問題都可能出現的聊天機器人、無約束的創意生成)
    • 任務需要從多元來源組合的廣泛世界知識
    • 你正在原型開發階段,尚未驗證任務規格到底是什麼

    誠實的總結:如果你能為你的任務寫出 500 個範例的正確輸出是什麼樣子,微調小型模型很可能在該任務上超越 GPT-4。如果不能,先從 API 模型開始,收集資料直到你能夠。

    這對行動應用程式意味著什麼

    上述研究是在伺服器部署的模型上進行的。對行動應用程式的影響更為強烈。

    Phi-3-mini 以 808MB 的大小可在中階手機上運行。量化後的 7B 模型可在 4GB 以下的記憶體中運行。這些模型完全在裝置上運行,零網路延遲和零每次請求成本。顯示領域優勢超越 GPT-4 的基準測試不是在雲端硬體上測量的。相同的模型在裝置上本地運行,產生相同的輸出。

    對行動開發者而言,這意味著三件事同時疊加。

    第一,品質:一個微調的裝置端模型可以在你的特定任務上匹配或超越 GPT-4,正如學術文獻所證明的。

    第二,延遲:裝置端推論完全消除網路往返。在 iPhone 15 上,量化 3B 模型每秒大約生成 20-30 個 token。分類或擷取任務在不到一秒內完成,沒有任何一個位元組離開裝置。

    第三,成本:推論是免費的。不需要 API 金鑰。沒有每 token 計費。沒有隨使用者數量增長的帳單。一旦模型在裝置上,它可以以零邊際成本運行任意次數。

    這種組合是任何雲端 API 都無法提供的。你無法從託管服務獲得優於 GPT-4 的領域準確度、低於 100ms 的延遲和零每次請求成本。但你可以從微調的裝置端模型獲得這三者。

    實際的限制是模型大小。3.8B 模型(Phi-3-mini)在 4 位元量化下約 2GB。7B 模型約 4GB。應用程式下載大小很重要,不是每個使用場景都值得這個儲存空間。但對於 AI 功能是核心價值主張的應用程式,這個權衡通常是值得的。

    如何為你的使用場景測試這一點

    學術基準測試回答的問題是「這在原則上是否可行」。你需要回答的問題是「這對我的特定任務是否可行」。以下是一套方法論,讓你在不承諾完整生產部署的情況下獲得可靠答案。

    步驟 1:定義任務並收集範例。 寫下你的任務的正確輸出是什麼樣子。從你的日誌或手動標註中收集 400-600 個真實範例。將它們分為訓練集(80%)和評估集(20%)。不要混合這些集合。

    步驟 2:用 GPT-4 建立基準線。 使用你最好的零次學習和少次學習提示詞,將評估集通過 GPT-4 運行。記錄你的目標指標:分類的準確率、擷取的欄位級 F1、結構化輸出的精確匹配率。這是你要匹配或超越的表現。

    步驟 3:微調一個小型模型。 選擇適合你領域的基礎模型:Phi-3-mini(3.8B)用於大小最重要的通用任務,Mistral-7B 或 Qwen-2.5-7B 用於你有更多空間的任務。在你的訓練集上以低學習率微調 3-5 個 epoch。使用 LoRA 在單個 GPU 上的總訓練時間:500 個範例的資料集約 20-60 分鐘。

    步驟 4:在相同資料集上評估。 使用與 GPT-4 相同的指標,將你的評估集通過微調模型運行。比較結果。如果微調模型以更低的成本和延遲達到你的品質標準,你就有了答案。

    步驟 5:明確測試邊緣案例。 建立一個包含 50-100 個邊緣案例的單獨集合:模糊輸入、分布外範例、對抗性輸入。在這個集合上測試兩個模型。微調模型在遠離其訓練分布的邊緣案例上通常表現較差。決定你的生產流量是否會經常遇到這些案例。

    整個過程包含資料準備需要 2-3 天。它為你的特定任務提供基於證據的答案,而不是關於小型模型能做什麼或不能做什麼的一般性聲明。

    結論

    GPT-4 是 AI 任務品質天花板的假設,並不被過去兩年發表的研究所支持。在領域特定任務上,六個獨立研究團隊發現,770M 到 13B 參數之間的模型在使用正確資料訓練時,持續匹配或超越 GPT-4 的表現。

    這些條件是真實的。這些結果不適用於開放式推理、廣泛世界知識任務,或遠超出訓練分布的輸入。它們適用於構成大多數生產 AI 工作負載的任務:分類、擷取、實體辨識、領域問答、結構化輸出生成,以及受限領域內的程式碼生成。

    如果你正在建構行動應用程式並將每個 AI 呼叫路由到雲端 API,你正在為通才付費,而你的使用者需要的是專家。研究表明專家勝出。數學表明裝置端推論在部署後成本為零。唯一剩下的問題是你是否有工具來微調和部署這個專家。

    這部分現在比以前容易得多了。

    如需裝置端與 API 推論在規模化時的詳細成本分析,請參閱 裝置端 vs 雲端 API:真正的成本計算。如需微調第一個小型模型的實用指南,請參閱 為你的應用程式微調模型

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading