
從提示工程到微調:遷移手冊
從提示工程遷移到微調的團隊的實用手冊——何時進行切換、如何將提示轉換為訓練資料,以及逐步遷移流程。
您有一個花了幾週時間才完善的系統提示。它有 2,000 個 token 長,塞滿了示例、邊緣案例說明和格式規則。它能用——大部分時候。但它很脆弱、昂貴,且以持續耗費您時間的方式不一致。
這是將該提示遷移到微調模型的手冊。不是理論,不是推銷話術。而是代理商和產品公司的團隊用來將成本降低 60–80%,同時提高輸出一致性的逐步流程。
您已達到提示工程上限的跡象
在投資微調之前,請確保您確實處於上限,而不只是在寫糟糕的提示。以下是具體指標:
您的提示超過 2,000 個 token。 這麼長的系統提示意味著您通過大量指令來編碼行為。每個 token 在推理時都要花錢,隨著提示長度增加,模型對您指令的注意力會降低。如果您每個請求僅在系統提示上花費 $0.01–0.03,那是一個結構性問題。
小的提示變更會破壞不相關的輸出。 您修復了模型對邊緣案例 A 的處理,突然它對任務 B 的格式退化了。這是您的提示是紙牌屋的跡象——模型在整體上解釋指令,一個部分的變更以不可預測的方式與其他部分交互。
相同運行的輸出各不相同。 您發送相同的輸入,使用相同的提示,溫度設置為 0,仍然有 15–25% 的時間得到明顯不同的輸出。模型處於其輸出空間中,注意力的微小數值差異會產生不同的路徑。更多提示無法修復這個問題——模型需要更強的行為信號。
您在用自然語言編碼複雜的條件邏輯。 「如果輸入包含日期,則將其格式化為 ISO 8601,除非它是相對日期,如『下週二』,在這種情況下根據當前日期轉換為絕對日期,但如果輸入還包含時區...」這種邏輯屬於代碼或學習行為,而不是系統提示。
您已達到精確度平台。 兩週的提示迭代使您從 75% 精確度提升到 82%。又兩週使您達到 84%。您現在花費整天時間試圖擠出一個百分點。模型沒有足夠的信號繼續前進。
遷移決策框架
並非每個提示都應該成為微調模型。以下是投資回報計算:
任務的月度 API 成本。 如果您通過 API 在單一任務上每月花費超過 $200(包括長系統提示帶來的膨脹 token 成本),微調可能在 2–4 週內收回成本。在單個 GPU 上運行的微調 8B 模型每月計算成本約為 $50–150,在沒有系統提示的情況下處理相同任務,且通常產生更好的結果。
量很重要。 微調有固定的前期成本——準備資料和訓練的時間。在每天 100 個請求的情況下,這個投資在幾週內就能攤銷。在每天 5 個請求的情況下,可能需要幾個月。低於每天大約 50 個請求時,除非一致性對業務至關重要,否則繼續使用提示工程。
任務窄度很重要。 微調最適合窄且定義明確的任務。「將客戶電子郵件分類為 12 個類別」是理想的候選。「成為可以做任何事的通用助手」則不是。如果您的提示涵蓋具有清晰輸入和輸出的單一任務,您處於微調領域。
遷移流程:五個步驟
步驟 1:記錄您當前的提示和預期行為
在更改任何東西之前,凍結您的當前系統。記錄:
- 確切的系統提示(在 git 中版本化)
- 50–100 個代表性輸入及其實際輸出
- 您認為哪些輸出是正確的、部分正確的和錯誤的
- 您試圖修復的具體故障模式
這成為您的評估基準。您將把微調模型與此基準進行比較,您需要關於當前系統實際表現的真實資料。大多數團隊在測量之前高估了他們提示的性能。
步驟 2:從您的提示中提取訓練資料
您系統提示中的每個示例都是等待提取的訓練示例。一個包含 5 個少量示例的 2,000 個 token 提示已經包含了您的前 5 個訓練對。但真正的洞察是您的提示還包含隱式訓練資料:
- 每個指令(「列表始終使用項目符號」)暗示著幾十個輸出使用項目符號的輸入-輸出對
- 每個邊緣案例規則暗示著練習該規則的訓練示例
- 每個格式要求暗示著展示正確格式的示例
逐行檢查您的提示。對於每條指令,創建 10–20 個演示指令被正確遵循的輸入-輸出對。如果您的提示有 15 條不同的指令,僅從解碼提示就給您 150–300 個訓練示例。
步驟 3:再生成 1,000–2,000 個額外示例
從提示提取的示例是個開始,但您需要量。以下是實用方法:
- 採用您目前正在使用的現有提示 + API 組合
- 在多樣化輸入中生成 3,000–5,000 個輸出
- 積極篩選——只保留符合您品質標準的輸出
- 目標是 1,000–2,000 個高品質訓練對
這一步通常需要幾個小時的 API 調用,費用約 $20–50,具體取決於任務。關鍵是篩選。不要在訓練資料中包含平庸的輸出。如果當前系統 80% 的時間產生正確輸出,就篩選到那 80% 並丟棄其餘的。
專業提示: 包含涵蓋已知故障模式的輸入。如果基於提示的系統 30% 的時間在日期格式化上失敗,生成許多日期格式化示例,並手動更正 API 出錯的輸出。這就是微調模型最清楚地超越提示的地方。
步驟 4:微調較小的模型
有了訓練資料,實際微調很簡單:
- 基礎模型: Llama 3.1 8B 或 Qwen 2.5 7B 是大多數任務的強大起點。它們足夠小可以在單個 GPU 上訓練,且對窄任務足夠強大。
- 方法: 大多數任務使用 rank 16–32 的 LoRA。完整微調很少必要,且增加了過擬合風險。
- 訓練: 在您的資料集上進行 2–4 個 epoch。更多的 epoch 有過擬合風險,尤其是對於較小的資料集。
- 驗證: 保留 10–15% 的資料用於驗證。監控損失曲線以防過擬合。
在 Ertas Studio 上,整個過程需要 30–90 分鐘,具體取決於資料集大小和 GPU 可用性。您上傳資料,選擇基礎模型,配置 LoRA 參數並訓練。沒有基礎設施設置,沒有 CUDA 驅動調試。
步驟 5:嚴格比較品質
針對微調模型運行步驟 1 中的評估基準。比較:
- 精確度: 微調模型是否匹配或超越了基於提示的系統?在大多數情況下,它會超越 5–15 個百分點,因為它見過的示例是提示中所能容納的 100 倍。
- 一致性: 每個測試輸入運行 5 次。微調模型應產生幾乎相同的輸出。提示常常有所不同;微調行為更穩定。
- 延遲: 沒有 2,000 個 token 的系統提示,微調模型處理請求更快。在較小模型上預計延遲降低 30–50%。
- 成本: 計算每個請求的成本。自托管 8B 模型通常比對前沿模型的 API 調用(帶有長提示)便宜 1/10 到 1/50。
如果微調模型在特定領域表現不佳,針對這些領域添加更多訓練示例並重新訓練。微調是迭代的,就像提示工程一樣——但迭代是累積的而不是相互抵消的。
常見遷移錯誤
嘗試微調通用模型而不是窄模型。 如果您的提示執行五個不同的任務,不要為所有五個微調單一模型。訓練五個獨立的 LoRA 適配器。每個適配器保持小巧,訓練快速,並擅長其特定任務。在 Ertas 上,您可以在推理時無開銷地切換適配器。
在切換生產流量之前沒有進行充分測試。 讓微調模型以影子模式運行至少一週——處理真實輸入並將輸出與當前系統進行比較,而不向用戶提供結果。在您的用戶發現之前捕獲故障。
跳過資料品質步驟。 500 個高品質訓練示例優於 5,000 個平庸示例。花時間在篩選和更正上。如果訓練資料中的示例有格式錯誤,模型將學習該錯誤。
使用過高的 LoRA rank。 Rank 64 或 128 聽起來比 rank 16 更好,但對於窄任務,它通常只是過擬合。從低開始,評估,只有在欠擬合是問題時才提高 rank。
成本比較:前後對比
以下是代理商遷移合同條款提取任務的真實場景:
| 指標 | 提示 + GPT-4o | 微調 Llama 8B |
|---|---|---|
| 系統提示 | 1,800 個 token | 0 個 token |
| 平均請求成本 | $0.024 | $0.001 |
| 月度成本(每天 3,000 個請求) | $2,160 | $90(自托管) |
| 精確度 | 83% | 91% |
| 中位延遲 | 2.8 秒 | 0.9 秒 |
| 一致性(重試時相同輸出) | 78% | 97% |
微調模型訓練花費 $40 的計算費用,不到兩天就收回了成本。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ertas 如何使這成為一個下午的項目
上面的遷移手冊有五個步驟。在 Ertas Studio 上,基礎設施阻力降至接近零:
- 上傳您的訓練資料(JSONL 格式)——Ertas 驗證格式並標記品質問題
- 從模型中心選擇基礎模型——Llama、Qwen、Mistral 等預先加載
- 配置和訓練——LoRA rank、學習率和 epoch 的合理默認值,如果您需要完全控制
- 評估——內建對您的測試集的評估,包含精確度、一致性和延遲指標
- 部署——一鍵部署到 Ertas Deploy,或導出適配器用於自托管
從「我有一個要替換的提示」到「我有一個已部署的微調模型」的整個過程,對典型任務需要 2–4 小時。模型訓練本身是 30–90 分鐘。其餘是資料準備,無論您使用什麼工具都是一樣的。
困難的部分從來不是基礎設施。而是知道何時進行切換以及如何準備資料。這正是這本手冊的用途。
相關閱讀:
- 提示工程有其上限。以下是超越之後的道路。 — 更深入探討為什麼提示停止改進
- 如何微調 LLM:完整指南 — 微調過程的技術細節
- 無代碼微調 AI — 使用 Ertas Studio 的無代碼介面進行遷移
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Synthetic Data for Fine-Tuning: How to Generate Training Data That Actually Works
A practical guide to generating synthetic training data for fine-tuning — covering prompt strategies, quality filtering, distribution matching, and the 80/20 rule for mixing real and synthetic data.

Prompt Engineering Has a Ceiling. Here's What Comes After.
Prompt engineering can take you far — but every agency and developer hits the wall eventually. Here's what the ceiling looks like, why it exists, and what techniques come after.

Fine-Tuning vs. Prompt Engineering for Legal Document Review
When does prompt engineering hit its ceiling for legal AI tasks? A practical comparison of prompt engineering and fine-tuning for contract review, with a decision framework for agencies.