
從 API 依賴到模型擁有者:90 天遷移操作手冊
將您的 AI 工作負載從雲端 API 遷移到您擁有的微調模型的分階段、風險管理計劃。每個階段都有具體里程碑的逐週分解。
您已閱讀關於供應商依賴風險的內容。您已完成獨立性檢查清單。您知道成本數學有利於擁有的模型。現在您需要一個計劃。
這個操作手冊涵蓋了從 API 依賴遷移到模型擁有的最初 90 天。它是為沒有 ML 專業知識的團隊設計的,假設您可以訪問您的 API 日誌和領域數據。目標不是消除所有 API 使用——而是擁有您最關鍵的 AI 能力並為持續的獨立性建立基礎。
開始之前:遷移心態
兩個原則使順暢遷移和痛苦遷移之間有所不同:
並行運行,不是冷切換。 您不是在第一天就拔掉 API 整合並用微調模型替換它。您是並排運行兩者、比較品質,並逐漸路由流量。API 保持活躍,直到微調模型證明自己。
從窄開始,系統性擴展。 不要試圖一次遷移所有內容。選擇一個任務。做對它。建立信心和機構知識。然後重複。
第一階段:稽核(第 1-14 天)
第 1 週:盤點您的 AI 接觸點
映射您的應用程序或工作流調用 AI API 的每個地方。對於每個接觸點,記錄:
| 字段 | 示例 |
|---|---|
| 任務描述 | 將支持工單分類到類別 |
| 提供商/模型 | OpenAI GPT-4o-mini |
| 每月量 | 12,000 次請求 |
| 每月成本 | 340 美元 |
| 輸入格式 | 非結構化文本(1-3 段) |
| 輸出格式 | 預定義列表中的單一類別標籤 |
| 品質要求 | 準確率 90% 以上 |
| 關鍵性 | 高——將工單路由到正確的團隊 |
| 可用訓練數據 | 是——CRM 中 18 個月的分類工單 |
大多數團隊發現他們在生產中有 3-8 個不同的 AI 任務。有些有更多。
第 2 週:評分和優先排序
在三個維度上對每個任務評分:
微調適合性(1-5):
- 一致的輸入/輸出格式 → 更高分數
- 大量 → 更高分數
- 可用訓練數據 → 更高分數
- 特定領域詞彙或知識 → 更高分數
- 主觀或創意輸出 → 更低分數
業務影響(1-5):
- 高每月成本 → 更高分數
- 面向客戶 → 更高分數
- SLA 敏感 → 更高分數
- 產生收入 → 更高分數
遷移複雜性(1-5,越低越好):
- 簡單分類/提取 → 低複雜性
- 多步驟推理 → 中等複雜性
- 開放式生成 → 較高複雜性
- 多模態(文本 + 圖像) → 最高複雜性
優先級 = 適合性 × 影響 ÷ 複雜性
您得分最高的任務是您的試點遷移目標。在大多數企業中,它是以下之一:
- 客戶支持工單分類/路由
- 以特定格式生成內容
- 從結構化文件提取數據
- FAQ/知識庫響應生成
- 線索資格鑑定或評分
第二階段:試點(第 15-45 天)
第 3 週:準備您的訓練數據集
您的 API 日誌是您的訓練數據。從您的生產系統提取輸入/輸出對。
最小數據集大小: 500 個高品質示例。這對於格式一致的明確定義任務就足夠了。
推薦: 1,000-2,000 個示例。給模型更多邊緣案例來學習。
品質優於數量。 500 個經過仔細審查的示例優於 5,000 個嘈雜的示例。花時間在數據品質上,而不僅僅是數量。
數據集準備步驟:
-
匯出原始數據。 從您的 API 日誌、CRM 或數據庫中提取輸入/輸出對。格式化為您的訓練工具期望的聊天消息結構的 JSONL。
-
過濾品質。 刪除 API 輸出不正確、格式不良或需要手動糾正的示例。您只需要任務正確完成的示例。
-
去重複。 幾乎相同的示例會增加噪音。刪除重複和近重複項。
-
平衡類別。 如果您在訓練分類器,確保所有類別都有合理的代表性。極端不平衡(90% 類別 A,2% 類別 B)會導致模型在少數類別上表現不佳。
-
分割數據。 保留 10-15% 作為不會在訓練中使用的測試集。這是您的評估基準。
第 4-5 週:微調模型
選擇您的基礎模型。 對於大多數業務任務:
- 7B 參數 — 快速推理,在消費級硬體上運行,適合分類和提取
- 14B 參數 — 更適合生成任務,需要更多計算但仍然實用
- Llama 3、Qwen 2.5 或 Mistral — 都是生產品質,都是商業寬鬆許可
選擇您的訓練方法:
- LoRA/QLoRA — 標準方法。在凍結的基礎權重之上訓練輕量級適配器(50-200MB)。內存效率高,訓練快速,適配器是可攜帶的。
- 完整微調 — 修改所有權重。對於複雜任務更好,但需要更多計算。對於明確定義的業務任務通常是不必要的。
訓練配置(起始點):
- 學習率:2e-4
- 批量大小:4-8
- 輪次:2-3
- LoRA 秩:32
使用 Ertas: 上傳您的 JSONL 數據集,選擇您的基礎模型,開始訓練。平台處理 GPU 配置、超參數管理和進度追蹤。設置大約需要 2 分鐘。訓練時間取決於數據集大小和模型——LoRA 微調通常需要 15-60 分鐘。
運行 2-3 次實驗。 嘗試不同的基礎模型、LoRA 秩或訓練持續時間。跨實驗的並排比較有助於找到最佳配置。
第 6 週:評估
通過 API 模型和您的微調模型運行您的保留測試集。比較:
定量指標:
- 準確率(對於分類/提取任務)
- 格式合規性(輸出是否符合您的預期結構?)
- 一致性(對等效輸入的相同答案?)
- 延遲(每個請求的響應時間)
品質閾值: 對於有良好訓練數據的特定領域任務,預期:
- 分類和提取準確率 90-95%
- 在生成品質上與 API 模型相差 5-10% 以內
- 格式合規性超過 98%
如果微調模型達不到:
- 在表現不佳的領域添加更多訓練示例
- 檢查數據品質問題(錯誤標注的示例、不一致的格式)
- 嘗試更大的基礎模型(7B → 14B)
- 增加 LoRA 秩以獲得更多容量
大多數品質差距通過更好的數據而不是更大的模型來解決。
第三階段:驗證(第 46-60 天)
第 7-8 週:影子部署
將您的微調模型與 API 並排部署。通過兩個模型路由所有生產流量,但只向用戶提供 API 模型的響應。
實時比較輸出:
- 記錄每個請求的兩個響應
- 標記分歧以供人工審查
- 追蹤真實生產流量(而不僅僅是測試集性能)的品質指標
- 監控訓練數據中沒有出現的邊緣案例
影子部署捕獲靜態評估遺漏的問題:
- 輸入分佈轉移(真實流量模式與訓練數據不同)
- 罕見邊緣案例(您的測試集未涵蓋的輸入)
- 格式變化(用戶不總是像您的訓練示例那樣寫作)
第 8-9 週:A/B 測試
一旦影子部署確認品質對等,進行真正的 A/B 測試:
- 將 10-20% 的生產流量路由到微調模型
- 向這些用戶提供微調模型的響應
- 比較業務指標:用戶滿意度、任務完成率、錯誤率
- 如果指標保持,擴展到 50%
- 在每個流量百分比下至少監控一整週
繼續的決策標準:
- 在您的關鍵指標上品質在 API 模型的 5% 以內
- 用戶投訴或錯誤報告沒有增加
- 格式合規性超過 95%
- 延遲在您的應用程序可接受範圍內
開始您的 90 天遷移。Ertas 處理最難的部分——數據集準備、訓練、評估、GGUF 匯出——都在視覺界面中。以早鳥定價預訂 →
第四階段:擴展(第 61-90 天)
第 9-10 週:試點任務的生產切換
A/B 測試驗證後,將您的試點任務流量 100% 路由到微調模型。
切換檢查清單:
- 將模型匯出到 GGUF 格式
- 在您的生產推理基礎設施(Ollama、vLLM 或 llama.cpp)上部署
- 為品質指標配置監控和警報
- 維護 API 備用(保持 API 整合活躍但休眠——如果需要可以路由回去)
- 更新您的文件和操作手冊
衡量影響:
- 每月成本減少(API 賬單降低)
- 延遲改善(本地推理通常更快)
- 可靠性改善(不依賴外部 API 正常運行時間)
- 品質指標(應保持 A/B 測試期間驗證的水平)
第 11-12 週:開始下一次遷移
將相同的過程應用到您的第二優先級任務。由於您已建立了機構知識,這進行得更快:
- 您的數據管線已建立
- 您的評估框架已存在
- 您的部署基礎設施 正在運行
- 您的團隊了解微調工作流
後續遷移的典型時間:3-4 週(相比第一次的 6 週)。
第 12 週:建立持續節奏
設置保持您的微調模型最新的系統:
重新訓練計劃。 隨著您的業務發展,您的模型需要更新。每月或每季度用新數據重新訓練可以保持高性能。使用您的生產日誌作為新訓練數據——模型自己的輸出(由人工驗證)反饋到未來的訓練中。
品質監控。 持續追蹤準確率指標。設置品質降級的警報。如果準確率下降到您的閾值以下,觸發重新訓練週期。
版本管理。 保留以前的模型版本以供回滾。追蹤每個環境中部署了哪個模型版本。
常見陷阱(以及如何避免它們)
陷阱 1:試圖一次遷移所有內容
錯誤: 花幾週時間為所有 8 個 AI 任務構建精心設計的遷移計劃,然後嘗試並行執行。
解決方法: 先交付一次遷移。從中學習。將這些學到的東西應用到下一次。在構建新的組織能力時,順序勝過並行。
陷阱 2:訓練數據品質不足
錯誤: 將 10,000 個原始 API 日誌倒入訓練數據集而不審查。日誌包括不正確的輸出、不一致的格式,以及 API 模型處理不當的邊緣案例。
解決方法: 在數據策劃上花更多時間,在數據量上花更少時間。審查示例。刪除壞的。確保格式一致。800 個策劃的示例優於 5,000 個未審查的示例。
陷阱 3:跳過影子部署
錯誤: 直接從測試集評估到生產部署。測試集沒有捕獲真實世界輸入的完整分佈。
解決方法: 始終進行影子部署。始終進行 A/B 測試。額外的 2-3 週驗證可以防止需要超過 2-3 週恢復的生產事件。
陷阱 4:為錯誤的指標優化
錯誤: 在您的 API 模型只達到 85% 時追求 99% 的準確率。微調模型達到 92%——比 API 更好——但團隊繼續迭代因為它不「完美」。
解決方法: 您的基準是當前的 API 模型,而不是理論上的完美。如果微調模型在您的指標上匹配或超過 API,那就是成功的遷移。
陷阱 5:忘記備用
錯誤: 遷移到微 調模型後刪除 API 整合。三個月後,您需要重新訓練模型,在訓練窗口期間沒有備用。
解決方法: 保持 API 整合休眠。如果您不調用它,您就不需要為它付費。但在緊急情況下擁有它——即使是短暫的——值得最低限度的維護成本。
Ertas 捷徑
上面的操作手冊適用於任何微調工具鏈。但許多手動工作——GPU 配置、訓練配置、數據集格式化、GGUF 匯出——可以通過正確的平台壓縮。
使用 Ertas,第 2-3 階段大幅壓縮:
- 數據集上傳替代手動 JSONL 準備(或使用視覺編輯器)
- 一鍵訓練替代 GPU 設置、配置文件和監控腳本
- 內置評估替代自定義評估管線
- 跨實驗並排比較替代手動追蹤
- GGUF 匯出替代量化工具鏈
手動工具需要 6 週的遷移可以用整合平台壓縮到 2-3 週。最難的部分——團隊卡住的地方——正是平台處理的部分。
90 天後
在這個操作手冊結束時,您應該有:
- 1-2 個生產任務在您擁有的微調模型上運行
- 已記錄和量化的已證明成本節省
- 評估框架為未來的遷移準備好
- 部署基礎設施正在運行和監控
- 優先排序的下一批任務列表要遷移
- 微調工作流的機構知識
您不再完全依賴 API。您擁有關鍵的 AI 能力。您的成本更可預測。您的產品更具彈性。
下次 AI 供應商發送棄用通知或定價變更時,您將有選擇——而不僅僅是義務。
開始您的遷移。Ertas 在視覺界面中處理整個管線——從數據集到 GGUF——不需要代碼。以早鳥定價預訂。查看方案 →
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Pydantic AI On-Device: Fine-Tune Qwen3-4B for Type-Safe Mobile Agents
Pydantic AI brings type safety and FastAPI ergonomics to LLM agents. Combine it with a fine-tuned 4B model running on-device via llama.cpp and you get production-grade agents in mobile apps with zero API costs and validated outputs by construction.

Replacing OpenAI in OpenAI Agents SDK With Your Fine-Tuned Local Model
The OpenAI Agents SDK is intentionally model-agnostic. Swap the OpenAI client for an Ertas-trained model running on Ollama and you keep the developer experience while killing per-token costs. A drop-in tutorial.

Mastra + Vercel AI SDK + On-Device GGUF: A TypeScript Mobile Agent Stack With No API Costs
TypeScript-first mobile builders don't have to use Python agent frameworks. Mastra and the Vercel AI SDK plus a fine-tuned 4B model running on-device through llama.cpp produce a complete agent stack with zero per-token costs.