
白標 AI:為每位客戶構建客製化模型
AI 機構如何使用微調的 LoRA 適配器提供白標 AI 解決方案——一個基礎模型,數十個客戶專屬適配器,高端定價。
如果你的機構正在用包裝 UI 轉售 GPT 訪問,你已經知道問題所在。你的客戶只需一次 Google 搜索就能做你做的事情——註冊 ChatGPT,貼上相同的提示,然後完全排除你。單靠提示工程沒有護城河。定價是在競相壓低,每次 OpenAI 降低每個 token 的成本,利潤就收縮。
轉售商品 AI 不是一個業務。它是有到期日的套利。
白標 AI 是替代方案
將會蓬勃發展的機構是那些提供客戶真正無法自行複製的東西的機構:在每位客戶的領域資料上訓練的客製化模型,在他們的品牌下部署,在他們控制的基礎設施上運行。
白標 AI 模型不只是能很好地回答通用問題。它說客戶的語言。它了解他們的產品目錄、內部術語、合規限制。它產生的輸出感覺是其業務原生的——因為它字面上是在他們的業務上訓練的。
這不是科幻。有了現代微調技術,構建客戶專屬模型現在是一個可重複的、可擴展的機構工作流程。
LoRA 適配器如何使這在實踐中可行
在機構規模實現白標 AI 的關鍵技術是 LoRA(低秩自適應)。不是為每個客戶訓練完整的模型——這在計算和存儲方面都是成本高昂的——而是訓練一個修改共享基礎模型行為的小型適配器。
這樣想:你維護一個基礎模型(比如 Qwen 2.5 7B 或 Llama 3.3 8B)。對於每位客戶,你訓練一個通常只有 50 至 200MB 大小的 LoRA 適配器。那個適配器編碼了該客戶的所有特定內容——他們的 語調、領域知識、輸出格式偏好。
在推理時,你加載基礎模型一次,並按請求交換適配器。二十個客戶不意味著二十個模型。它們意味著一個模型和二十個小型適配器文件。
工作流程
以下是白標合作通常的樣子:
-
收集客戶資料。 這可能是支援記錄、產品文件、內部知識庫、範例輸入和期望輸出。客戶提供;你將其整理為訓練就緒格式。
-
微調 LoRA 適配器。 使用整理好的資料集,你在選定的基礎模型之上訓練適配器。在 5,000 個範例上訓練 7B 模型適配器在單個 GPU 上大約需要 30 至 60 分鐘。
-
匯出到 GGUF。 訓練完成後,你將適配器與基礎模型合並並以 GGUF 格式匯出——本地和邊緣部署的標準格式。
-
部署。 模型可以通過 Ollama 在客戶自己的基礎設施上運行,在你管理的 VPS 上,或任何支持 GGUF 的平台上。客戶獲得一個與 OpenAI SDK 完全相容的 API 端點——他們現有的程式碼就可以 工作。
-
迭代。 隨著客戶提供反饋和新資料,你重新訓練適配器。基礎模型保持不變。更新適配器的周轉時間可以是幾小時,而非幾週。
經濟學
這是對機構商業模式真正有吸引力的地方。
以中等使用量(比如每位客戶每天 50 萬個 token)在 OpenAI API 上運行二十個客戶,按 GPT-4o 定價大約每位客戶花費 280 美元/月。這是僅 API 成本 5,600 美元/月,還不算你的利潤空間。
在帶有 LoRA 適配器的自托管基礎模型上運行二十個客戶,成本為基礎推理基礎設施(一台有能力的 GPU 伺服器約 200 至 400 美元/月)加上適配器存儲(所有二十個適配器約 50 美元)。你所有二十個客戶的總基礎設施成本低於 500 美元/月。
節省不是增量的。它們是數量級的。你重新獲得的利潤空間成為你真正的產品差異化:你不是在轉售別人的 API。你在交付專有模型。