What is MLOps?

結合機器學習、DevOps 和資料工程以在生產環境中可靠部署、監控和維護 ML 模型的實踐集合。

Definition

MLOps（機器學習營運）是將 DevOps 原則——持續整合、持續交付、自動化、監控和基礎設施即程式碼——應用於機器學習生命週期的學科。它彌合了 ML 實驗（資料科學家在筆記本中建立模型）與生產部署（模型必須以可衡量的品質在規模化環境中可靠地提供預測）之間的差距。

MLOps 涵蓋整個 ML 生命週期：資料管線管理（攝取、驗證、轉換）、實驗追蹤（超參數、指標、產出物）、模型訓練自動化（可重現的訓練管線）、模型註冊表（訓練模型的版本化儲存）、部署（服務基礎設施、A/B 測試、金絲雀發佈）、監控（效能指標、資料漂移偵測、品質警報）和重新訓練（在品質下降時觸發模型更新）。

MLOps 生態系統包括綜合平台（MLflow、Weights & Biases、Kubeflow、SageMaker）和針對每個生命週期階段的專業工具。工具的選擇取決於團隊規模、基礎設施偏好（雲端與本地）以及 ML 系統的複雜度。特別是對於 LLM 微調，MLOps 關注的問題包括跨運行追蹤訓練配置、管理模型產出物（可能達數十 GB）、在推論伺服器後面部署模型，以及在生產中監控輸出品質。

Why It Matters

絕大多數經過訓練的 ML 模型從未到達生產環境——估計範圍從 60% 到 87%。主要原因不是模型品質而是營運差距：無法重現結果、缺乏部署自動化、沒有品質退化監控，以及沒有在模型過時時更新的流程。MLOps 的存在就是為了彌合這些營運差距並提高訓練模型成為生產資產的比率。

對於 LLM 微調團隊，MLOps 尤其重要，因為迭代週期成本高昂。一次微調運行可能需要數小時並花費數百美元的計算資源。沒有實驗追蹤，團隊會重複配置。沒有模型註冊表，他們會失去對已部署模型版本的追蹤。沒有監控，他們會在使用者抱怨之前錯過品質退化。MLOps 將微調從臨時的、手工的過程轉變為系統化、可重複的營運。

How It Works

典型的 MLOps 管線由資料變更（新訓練資料可用）或排程間隔觸發。它執行一系列步驟：資料驗證（檢查 schema 變更、缺失值和分佈偏移）、預處理（應用在特徵儲存中註冊的轉換）、訓練（使用追蹤的超參數和指標運行訓練腳本）、評估（在保留的測試集上將新模型與當前生產模型進行比較）和部署（如果新模型通過品質門檻，透過金絲雀發佈進行部署）。

部署後監控追蹤服務指標（延遲、吞吐量、錯誤率）、模型品質指標（準確度、使用者回饋、下游 KPI），以及資料漂移（將傳入請求的分佈與訓練資料分佈進行比較）。當指標超過定義的閾值時觸發警報，啟動調查並可能觸發重新訓練週期。這種持續的回饋迴圈確保模型在周圍世界變化時維持品質。

Example Use Case

一家金融科技公司每月在更新的客戶互動資料上微調模型。他們的 MLOps 管線自動化了整個工作流程：資料驗證標記資料品質問題、實驗追蹤記錄每個訓練配置、模型註冊表儲存每個訓練模型及其評估指標、自動化 A/B 測試將新模型與現有模型進行比較，以及生產監控在回應品質低於閾值時發出警報。以前每月需要資料科學家工作兩週的流程現在自動運行，只有在偵測到異常時才需要人工審查。