ML 工程師

使用 Ertas 的視覺化微調和結構化資料準備加速 ML 實驗

The Challenge

開源微調生態系統功能強大但高度碎片化。Unsloth 最佳化了訓練速度但沒有部署方案。Axolotl 提供靈活的配置但需要手動處理 YAML 且沒有實驗追蹤。LLaMA-Factory 給你一個網頁 UI 但將你鎖定在其特定的抽象層中。每個工具都出色地解決了拼圖的一塊而忽略其餘部分，讓 ML 工程師不得不用 shell 腳本、notebook 單元格和資料夾命名慣例來黏合工作流程——當團隊成員加入或專案在兩週後恢復時，這些不可避免地會中斷。GPU 記憶體限制增加了另一層摩擦——工程師可能花一整天來找出量化、批次大小、梯度累積和序列長度的正確組合，以使訓練運行適合其可用硬體。

部署差距是大多數微調專案失敗的地方。ML 工程師在 notebook 中產出了一組漂亮的適配器權重，達到了強勁的評估指標，然後面臨這個問題：接下來呢？轉換為 GGUF 需要找到支持該模型架構的正確 llama.cpp 提交。量化到正確的位元深度需要在 Q4_K_M、Q5_K_M 和 Q6_K 變體之間反覆試驗。沒有標準方法來追蹤哪個實驗產出了哪個適配器、使用了哪個資料集版本，或各次運行的評估指標如何比較。當利害關係人問「你能重現三週前的模型嗎？」誠實的答案通常是「大概可以，如果我能找到正確的 notebook 且訓練資料沒有被覆蓋的話。」這種缺乏可重現性和譜系追蹤不是工具上的不便——它是將微調模型投入生產的根本阻礙。

The Solution

Ertas 提供了 ML 工程師一直在從開源工具中拼湊的統一管線。Studio 的視覺化畫布讓您透過組合模組化區塊來設計訓練管線——資料載入、預處理、LoRA/QLoRA 配置、訓練、評估和匯出——同時暴露有經驗的從業者所期望的完整配置表面。每個參數都可編輯，每個區塊都可以用自訂程式碼替換，整個管線定義都可匯出為可重現的配置檔案。這不是一個簡化的 UI 強行套在訓練庫上——它是一個真正的工作流程編排器，恰好有一個視覺化介面。

實驗追蹤和比較功能完全消除了可重現性差距。Ertas 中的每次訓練運行都會自動記錄其完整譜系：使用了 Vault 中的哪個資料集版本、Hub 中的哪個基礎模型、設定了什麼超參數、達到了什麼評估指標。並排比較視圖讓工程師在單一畫面上評估多個 QLoRA 實驗的損失曲線、基準分數和生成品質。當找到最佳實驗時，一鍵 GGUF 匯出處理轉換和量化管線——包括自動選擇正確 llama.cpp 程式碼路徑的架構感知轉換。匯出的 GGUF 可以部署到 Ollama、llama.cpp、vLLM 或任何其他推論執行環境，無需手動轉換步驟。從原始資料集到已部署生產模型的整個旅程都在一個平台中，具有完整的稽核追蹤。

Key Features

Studio

具有程式碼優先逃生艙的視覺化畫布

Studio 的畫布介面讓您以視覺化方式組合訓練管線，同時保留完整控制。每個區塊都暴露其底層配置，自訂 Python 區塊可以在管線的任何點注入。以圖形方式設計您的工作流程，然後將整個內容匯出為可重現的配置檔案，用於 CI/CD 整合或無頭執行。

Hub

模型比較與基準測試

Hub 不僅是模型註冊表——它是決策工具。跨標準化基準比較基礎模型，按架構和授權篩選，並在投入微調運行之前檢查社群評估。在評估您自己的微調模型時，將它們與相同的基準進行測試，精確量化您的適配器相對基礎的改進程度。

Cloud

託管訓練 GPU

Cloud 消除了 GPU 採購瓶頸。在託管的 A100 或 H100 實例上啟動微調運行，無需處理雲供應商配額、CUDA 驅動程式不匹配或 Spot 實例中斷。按訓練小時付費，自動檢查點確保永不丟失進度——然後將完成的模型部署到任何您想要的地方。

Vault

資料集版本控制與實驗追蹤

Vault 為每個資料集、適配器和訓練產物記錄完整的譜系中繼資料。每個實驗都與產出它的精確資料集版本、基礎模型和超參數集相連結。跨損失曲線、評估指標和樣本輸出並排比較實驗。當您需要重現三個月前的結果時，整個來源鏈只需一鍵。

Example Workflow

一位中期新創公司的 ML 工程師被指派將 GPT-4o 的推理能力蒸餾到一個用於設備端部署的緊湊模型中。他們首先策劃一個 50,000 個範例的資料集，涵蓋公司核心用例的 GPT-4o 輸出——客戶查詢分類、產品推薦和摘要——將版本化資料集上傳至 Vault。在 Hub 中，他們評估三個候選基礎模型：Qwen 2.5 14B、Mistral Nemo 12B 和 LLaMA 3.1 8B，在公司內部基準套件上進行比較。Qwen 2.5 14B 展示了最強的基線表現，因此他們繼續使用它。在 Studio 中，工程師配置 5 個 QLoRA 實驗，變化 rank（8、16、32）、學習率排程和序列長度，在 Cloud 上並行啟動全部五個。訓練完成後，並排比較視圖顯示 rank-16 配合餘弦退火和 4096 序列長度在評估分數（內部基準 91.3%）和適配器大小（48MB）之間產出最佳權衡。工程師深入生成品質標籤頁，抽查所有三個任務類別的輸出，確認蒸餾模型在 94% 的測試案例中匹配 GPT-4o 的輸出品質。一鍵將獲勝實驗匯出為 Q5_K_M GGUF 檔案，Ertas 自動為 Qwen 架構選擇正確的 llama.cpp 轉換路徑。匯出的模型部署到公司 API 閘道後方的 vLLM 實例，以 180ms p95 延遲每分鐘服務 2,000 個請求。完整的實驗歷史——全部 5 次運行、其資料集、配置和指標——保存在 Vault 中供未來參考和稽核。