Back to blog
    運行時感知資料準備:為什麼您的管道應該了解模型將在哪裡運行
    on-device-aidata-preparationfine-tuningedge-aienterprise-aisegment:enterprise

    運行時感知資料準備:為什麼您的管道應該了解模型將在哪裡運行

    當前 AI 管道假設先訓練再部署。對於設備端 AI,工作流程是教師模型 → 蒸餾 → 量化 → 運行時約束。了解目標運行時的資料準備能產生根本上更好的模型。

    EErtas Team·

    大多數 AI 資料準備管道完全不知道模型最終將在哪裡運行。它們生成一個 JSONL 文件。該文件被交給訓練腳本。訓練好的模型被部署到某個地方。資料團隊和部署團隊獨立運作,通過文件格式連接。

    當訓練和部署發生在相似的硬體上時,這是可行的。當部署目標是具有 8GB 共享內存、512 個 token 上下文窗口和 50ms 延遲預算的 Qualcomm Snapdragon NPU 時,這就行不通了。

    對於設備端 AI,部署目標應該塑造資料集——而不是相反。

    導致設備端模型失敗的脫節

    以下是典型的企業 AI 管道:

    1. 資料團隊準備訓練資料(針對完整性和覆蓋範圍優化)
    2. ML 團隊微調模型(針對基準準確率優化)
    3. 部署團隊量化和導出(針對硬體適配優化)
    4. 設備端性能比雲端基準低 15–25 個百分點

    第 4 步不應該是一個驚喜。但它一直都是,因為步驟 1–3 在不了解第 4 步部署約束的情況下運作。

    資料團隊包含 4,000 個 token 的示例是因為它們全面。ML 團隊在所有這些上進行訓練因為更多資料通常有幫助。部署團隊量化到 Q4 並將上下文截斷到 512 個 token。模型已在生產環境中永遠無法使用的模式上進行了訓練。

    這不是部署問題。這是在部署時浮現的資料準備問題。

    運行時感知資料準備的含義

    運行時感知資料準備意味著從一開始就將部署約束編碼到資料管道中。在整理任何訓練示例之前,您定義:

    目標硬體概況:

    • Qualcomm Hexagon NPU(移動端):0.5B–1B 模型,4–8GB 內存,15–50ms 延遲
    • Qualcomm XElite Snapdragon(筆記本電腦):3B–8B 模型,16–32GB 內存,50–200ms 延遲
    • Apple Neural Engine:0.5B–3B 模型,統一內存架構
    • Intel NPU:1B–3B 模型,集成在 Core Ultra 處理器中
    • NVIDIA Jetson(邊緣端):3B–14B 模型,專用 GPU 內存

    上下文窗口預算: 不是模型的最大值——而是考慮到內存和延遲約束的實際限制。0.5B 模型技術上可能支持 2048 個 token,但在 512 個 token 下它運行速度快 4 倍並使用少 60% 的內存。您的生產上下文窗口決定了您的訓練資料長度分佈。

    量化級別: Q4(4 位)將模型大小減少 75%,但增加了對邊緣案例的敏感性。Q8(8 位)保留更多精度但需要更多內存。量化級別影響哪些訓練模式在壓縮後得以保留。

    輸出格式: JSON 分類?自由文本響應?結構化提取?輸出格式約束詞彙表、響應長度和有用示例的類型。

    約束如何流入資料決策

    一旦您定義了運行時概況,每個資料準備決策都映射到一個約束。

    長度過濾。 如果您的生產上下文窗口是 512 個 token,您的訓練示例應該有低於 400 個 token 的輸入(為輸出留出空間)。移除或截斷更長的內容。這不是資料損失——這是與生產現實的對齊。

    複雜度校準。 在 Q4 量化下運行 0.5B 模型的 Hexagon NPU 可以可靠地處理單步分類、基於模板的提取和短格式生成。它無法可靠地處理多步推理、條件邏輯鏈或開放式摘要。您的訓練資料應該匹配運行時可以提供的內容。

    詞彙表範圍。 計算您的訓練資料中的唯一 token。對於 0.5B 模型,如果您的訓練詞彙表超過 15,000 個唯一 token,您就把嵌入容量分散得太薄了。通過標準化術語、刪除罕見變體和合併同義詞來減少詞彙表。

    延遲感知示例設計。 如果您的延遲預算是 50ms,您的模型需要在那個窗口內生成輸出。在低於 1B 模型的典型設備端吞吐量 20–40 個 token/秒下,那是 1–2 個 token。您的訓練資料應該產生在該範圍內可測量的輸出,否則您的批處理策略需要考慮更長的生成時間。

    Qualcomm 雲端到邊緣示例

    Qualcomm 的技術棧說明了運行時感知如何改變管道。他們的方法:

    1. 雲端訓練,在 Qualcomm AI 100 GPU 上——模型以完整精度微調
    2. 優化,通過 Qualcomm AI Hub——模型被量化和編譯到目標設備
    3. 導出到運行時格式——ExecuTorch、LiteRT 或 ONNX,取決於部署框架
    4. 設備端部署——移動端使用 Hexagon NPU,筆記本電腦使用 XElite

    資料準備步驟(在第 1 步之前)決定了第 4 步的結果。如果訓練資料在不了解 Hexagon NPU 約束的情況下準備,模型將被完美優化和量化——仍然表現不佳,因為它學習了錯誤的模式。

    針對此技術棧的運行時感知資料管道將:

    • 接受目標設備作為輸入參數(例如,「Snapdragon 8 Gen 3,Hexagon NPU」)
    • 根據目標自動設置長度、複雜度和詞彙表約束
    • 根據這些約束過濾和評分訓練示例
    • 在示例進入訓練集之前標記超過設備能力的示例

    這在實踐中改變了什麼

    採用運行時感知資料準備的團隊報告了一致的改進:

    減少迭代週期。 如果沒有運行時感知,團隊通常需要 4–6 個資料-模型-部署週期才能達到可接受的設備端性能。通過從一開始就編碼運行時約束,這減少到 2–3 個週期。每個週期涉及資料準備、訓練、量化和設備端測試——節省了數週的工程時間。

    更少的部署驚喜。 最昂貴的結果是一個通過所有雲端基準但在設備上失敗的模型。運行時感知資料準備消除了由訓練-部署不匹配引起的失敗類別。

    更好地利用模型容量。 在運行時感知資料上訓練的 0.5B 模型將其有限的參數用於在生產中重要的模式。不浪費容量在模型在設備上永遠不會執行的模式上。

    本地部署約束

    對於企業團隊,還有一個額外的要求:資料準備必須在本地進行。如果您的源資料包含臨床記錄、法律文件或財務交易,您不能將其發送到雲端標注工具——即使最終模型在設備上運行。

    這創建了一個三環境工作流程:

    • 本地部署:資料準備(敏感資料留在建築物內)
    • 雲端:在 GPU 集群上進行模型訓練(只有模型權重和準備好的資料集,不是原始源資料)
    • 設備端:模型部署(推理資料留在設備上)

    資料準備環境必須在運行時感知的同時也是氣隙的。這種組合——運行時感知加上本地部署操作——正是大多數企業團隊所缺少的。

    Ertas Data Suite 的方法

    Ertas Data Suite 是一個完全在本地運行的原生桌面應用程序。在配置資料準備項目時,您指定目標部署:

    • 設備類別(移動 NPU、筆記本電腦、邊緣設備、數據中心)
    • 模型大小目標(0.5B、1B、3B、8B、14B+)
    • 上下文窗口預算
    • 量化級別

    清理模組自動調整質量評分閾值以匹配這些約束。增強模組根據目標模型容量生成校準的合成資料。導出模組驗證最終資料集與指定部署目標的相容性。

    沒有資料離開建築物。管道知道模型將在哪裡運行。企業設備端 AI 團隊最需要的兩個要求——隱私和運行時感知——在單個工具中得到處理。

    預訂探索通話,討論您的設備端 AI 部署的運行時感知資料準備。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading