Back to blog
    為 Qualcomm Snapdragon NPU 模型準備訓練資料
    qualcommsnapdragonnpuon-device-aidata-preparationfine-tuningsegment:enterprise

    為 Qualcomm Snapdragon NPU 模型準備訓練資料

    針對 Qualcomm AI 計算棧的硬體專用資料準備指南:適用於行動裝置的 Hexagon NPU、筆記型電腦的 XElite,以及透過 Qualcomm AI Hub 的雲端到邊緣管道。

    EErtas Team·

    Qualcomm 的 AI 計算棧跨越從雲端訓練基礎設施到設備上神經處理單元的範疇。硬體能力強大,模型最佳化工具成熟。持續缺失的一環是訓練資料。

    在雲端基準測試上表現良好的模型在 Snapdragon 設備上表現不佳,不是因為硬體限制或量化損失,而是因為訓練資料從未針對設備上的限制進行設計。以下是如何為 Qualcomm 生態系統的每個層級準備真正有效的資料。

    Qualcomm 的 AI 計算棧

    Qualcomm 在四個層級提供 AI 計算,每個層級有不同的模型容量和資料要求:

    Qualcomm AI 100(雲端) 用於模型訓練和微調的雲端 GPU。這是您的模型以完整精度訓練的地方。沒有設備限制——標準微調資料實踐適用。AI 100 在模型針對邊緣部署進行最佳化之前處理計算密集型訓練步驟。

    Snapdragon XElite(筆記型電腦) 具有筆記型電腦級設備專用 NPU 的 X Elite 處理器。支援 Q4 量化的最高 80 億參數模型。16–32GB 統一記憶體。2048–4096 token 的上下文視窗是實際的。這是最有能力的設備上目標——適合生產力應用、本地 AI 助手和企業工具。

    Snapdragon 8 Gen 系列——Hexagon NPU(行動裝置) 旗艦行動處理器中的 Hexagon NPU。實際上支援 Q4 量化的最高 10 億參數模型。8–12GB 共享設備記憶體(模型與其他應用競爭)。512–1024 token 的上下文視窗以獲得響應性能。這是最受限制也是最常見的部署目標。

    Qualcomm 的 IoT/邊緣處理器 用於 IoT 設備的微控制器和嵌入式處理器。通常限於低於 1 億參數的模型或傳統機器學習模型。此層級的資料準備遵循不同的模式(結構化感測器資料而非文字),超出本指南的範圍。

    Hexagon NPU(行動裝置)的資料準備

    Hexagon NPU 是最受限制的,因此是最嚴格的資料準備目標。行動設備上的 5 億–10 億模型基本上沒有浪費容量的餘地。

    上下文視窗:生產中 512–1024 token

    行動用戶以短暫的形式互動。臨床分診應用處理 50 個詞的症狀描述。現場巡檢工具分類 100 個詞的觀察。客戶服務機器人處理 200 個詞的詢問。

    訓練資料必須反映這個現實。如果您的資料集包含 2,000 個 token 輸入的示例,模型學習的注意力模式是針對長上下文的,而在生產中它永遠不會看到這些。每個花在學習長上下文模式上的參數,都是短上下文性能中不可用的參數。

    行動: 測量您預期的生產輸入分布。將訓練資料篩選到該分布的第 5–95 百分位。對於預期 30–150 個 token 輸入的分診應用,您的訓練示例應為 20–200 個 token。

    詞彙:必須高效

    5 億模型的嵌入層與較大模型共享相同的詞彙表(通常 32,000–128,000 個 token),但每個 token 的嵌入向量更小。模型無法像 700 億模型那樣豐富地表示每個 token。

    如果您的領域定期使用 3,000 個獨特術語,但您的訓練資料從更廣泛的覆蓋中引入了 30,000 個獨特 token,模型就會將其嵌入容量分散到它很少遇到的術語上。

    行動: 分析訓練資料中的 token 頻率。如果一個 token 出現次數少於 5 次,要麼刪除示例,要麼用更常見的等效詞替換 token。標準化術語:選擇「patient」或「client」,並在資料集中統一。

    示例長度:匹配生產輸出

    如果生產任務產生 10 個 token 的分類標籤,不要在產生 500 個 token 說明的示例上訓練。模型根據訓練分布分配生成容量。訓練它產生它需要產生的東西。

    行動: 確保訓練資料中的輸出長度匹配預期生產輸出長度的第 10–90 百分位。對於分類任務:1–5 個 token。對於短格式提取:10–50 個 token。對於簡短響應:50–200 個 token。

    量化感知:Q4 存活

    Q4 量化將模型精度從 16 位降低到 4 位。這種壓縮很好地保留了常見模式,但在邊緣案例、罕見模式和細微區別上性能下降。

    行動: 識別您生產任務中的邊界案例——正確答案模糊或需要細微區分的示例。在訓練資料中以 2–3 倍過度表示這些。如果類邊界在完整精度下就很困難,在 Q4 下會更難。用額外的邊界示例訓練模型可以提高 Q4 魯棒性。

    XElite(筆記型電腦)的資料準備

    XElite 處理器比行動 NPU 顯著更有能力。8B 模型在 Q4 量化下運行舒適。2048–4096 token 的上下文視窗是實際的。這為更複雜的企業應用打開了大門。

    上下文視窗:2048–4096 token 實際可用

    筆記型電腦應用處理更長的互動:文檔分析、延伸對話、多頁提取。訓練資料可以相應更長。

    行動: 將訓練資料篩選到匹配生產上下文視窗的範圍。對於處理 1–2 頁文檔的文檔分析應用:500–3000 個 token 的訓練示例是合適的。除非您的生產用例需要,否則仍要避免非常長的示例(8,000 個以上 token)。

    更廣泛的詞彙容忍度

    8B 模型有更豐富的嵌入層。它可以處理更廣泛的詞彙而不會有與 5 億模型相同的容量權衡。特定領域術語、技術術語和各種表達模式更容易容忍。

    行動: 標準詞彙篩選仍然有價值——刪除極為罕見的 token(出現次數少於 3 次)——但閾值可以低於行動目標。

    更複雜的推理

    8B 模型可以可靠地處理 3–5 步推理鏈。訓練資料可以包括多步提取、條件分類和中等摘要任務。

    行動: 包含練習多步推理的訓練示例,但將鏈保持在 5 步以下。在實際 XElite 設備上測試,以在擴展資料集之前驗證 Q4 量化下的推理能力。

    匯出路徑

    資料集準備好後,模型經過 Qualcomm 的最佳化管道:

    1. 在雲端進行微調,使用 Qualcomm AI 100 GPU(或等效的雲端計算)
    2. 通過 Qualcomm AI Hub 進行最佳化——模型被量化並針對目標 Qualcomm 處理器編譯
    3. 匯出到運行時——根據您的部署框架選擇 ExecuTorch、LiteRT 或 ONNX
    4. 設備上部署——最佳化的模型在目標 Snapdragon 處理器上運行

    每個運行時有特定要求:

    ExecuTorch(Meta/PyTorch 生態系統): 針對 Llama 系列模型最佳化。與 Qualcomm NPU 委托有良好集成。在轉換之前需要 PyTorch 格式的模型。

    LiteRT(前身為 TensorFlow Lite): 廣泛的硬體支援。Qualcomm 為 Hexagon NPU 加速提供委托庫。非常適合分類和提取任務。

    ONNX Runtime: 跨平台標準。Qualcomm 為 NPU 加速提供執行提供者。對多平台部署最靈活。

    運行時選擇不直接影響資料準備,但它影響模型架構約束,進而影響資料要求。帶有 Llama 模型的 ExecuTorch 與帶有自定義架構的 LiteRT 有不同的分詞和上下文處理方式。

    本地部署資料準備層

    對於企業團隊來說,這些模型的源資料通常是敏感的:臨床記錄、法律文件、金融交易、專有規格。無論部署目標如何,這些資料都無法發送到雲端標注工具。

    工作流程變為:

    1. 本地資料準備 → Ertas Data Suite 在本地處理原始企業文檔
    2. 雲端訓練 → 準備好的資料集(PII 脫敏、匿名化)移至 AI 100 GPU 進行微調
    3. 雲端最佳化 → Qualcomm AI Hub 量化並編譯模型
    4. 設備上部署 → 最佳化的模型在 Snapdragon 硬體上運行

    Ertas Data Suite 以硬體目標感知的方式處理步驟 1。指定「Snapdragon 8 Gen 3,Hexagon NPU,5 億模型,512 token 上下文」,清理、篩選和增強模塊會相應調整其參數。

    清理模塊根據目標篩選長度、複雜性和詞彙。增強模塊生成針對 10 億以下模型容量校準的合成資料。匯出模塊生成帶有記錄目標限制的元數據的 JSONL——以便訓練管道可以驗證相容性。

    企業資料不離開大樓。模型從一開始就在清理、篩選、符合生產要求的資料上進行訓練。設備上的性能符合預期,因為資料是為設備設計的。

    預訂探索通話 討論您 Qualcomm Snapdragon 部署目標的資料準備。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading