為 Qualcomm Snapdragon NPU 模型準備訓練資料

Qualcomm 的 AI 計算棧跨越從雲端訓練基礎設施到設備上神經處理單元的範疇。硬體能力強大，模型最佳化工具成熟。持續缺失的一環是訓練資料。

在雲端基準測試上表現良好的模型在 Snapdragon 設備上表現不佳，不是因為硬體限制或量化損失，而是因為訓練資料從未針對設備上的限制進行設計。以下是如何為 Qualcomm 生態系統的每個層級準備真正有效的資料。

Qualcomm 的 AI 計算棧

Qualcomm 在四個層級提供 AI 計算，每個層級有不同的模型容量和資料要求：

Qualcomm AI 100（雲端） 用於模型訓練和微調的雲端 GPU。這是您的模型以完整精度訓練的地方。沒有設備限制——標準微調資料實踐適用。AI 100 在模型針對邊緣部署進行最佳化之前處理計算密集型訓練步驟。

Snapdragon XElite（筆記型電腦） 具有筆記型電腦級設備專用 NPU 的 X Elite 處理器。支援 Q4 量化的最高 80 億參數模型。16–32GB 統一記憶體。2048–4096 token 的上下文視窗是實際的。這是最有能力的設備上目標——適合生產力應用、本地 AI 助手和企業工具。

Snapdragon 8 Gen 系列——Hexagon NPU（行動裝置） 旗艦行動處理器中的 Hexagon NPU。實際上支援 Q4 量化的最高 10 億參數模型。8–12GB 共享設備記憶體（模型與其他應用競爭）。512–1024 token 的上下文視窗以獲得響應性能。這是最受限制也是最常見的部署目標。

Qualcomm 的 IoT/邊緣處理器 用於 IoT 設備的微控制器和嵌入式處理器。通常限於低於 1 億參數的模型或傳統機器學習模型。此層級的資料準備遵循不同的模式（結構化感測器資料而非文字），超出本指南的範圍。

Hexagon NPU（行動裝置）的資料準備

Hexagon NPU 是最受限制的，因此是最嚴格的資料準備目標。行動設備上的 5 億–10 億模型基本上沒有浪費容量的餘地。

上下文視窗：生產中 512–1024 token

行動用戶以短暫的形式互動。臨床分診應用處理 50 個詞的症狀描述。現場巡檢工具分類 100 個詞的觀察。客戶服務機器人處理 200 個詞的詢問。

訓練資料必須反映這個現實。如果您的資料集包含 2,000 個 token 輸入的示例，模型學習的注意力模式是針對長上下文的，而在生產中它永遠不會看到這些。每個花在學習長上下文模式上的參數，都是短上下文性能中不可用的參數。

行動： 測量您預期的生產輸入分布。將訓練資料篩選到該分布的第 5–95 百分位。對於預期 30–150 個 token 輸入的分診應用，您的訓練示例應為 20–200 個 token。

詞彙：必須高效

5 億模型的嵌入層與較大模型共享相同的詞彙表（通常 32,000–128,000 個 token），但每個 token 的嵌入向量更小。模型無法像 700 億模型那樣豐富地表示每個 token。

如果您的領域定期使用 3,000 個獨特術語，但您的訓練資料從更廣泛的覆蓋中引入了 30,000 個獨特 token，模型就會將其嵌入容量分散到它很少遇到的術語上。

行動： 分析訓練資料中的 token 頻率。如果一個 token 出現次數少於 5 次，要麼刪除示例，要麼用更常見的等效詞替換 token。標準化術語：選擇「patient」或「client」，並在資料集中統一。

示例長度：匹配生產輸出

如果生產任務產生 10 個 token 的分類標籤，不要在產生 500 個 token 說明的示例上訓練。模型根據訓練分布分配生成容量。訓練它產生它需要產生的東西。

行動： 確保訓練資料中的輸出長度匹配預期生產輸出長度的第 10–90 百分位。對於分類任務：1–5 個 token。對於短格式提取：10–50 個 token。對於簡短響應：50–200 個 token。

量化感知：Q4 存活

Q4 量化將模型精度從 16 位降低到 4 位。這種壓縮很好地保留了常見模式，但在邊緣案例、罕見模式和細微區別上性能下降。

行動： 識別您生產任務中的邊界案例——正確答案模糊或需要細微區分的示例。在訓練資料中以 2–3 倍過度表示這些。如果類邊界在完整精度下就很困難，在 Q4 下會更難。用額外的邊界示例訓練模型可以提高 Q4 魯棒性。

XElite（筆記型電腦）的資料準備

XElite 處理器比行動 NPU 顯著更有能力。8B 模型在 Q4 量化下運行舒適。2048–4096 token 的上下文視窗是實際的。這為更複雜的企業應用打開了大門。

上下文視窗：2048–4096 token 實際可用

筆記型電腦應用處理更長的互動：文檔分析、延伸對話、多頁提取。訓練資料可以相應更長。

行動： 將訓練資料篩選到匹配生產上下文視窗的範圍。對於處理 1–2 頁文檔的文檔分析應用：500–3000 個 token 的訓練示例是合適的。除非您的生產用例需要，否則仍要避免非常長的示例（8,000 個以上 token）。

更廣泛的詞彙容忍度

8B 模型有更豐富的嵌入層。它可以處理更廣泛的詞彙而不會有與 5 億模型相同的容量權衡。特定領域術語、技術術語和各種表達模式更容易容忍。

行動： 標準詞彙篩選仍然有價值——刪除極為罕見的 token（出現次數少於 3 次）——但閾值可以低於行動目標。

更複雜的推理

8B 模型可以可靠地處理 3–5 步推理鏈。訓練資料可以包括多步提取、條件分類和中等摘要任務。

行動： 包含練習多步推理的訓練示例，但將鏈保持在 5 步以下。在實際 XElite 設備上測試，以在擴展資料集之前驗證 Q4 量化下的推理能力。

匯出路徑

資料集準備好後，模型經過 Qualcomm 的最佳化管道：

在雲端進行微調，使用 Qualcomm AI 100 GPU（或等效的雲端計算）
通過 Qualcomm AI Hub 進行最佳化——模型被量化並針對目標 Qualcomm 處理器編譯
匯出到運行時——根據您的部署框架選擇 ExecuTorch、LiteRT 或 ONNX
設備上部署——最佳化的模型在目標 Snapdragon 處理器上運行

每個運行時有特定要求：

ExecuTorch（Meta/PyTorch 生態系統）： 針對 Llama 系列模型最佳化。與 Qualcomm NPU 委托有良好集成。在轉換之前需要 PyTorch 格式的模型。

LiteRT（前身為 TensorFlow Lite）： 廣泛的硬體支援。Qualcomm 為 Hexagon NPU 加速提供委托庫。非常適合分類和提取任務。

ONNX Runtime： 跨平台標準。Qualcomm 為 NPU 加速提供執行提供者。對多平台部署最靈活。

運行時選擇不直接影響資料準備，但它影響模型架構約束，進而影響資料要求。帶有 Llama 模型的 ExecuTorch 與帶有自定義架構的 LiteRT 有不同的分詞和上下文處理方式。

本地部署資料準備層

對於企業團隊來說，這些模型的源資料通常是敏感的：臨床記錄、法律文件、金融交易、專有規格。無論部署目標如何，這些資料都無法發送到雲端標注工具。

工作流程變為：

本地資料準備 → Ertas Data Suite 在本地處理原始企業文檔
雲端訓練 → 準備好的資料集（PII 脫敏、匿名化）移至 AI 100 GPU 進行微調
雲端最佳化 → Qualcomm AI Hub 量化並編譯模型
設備上部署 → 最佳化的模型在 Snapdragon 硬體上運行

Ertas Data Suite 以硬體目標感知的方式處理步驟 1。指定「Snapdragon 8 Gen 3，Hexagon NPU，5 億模型，512 token 上下文」，清理、篩選和增強模塊會相應調整其參數。

清理模塊根據目標篩選長度、複雜性和詞彙。增強模塊生成針對 10 億以下模型容量校準的合成資料。匯出模塊生成帶有記錄目標限制的元數據的 JSONL——以便訓練管道可以驗證相容性。

企業資料不離開大樓。模型從一開始就在清理、篩選、符合生產要求的資料上進行訓練。設備上的性能符合預期，因為資料是為設備設計的。

預訂探索通話 討論您 Qualcomm Snapdragon 部署目標的資料準備。

為 Qualcomm Snapdragon NPU 模型準備訓練資料

Qualcomm 的 AI 計算棧

Hexagon NPU（行動裝置）的資料準備

XElite（筆記型電腦）的資料準備

匯出路徑

本地部署資料準備層

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

為什麼您的微調資料集無法用於端側 AI——以及如何修復它

雲端到邊緣 AI 管道：資料準備如何融入訓練與部署之間

運行時感知資料準備：為什麼您的管道應該了解模型將在哪裡運行