
為 Qualcomm Snapdragon NPU 模型準備訓練資料
針對 Qualcomm AI 計算棧的硬體專用資料準備指南:適用於行動裝置的 Hexagon NPU、筆記型電腦的 XElite,以及透過 Qualcomm AI Hub 的雲端到邊緣管道。
Qualcomm 的 AI 計算棧跨越從雲端訓練基礎設施到設備上神經處理單元的範疇。硬體能力強大,模型最佳化工具成熟。持續缺失的一環是訓練資料。
在雲端基準測試上表現良好的模型在 Snapdragon 設備上表現不佳,不是因為硬體限制或 量化損失,而是因為訓練資料從未針對設備上的限制進行設計。以下是如何為 Qualcomm 生態系統的每個層級準備真正有效的資料。
Qualcomm 的 AI 計算棧
Qualcomm 在四個層級提供 AI 計算,每個層級有不同的模型容量和資料要求:
Qualcomm AI 100(雲端) 用於模型訓練和微調的雲端 GPU。這是您的模型以完整精度訓練的地方。沒有設備限制——標準微調資料實踐適用。AI 100 在模型針對邊緣部署進行最佳化之前處理計算密集型訓練步驟。
Snapdragon XElite(筆記型電腦) 具有筆記型電腦級設備專用 NPU 的 X Elite 處理器。支援 Q4 量化的最高 80 億參數模型。16–32GB 統一記憶體。2048–4096 token 的上下文視窗是實際的。這是最有能力的設備上目標——適合生產力應用、本地 AI 助手和企業工具。
Snapdragon 8 Gen 系列——Hexagon NPU(行動裝置) 旗艦行動處理器中的 Hexagon NPU。實際上支援 Q4 量化的最高 10 億參數模型。8–12GB 共享設備記憶體(模型與其他應用競爭)。512–1024 token 的上下文視窗以獲得響應性能。這是最受限制也是最常見的部署目標。
Qualcomm 的 IoT/邊 緣處理器 用於 IoT 設備的微控制器和嵌入式處理器。通常限於低於 1 億參數的模型或傳統機器學習模型。此層級的資料準備遵循不同的模式(結構化感測器資料而非文字),超出本指南的範圍。
Hexagon NPU(行動裝置)的資料準備
Hexagon NPU 是最受限制的,因此是最嚴格的資料準備目標。行動設備上的 5 億–10 億模型基本上沒有浪費容量的餘地。
上下文視窗:生產中 512–1024 token
行動用戶以短暫的形式互動。臨床分診應用處理 50 個詞的症狀描述。現場巡檢工具分類 100 個詞的觀察。客戶服務機器人處理 200 個詞的詢問。
訓練資料必須反映這個現實。如果您的資料集包含 2,000 個 token 輸入的示例,模型學習的注意力模式是針對長上下文的,而在生產中它永遠不會看到這些。每個花在學習長上下文模式上的參數,都是短上下文性能中不可用的參數。
行動: 測量您預期的生產輸入分布。將訓練資料篩選到該分布的第 5–95 百分位。對於預期 30–150 個 token 輸入的分診應用,您的訓練示例應為 20–200 個 token。
詞彙:必須高 效
5 億模型的嵌入層與較大模型共享相同的詞彙表(通常 32,000–128,000 個 token),但每個 token 的嵌入向量更小。模型無法像 700 億模型那樣豐富地表示每個 token。
如果您的領域定期使用 3,000 個獨特術語,但您的訓練資料從更廣泛的覆蓋中引入了 30,000 個獨特 token,模型就會將其嵌入容量分散到它很少遇到的術語上。
行動: 分析訓練資料中的 token 頻率。如果一個 token 出現次數少於 5 次,要麼刪除示例,要麼用更常見的等效詞替換 token。標準化術語:選擇「patient」或「client」,並在資料集中統一。
示例長度:匹配生產輸出
如果生產任務產生 10 個 token 的分類標籤,不要在產生 500 個 token 說明的示例上訓練。模型根據訓練分布分配生成容量。訓練它產生它需要產生的東西。
行動: 確保訓練資料中的輸出長度匹配預期生產輸出長度的第 10–90 百分位。對於分類任務:1–5 個 token。對於短格式提取:10–50 個 token。對於簡短響應:50–200 個 token。
量化感知:Q4 存活
Q4 量化將模型精度從 16 位降低到 4 位。這種壓縮很好地保留了常見模式,但在邊緣案例、罕見模式和細微區別上性能下降。
行動: 識別您生產任務中的邊界案例——正確答案模糊或需要細微區分的示例。在訓練資料中以 2–3 倍過度表示這些。如果類邊界在完整精度下就很困難,在 Q4 下會更難。用額外的邊界示例訓練模型可以提高 Q4 魯棒性。
XElite(筆記型電腦)的資料準備
XElite 處理器比行動 NPU 顯著更有能力。8B 模型在 Q4 量化下運行舒適。2048–4096 token 的上下文視窗是實際的。這為更複雜的企業應用打開了大門。
上下文視窗:2048–4096 token 實際可用
筆記型電腦應用處理更長的互動:文檔分析、延伸對話、多頁提取。訓練資料可以相應更長。
行動: 將訓練資料篩選到匹配生產上下文視窗的範圍。對於處理 1–2 頁文檔的文檔分析應用:500–3000 個 token 的訓練示例是合適的。除非您的生產用例需要,否則仍要避免非常長的示例(8,000 個以上 token)。
更廣泛的詞彙容忍度
8B 模型有更豐富的嵌入層。它可以處理更廣泛的詞彙而不會有與 5 億模型相同的容量權衡。特定領域術語、技術術語和各種表達模式更容易容忍。
行動: 標準詞彙篩選仍然有價值——刪除極為罕見的 token(出現次數少於 3 次)——但閾值可以低於行動目標。
更複雜的推理
8B 模型可以可靠地處理 3–5 步推理鏈。訓練資料可以包括多步提取、條件分類和中等摘要任務。
行動: 包含練習多步推理的訓練示例,但將鏈保持在 5 步以下。在實際 XElite 設備上測試,以在擴展資料集之前驗證 Q4 量化下的推理能力。
匯出路徑
資料集準備好後,模型經過 Qualcomm 的最佳化管道:
- 在雲端進行微調,使用 Qualcomm AI 100 GPU(或等效的雲端計算)
- 通過 Qualcomm AI Hub 進行最佳化——模型被量化並針對目標 Qualcomm 處理器編譯
- 匯出到運行時——根據您的部署框架選擇 ExecuTorch、LiteRT 或 ONNX
- 設備上部署——最佳化的模型在目標 Snapdragon 處理器上運行
每個運行時有特定要求:
ExecuTorch(Meta/PyTorch 生態系統): 針對 Llama 系列模型最佳化。與 Qualcomm NPU 委托有良好集成。在轉換之前需要 PyTorch 格式的模型。
LiteRT(前身為 TensorFlow Lite): 廣泛的硬體支援。Qualcomm 為 Hexagon NPU 加速提供委托庫。非常適合分類和提取任務。
ONNX Runtime: 跨平台標準。Qualcomm 為 NPU 加速提供執行提供者。對多平台部署最靈活。
運行時選擇不直接影響資料準備,但它影響模型架構約束,進而影響資料要求。帶有 Llama 模型的 ExecuTorch 與帶有自定義架構的 LiteRT 有不同的分詞和上下文處理方式。
本地部署資料準備層
對於企業團隊來說,這些模型的源資料通常是敏感的:臨床記錄、法律文件、金融交易、專有規格。無論部署目標如何,這些資料都無法發送到雲端標注工具。
工作流程變為:
- 本地資料準備 → Ertas Data Suite 在本地處理原始企業文檔
- 雲端訓練 → 準備好的資料集(PII 脫敏、匿名化)移至 AI 100 GPU 進行微調
- 雲端最佳化 → Qualcomm AI Hub 量化並編譯模型
- 設備上部署 → 最佳化的模型在 Snapdragon 硬體上運行
Ertas Data Suite 以硬體目標感知的方式處理步驟 1。指定「Snapdragon 8 Gen 3,Hexagon NPU,5 億模型,512 token 上下文」,清理、篩選和增強模塊會相應調整其參數。
清理模塊根據目標篩選長度、複雜性和詞彙。增強模塊生成針對 10 億以下模型容量校準的合成資料。匯出模塊生成帶有記錄目標限制的元數據的 JSONL——以便訓練管道可以驗證相容性。
企業資料不離開大樓。模型從一開始就在清理、篩選、符合生產要求的資料上進行訓練。設備上的性能符合預期,因為資料是為設備設計的。
預訂探索通話 討論您 Qualcomm Snapdragon 部署目標的資料準備。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your Fine-Tuning Dataset Won't Work for On-Device AI — And How to Fix It
Most fine-tuning datasets are built for large cloud models. When distilled to 0.5B–1B models for mobile NPUs, the data distribution breaks. Here's why, and how to build datasets that actually work for on-device deployment.

Synthetic Data Generation Optimized for Small Model Distillation
When building 0.5B–1B models for mobile NPU deployment, synthetic data quality matters exponentially more than for large models. Here's how to generate, filter, and validate synthetic training data designed for small model distillation.

Runtime-Aware Data Prep: Why Your Pipeline Should Know Where the Model Will Run
Current AI pipelines assume train-then-deploy. For on-device AI, the workflow is teacher → distillation → quantization → runtime constraints. Data preparation that understands the target runtime produces fundamentally better models.