Back to blog
    在企業硬體上運行微調模型:CPU vs GPU vs NPU 指南
    hardwarecpugpunpuenterprise-aion-premiseinferencesegment:enterprise

    在企業硬體上運行微調模型:CPU vs GPU vs NPU 指南

    比較 CPU、GPU 和 NPU 在企業環境中運行微調小型語言模型的技術指南。包含性能基準測試、成本分析和基礎設施團隊的決策框架。

    EErtas Team·

    你已經微調了你的小型語言模型,它在基準測試中表現良好。現在是基礎設施問題:你應該在什麼硬體上運行它?

    這並不像「直接買 GPU」那麼簡單。正確答案取決於你的部署規模、模型大小、延遲要求和現有基礎設施。服務單個團隊的 3B 參數模型與服務整個組織的 14B 模型有非常不同的硬體需求。

    本指南比較三種加速器類型——CPU、GPU 和 NPU——附帶真實性能數字、成本分析和基礎設施團隊的決策框架。

    三種加速器類型

    CPU:通用基準線

    資料中心的每台伺服器都有 CPU。每個工作站、每台筆記型電腦、每個虛擬機器。CPU 是任何企業中最可用的計算資源,而帶有 AVX-512 或 AMX(高級矩陣擴展)指令的現代 CPU 可以以可用速度運行量化的 SLM。

    優勢:

    • 零額外硬體採購——你已經擁有它們
    • 沒有驅動程式問題,沒有 CUDA 相容性問題
    • 在現有伺服器群中水平擴展
    • 每個運維團隊都熟悉

    局限性:

    • 矩陣運算比 GPU 慢得多
    • 對於互動式使用,實際上限制在 3B 參數以下的模型
    • 與專用加速器相比,每個 token 的功耗更高

    最適合: 小型模型(3B 以下)、低量部署、原型設計,以及想完全避免 GPU 採購的情況。

    Shunya Labs 和類似供應商展示了 CPU 優先架構,聲稱對適合的工作負載與 GPU 部署相比降低了 20 倍成本。關鍵限定詞是「適合」——這適用於中等量的小型模型,而不是以高吞吐量運行 14B 模型。

    GPU:性能標準

    NVIDIA GPU 仍然是 AI 推理的預設選擇,這是有充分理由的。高記憶體頻寬、大規模並行性和成熟軟體生態系統(CUDA、cuDNN、TensorRT)的組合意味著 GPU 為語言模型推理提供最佳的原始性能。

    企業 SLM 部署的相關 GPU 層級:

    GPUVRAMFP16 TFLOPS價格(約)目標用途
    RTX 4060 Ti16GB22$400–$500單用戶、小型模型
    RTX 409024GB83$1,600–$2,000小型團隊,最多 14B 模型
    L40S48GB91$7,000–$9,000部門、多模型服務
    A10040/80GB78/78$8,000–$15,000高吞吐量生產
    H10080GB267$25,000–$35,000全組織、最大吞吐量

    AMD 的 MI300X(192GB HBM3)正在成為 NVIDIA H100 的具成本效益的替代品,特別是在推理工作負載方面,AMD 的 ROCm 軟體堆疊已經成熟到足以用於生產。定價介於 A100 和 H100 層級之間,具有競爭力的吞吐量。

    優勢:

    • 任何大小模型的最高絕對吞吐量
    • 具有廣泛優化工具的成熟軟體生態系統
    • 從單用戶(RTX 4060)到企業(H100)的擴展
    • 支援在同一硬體上進行推理和微調

    局限性:

    • 採購成本,特別是資料中心 GPU
    • 功耗(資料中心 GPU 每張卡 300–700W)
    • 跨群管理 GPU 驅動程式和 CUDA 版本
    • 高端卡的供應限制(雖然在 2026 年有所改善)

    最適合: 任何吞吐量或模型大小超過 CPU 或 NPU 能力的部署。這是任何有意義量的 7B 以上模型的預設選擇。

    NPU:效率優先

    神經處理單元是整合在現代處理器中的專用推理加速器。與 GPU(通用並行處理器,適應 AI)不同,NPU 專為神經網路推理的矩陣運算和記憶體訪問模式而設計。

    當前 NPU 實現:

    NPU所在產品TOPS (INT8)功耗狀態
    Intel NPU(Meteor Lake)Intel Core Ultra 筆電/工作站10–115–15W可用
    Intel NPU(Arrow Lake)Intel Core Ultra 200 系列135–15W可用
    Qualcomm Hexagon(Snapdragon X)Snapdragon X Elite/Plus 筆電4515–25W可用
    Apple Neural Engine(M4)M4/M4 Pro/M4 Max MacBook3810–20W可用
    AMD XDNA 2(Ryzen AI)AMD Ryzen AI 300 系列5015–25W可用

    優勢:

    • 功耗比 GPU 顯著更低
    • 內建在你的企業可能已經採購的硬體中(新筆電和工作站)
    • 無需單獨採購——它在晶片上
    • 靜音操作(辦公室環境中沒有 GPU 風扇噪音)
    • 足夠好的量化 SLM 的單用戶互動推理

    局限性:

    • 比離散 GPU 絕對吞吐量更低
    • 軟體生態系統仍在成熟(框架支援因廠商而異)
    • 限於較小的模型(實際上限約 7B 量化)
    • 性能在廠商之間差異顯著
    • 多用戶服務不實用——NPU 設計用於單用戶工作負載

    最適合: 個人工作站部署、邊緣推理、模型在員工筆記型電腦/桌機上運行而無需伺服器基礎設施的場景。

    Microsoft 的 Foundry Local 計劃在此提供了有用的信號:它旨在在 Windows PC 上本地運行模型,針對現代設備中的 NPU 和整合 GPU 硬體。當主要平台廠商針對特定硬體進行優化時,這是生態系統走向的可靠指標。

    性能基準測試

    以下是抽象比較變得具體的地方。以下基準顯示了量化 7B 模型(Q4_K_M 量化,品質和速度的良好平衡)在不同硬體上的每秒 token 數。

    每秒 Token 數——量化 7B 模型(Q4_K_M)

    硬體Token/秒備註
    CPU:32 核 Xeon W(伺服器)8–15 tok/s使用帶 AVX-512 的 llama.cpp
    CPU:Intel Core Ultra 7(筆電)5–10 tok/s使用 llama.cpp
    CPU:AMD Ryzen 9 7950X(桌機)10–18 tok/s16 核,快速記憶體有幫助
    GPU:RTX 4060 Ti(16GB)60–80 tok/s入門級離散 GPU
    GPU:RTX 4090(24GB)80–120 tok/s最佳消費級 GPU
    GPU:A100(40GB)100–150 tok/s資料中心標準
    GPU:H100(80GB)150–200 tok/s單 GPU 峰值性能
    NPU:Qualcomm Snapdragon X Elite20–40 tok/sHexagon NPU,框架依賴
    NPU:Apple M4 Max(Neural Engine)40–60 tok/s統一記憶體架構有幫助
    NPU:Intel Core Ultra(Meteor Lake NPU)8–15 tok/s早期 NPU 世代,在改善中

    這些數字在實踐中意味著什麼

    對於互動式使用(聊天機器人、人在等待的文件分析):

    • 舒適: 30 個以上 token/秒。用戶看到快速、流暢的回應。
    • 可接受: 15–30 token/秒。可以注意到的生成速度,但仍然可用。
    • 令人沮喪: 低於 15 token/秒。用戶在逐字觀看文字出現。

    對於批次處理(文件分類、夜間擷取工作):

    • 吞吐量比每個查詢的速度更重要
    • 以 10 tok/s 運行的 CPU 仍然可以在一夜之間處理數千份文件
    • 跨多個 CPU 核心或多個 GPU 實例的並行性線性擴展

    較小模型改變了等式

    上述基準適用於 7B 模型。較小的模型成比例地更快:

    硬體7B(Q4)tok/s3.8B(Q4)tok/s1.5B(Q4)tok/s
    CPU:32 核 Xeon8–1515–3030–60
    GPU:RTX 409080–120140–200250–400
    NPU:Snapdragon X Elite20–4040–7060–100
    Apple M4 Max40–6070–100100–160

    現代筆電 CPU 上的 3.8B 模型(如 Phi-3 mini)每秒提供 15–30 個 token——對於互動式使用足夠舒適。在 NPU 或 Apple Silicon 上,它是 40–100 token/秒,足夠快,用戶幾乎不會注意到生成延遲。

    每個 Token 的成本

    原始速度不能說明全部情況。預算規劃真正重要的是成本效率:當你在硬體的使用壽命內攤銷時,每個 token 的成本是多少?

    每百萬 Token 成本(攤銷 3 年)

    假設:硬體以 70% 使用率每天運行 12 小時,電力成本 $0.12/kWh。

    硬體硬體成本每月攤銷電力/月Token/月(估計)每百萬 Token 成本
    CPU:32 核 Xeon 伺服器$5,000$139$401.3 億$1.38
    GPU:RTX 4090 + 伺服器$6,000$167$5513 億$0.17
    GPU:L40S + 伺服器$13,000$361$7019 億$0.23
    GPU:A100 + 伺服器$18,000$500$8024 億$0.24
    GPU:H100 + 伺服器$38,000$1,056$12032 億$0.37
    NPU:筆電(Snapdragon X)$1,500$42$85,200 萬$0.96
    NPU:MacBook Pro M4 Max$3,500$97$109,600 萬$1.11

    出現了一些規律:

    RTX 4090 是成本效率冠軍。 每百萬 token $0.17,它提供任何選項中最低的每 token 成本。這是一個 $1,600 的消費者 GPU 在 $4,400 的伺服器中——總系統成本約 $6,000。對於中小型部署,這很難超越。

    資料中心 GPU(A100、H100)用成本效率換取吞吐量和可靠性。 H100 每個 token 的成本是 RTX 4090 的 2 倍,但它提供更高的絕對吞吐量、支援更大的批次大小、具有 ECC 記憶體,並且設計用於 24/7 資料中心操作。對於任務關鍵型生產工作負載,溢價是合理的。

    CPU 每個 token 最昂貴,但如果你使用現有伺服器,增量硬體成本為零。如果你的伺服器在非工作時間有空閒 CPU 容量,運行推理的邊際成本本質上只是電力——每月 $40。

    NPU 在成本上是中等的,但它們的真正價值在於部署簡便性。沒有伺服器基礎設施,沒有 GPU 採購,沒有專用冷卻。模型在員工已經使用的同一台筆記型電腦上運行。

    量化因素

    量化是將模型權重從其原始精度(通常是 FP16 或 BF16,每個權重 16 位)降低到更低精度(8、5 或 4 位)的技術。這直接影響模型大小、推理速度和輸出品質。

    量化等級比較(7B 模型)

    量化位元/權重模型大小速度影響品質影響
    FP16(無量化)16約 14GB基準基準(最佳)
    Q8_08約 7.5GB約 1.5 倍更快品質損失可忽略
    Q5_K_M5約 5.3GB約 2 倍更快非常輕微的品質損失
    Q4_K_M4約 4.4GB約 2.5 倍更快輕微品質損失,大多數任務可接受
    Q4_04約 4.0GB約 2.8 倍更快細微任務上明顯的品質損失
    Q3_K_M3約 3.3GB約 3 倍更快顯著品質損失
    Q2_K2約 2.7GB約 3.5 倍更快大量品質損失,不推薦

    企業甜蜜點:Q4_K_M

    對於大多數企業工作負載,Q4_K_M 提供最佳的權衡:

    • 大小縮減: 比 FP16 小 3.2 倍,7B 模型適合 4–5GB VRAM
    • 速度提升: 推理比 FP16 快 2–2.5 倍
    • 品質保留: 在結構化任務(分類、擷取)上退化最小。與窄型企業任務的 FP16 相比,準確率下降通常不到 1%。

    何時應該使用更高精度?

    • Q5_K_M: 如果你的任務涉及細微文字生成或你的微調顯示對量化的敏感性。比 Q4_K_M 多消耗約 20% VRAM,換取邊際品質提升。
    • Q8_0: 用於評估和基準測試以建立品質上限,或對於每一小部分準確率都很重要的任務(醫療、法律關鍵決策)。
    • FP16: 幾乎從不用於生產推理。性能損失不能為生產工作負載中的邊際品質提升辯護。

    何時可以更低?

    • Q3_K_M 或 Q2_K: 只有當硬體限制絕對需要時(例如,在可用記憶體 2GB 的設備上運行)。品質權衡是真實且可測量的。在部署之前進行徹底測試。

    決策框架

    以下是如何將你的部署場景與正確硬體匹配的方法。

    單用戶工作站

    場景: 一名員工將微調模型用於日常工作——文件分析、郵件分類、代碼審查。

    推薦:

    • 如果他們有現代筆記型電腦(2024 年以後): 使用 NPU 或整合 GPU。通過 Ollama 部署 Q4 量化的 3.8B 模型(Phi-3 mini)。不需要額外硬體。
    • 如果他們有帶 GPU 的桌機: 任何帶有 8GB 以上 VRAM 的離散 GPU 都可以舒適地運行 Q4 7B 模型。即使是 RTX 3060(12GB)也可以。
    • 如果沒有 GPU 且 CPU 較舊: 使用 Q4 量化的 1.5B 或 3B 模型,或考慮更換 Snapdragon X 或 M4 Mac。

    預期性能: 每秒 15–60 個 token,取決於模型大小和硬體。足夠用於互動式使用。

    小型團隊(5–20 名用戶)

    場景: 一個團隊共享用於常見工作負載的微調模型——法律合約審查、客戶支援分類、合規性檢查。

    推薦:

    • 預算選項: 團隊伺服器中的單個 RTX 4090。總計 $6,000。以可接受的延遲處理 Q4 7B 模型上的 5–15 個並發用戶。
    • 生產選項: 機架式伺服器中的單個 L40S。總計 $13,000。以突發流量的餘裕處理 15–30 個並發用戶。

    預期性能: 每位用戶 30–80 token/秒(取決於並發性),短查詢延遲低於 100ms。

    部門(50–200 名用戶)

    場景: 全部門部署——所有客服代理、所有分析師、所有法律員工。

    推薦:

    • 多 GPU 伺服器中的 2–4 個 RTX 4090,或 1–2 個 L40S 卡。運行 vLLM 以實現高效的批次排程和持續批次處理。
    • 總成本:伺服器 $15,000–$30,000。
    • 對於 200 個並發用戶,在適當的批次處理下,預期每位用戶 15–30 token/秒。

    預期性能: 與雲 API 延遲相當(每個短查詢 100–300ms),具有本地硬體的成本優勢。

    全組織(500 名以上用戶)

    場景: 一個或多個微調模型的全公司部署,可能服務多個應用程式。

    推薦:

    • GPU 集群: 專用伺服器或小型機架中的 4–8 個資料中心 GPU(A100 或 H100)。
    • 使用帶負載平衡的 vLLM 或 TGI 跨 GPU 實例。
    • 考慮冗餘:N+1 GPU 配置用於故障轉移。
    • 總成本:基礎設施 $80,000–$200,000,在這個量的等效雲 API 成本的 3–6 個月內收回成本。

    預期性能: 雲競爭性延遲和吞吐量,完全資料主權,無邊際每 token 成本。

    電力和冷卻考量

    基礎設施團隊在規劃 GPU 部署時通常忽視電力和冷卻。以下是預算:

    硬體功耗年度電力成本(@$0.12/kWh)冷卻開銷
    RTX 4090450W TDP約 $473標準辦公室 HVAC
    L40S350W TDP約 $368機架式冷卻
    A100300W TDP約 $315資料中心冷卻
    H100700W TDP約 $735需要資料中心冷卻
    NPU(筆記型電腦)15–25W約 $26無(被動)

    對於 1–4 個 GPU,現有辦公室基礎設施通常能應對電力和冷卻負載。超出這個範圍,你需要帶有適當配電和冷卻容量的專用機架空間。

    結論

    沒有單一「最佳」硬體用於運行微調模型。正確的選擇直接對應你的部署規模:

    • 個人使用: 他們已經擁有的設備上的 NPU 或 CPU。成本:$0 增量。
    • 團隊使用: 共享伺服器中的單個 RTX 4090。成本:約 $6,000。
    • 部門使用: 帶有 2–4 個 GPU 的多 GPU 伺服器。成本:$15,000–$30,000。
    • 全組織: 資料中心 GPU 集群。成本:$80,000–$200,000。

    在每種情況下,總擁有成本都是相同查詢量下等效雲 API 支出的一小部分。硬體決策不是關於是否在本地部署——高量工作負載的經濟學已經有利於它。而是關於將硬體調整到你的實際規模和成長軌跡。

    從滿足你當前需求的最小配置開始。單個 RTX 4090 伺服器是一個 $6,000 的實驗,可以為 15 人的團隊提供服務。如果結果證明擴展是合理的,則增量添加容量。GPU 伺服器不需要長期承諾或多年合約——它們是你擁有並可以重新調整用途的資本設備。

    矽已經準備好了。模型已經準備好了。決策是一個直接的基礎設施規劃練習,而不是技術賭注。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading