
capacity-planningon-premiseenterprise-aiai-infrastructuregpusegment:enterprise
企業 AI 容量規劃:如何調整本地基礎設施規模
本地 AI 基礎設施規模調整的逐步技術指南。涵蓋計算、儲存、網路和電力需求,附帶規模調整工作表及應避免的常見規劃錯誤。
EErtas Team·
本地 AI 最昂貴的錯誤是購買錯誤的硬體。規模過大意味著數十萬美元的閒置計算。規模過小意味著性能瓶頸,破壞了本地的商業案例。與雲端不同,你無法通過配置更改來調整 GPU 集群的規模——你要訂購交貨期長達 8 到 16 週的硬體。
本指南介紹了結構化的容量規劃流程:盤點工作負載、計算計算需求、考量儲存和網路,以及規劃增長。 目標是一個具體、可辯護的硬體建議——而非模糊的「買些 GPU」。
第一步:盤點你的 AI 工作負載
在選擇任何硬體之前,建立將在你的本地基礎設施上運行的每個 AI 工作負載的完整清單。這包括當前正在運行的工作負載(即使它們在雲端)和未來 18 個月內計劃的工作負載。
對每個工作負載,記錄:
| 欄位 | 示例值 | 為何重要 |
|---|---|---|
| 工作負載名稱 | 客服聊天機器人 | 識別 |
| 類型 | 推理 | 決定 GPU 使用模式 |
| 模型 | Llama 3.1 14B(Q4 量化) | 決定 VRAM 和計算需求 |
| 每日請求數 | 50,000 次查詢 | 決定吞吐量需求 |
| 峰值 QPS | 每秒 15 次查詢 | 決定並發 GPU 實例 |
| 平均輸入令牌數 | 800 個令牌 | 影響延遲和吞吐量 |
| 平均輸出令牌數 | 400 個令牌 | 影響延遲和吞吐量 |
| 延遲要求 | 首個令牌低於 3 秒 | 決定所需 GPU 等級 |
| 資料敏感性 | 高(包含客戶 PII) | 確認本地需求 |
| 可用性需求 | 99.9%(每年 8.7 小時停機) | 決定冗餘需求 |
| 增長預測 | 12 個月內翻倍 | 決定餘量 |
將此清單建立為試算表。它成為所有後續規模調整決策的基礎。
常見差距: 組織盤點其主要工作負載,但忘記了支援工作負載。基於 RAG 的聊天機器人不只需要推理計算,還需要:
- 文件攝入的嵌入生成(在 GPU 上運行)
- 檢索的重排模型(在 GPU 上運行)
- 向量資料庫(在 CPU 上運行,需要快速儲存)
- 文件處理管道(混合 CPU/GPU)
這些都消耗必須規劃的資源。