What is Inference(推論)?
運行已訓練 AI 模型從新輸入資料生成預測或輸出的過程。
Definition
推論是機器學習模型生命週期中的生產階段——模型將訓練期間所學應用於從新的、未見過的輸入生成有用輸出的時刻。對於大型語言模型,推論意味著透過模型的 Transformer 層處理使用者的提示,以產生一系列 token(詞或子詞),形成連貫的回應。雖然訓練只發生一次(或定期進行),但推論會在每個使用者請求時持續發生,使其成為持續營運成本的主要驅動因素和終端使用者體驗的主要決定因素。
推論效能沿著幾個軸來衡量:延遲(首 token 時間和總生成時間)、吞吐量(每秒請求數或每秒 token 數)和每 token 成本。這些指標受模型大小、量化程度、硬體(GPU 與 CPU、記憶體頻寬)、批次處理策略和服務執行時的影響。一個 FP16 的 70B 參數模型可能提供卓越的品質,但需要多個 A100 GPU,而量化為 4 位元 GGUF 格式的相同模型可能在單個 RTX 4090 上以可接受的品質運行,且成本大幅降低。
現代推論優化是一個豐富的領域,涵蓋 KV 快取管理、連續批次處理、推測性解碼、張量並行和 PagedAttention(由 vLLM 使用)等技術。推論堆疊的選擇——無論是用於本地 CPU/GPU 推論的 llama.cpp、用於高吞吐量 GPU 服務的 vLLM,還是用於開發者友好的本地部署的 Ollama——對於同一模型的效能可能產生 5-10 倍的差異。
Why It Matters
推論是 AI 模型為終端使用者提供價值的地方,其成本在模型的生命週期中通常超過訓練成本一個數量級。一個出色但需要 30 秒才能回應的模型會被放棄;一個快速但不準確的模型會侵蝕信任。做好推論意味著平衡品質、速度和成本——這三者取決於對模型大小、量化、硬體和服務基礎設施的明智選擇。對於大規模部署 AI 的組織而言,推論優化直接影響利潤、使用者滿意度和競爭定位。
How It Works
當使用者提交提示時,推論管線首先使用模型的詞彙表將輸入文字分詞為整數 token ID 序列。這些 token 通過模型的嵌入層成為密集向量,然後流經數十個 Transformer 層——每一層應用自注意力和前饋操作。對於自回歸生成,模型一次產生一個 token:在生成每個 token 後,將該 token 附加到輸入序列並進行另一次前向傳遞(使用 KV 快取避免重新計算先前 token 的注意力)。這個迴圈持續到模型發出停止 token 或達到最大輸出長度。產生的 token ID 被解碼回文字並返回給使用者。連續批次處理等優化允許伺服器在單一批次中交錯處理多個請求,最大化 GPU 利用率。
import requests
# Query an Ertas Cloud inference endpoint
response = requests.post(
"https://api.ertas.ai/v1/completions",
headers={"Authorization": "Bearer ert_sk_..."},
json={
"model": "my-org/support-assistant-v2",
"prompt": "How do I upgrade my subscription plan?",
"max_tokens": 256,
"temperature": 0.3,
"stream": True,
},
stream=True,
)
# Stream tokens as they are generated
for chunk in response.iter_lines():
if chunk:
print(chunk.decode(), end="", flush=True)Example Use Case
一家電商公司部署微調過的 7B 模型來驅動其產品推薦聊天機器人。在尖峰時段,系統處理 200 個並行使用者。透過基於 llama.cpp 的後端以 Q4_K_M GGUF 格式提供模型並啟用連續批次處理,他們在單個 A10G GPU 上實現了 180ms 的中位數首 token 時間和每秒 45 個 token 的生成速度——滿足了典型回應低於 2 秒的延遲 SLA,同時將基礎設施成本控制在每次互動低於 $0.001。
Key Takeaways
- 推論是訓練好的模型從新輸入生成輸出的生產階段——是 AI 為使用者提供價值的地方。
- 延遲、吞吐量和每 token 成本是評估推論效能的三個關鍵指標。
- 量化(例如 GGUF Q4_K_M)可以在適度的品質折衷下將推論成本降低 4-8 倍。
- 服務執行時(llama.cpp、vLLM、Ollama)的選擇對效能特性有重大影響。
- 在模型的生命週期中,推論成本通常超過訓練成本,使優化對生產部署至關重要。
How Ertas Helps
Ertas Cloud 為在 Ertas Studio 中微調的模型提供託管推論端點。使用者只需點擊一次即可部署模型並獲得相容 OpenAI API 格式的 API 端點,使整合變得簡單直接。在底層,Ertas Cloud 根據模型的大小以及使用者的延遲和吞吐量要求自動選擇最佳的服務執行時、量化級別和硬體層級。自動擴展確保端點在流量高峰期無需手動干預即可處理,而 Ertas Vault 保證推論資料按照組織的隱私政策進行處理——除非明確選擇加入,否則不會記錄任何提示或完成結果。
Related Resources
Batch Size
Context Window
Fine-Tuning
GGUF
JSONL
LoRA
Model Routing
Multi-Tenant Inference
Quantization
Temperature
Tokenizer
Top-p (Nucleus Sampling)
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Running AI Models Locally: The Complete Guide to Local LLM Inference
The Hidden Cost of Per-Token AI Pricing
Multi-Tenant AI Deployment: One Base Model, Dozens of Client Adapters
GPT4All
Hugging Face
Jan
KoboldCpp
llama.cpp
LM Studio
Ollama
vLLM
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for E-Commerce
Ertas for Content Creation
Ertas for AI Automation Agencies
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.