What is 推理?
运行已训练AI模型从新输入数据中生成预测或输出的过程,与模型从数据中学习的训练阶段相对。
Definition
推理是机器学习模型生命周期的生产阶段——模型将训练期间学到的知识应用到新的、未见过的输入上以生成有用输出的时刻。对于大语言模型来说,推理意味着将用户的提示通过模型的Transformer层处理,以产生构成连贯回复的token序列(词或子词)。训练发生一次(或定期),而推理在每个用户请求时持续发生,使其成为持续运营成本的主要驱动因素和终端用户体验的主要决定因素。
推理性能沿几个维度衡量:延迟(首个token的时间和总生成时间)、吞吐量(每秒请求数或每秒token数)和每token成本。这些指标受模型大小、量化级别、硬件(GPU与CPU、内存带宽)、批处理策略和服务运行时的影响。FP16的70B参数模型可能提供卓越的质量,但需要多块A100 GPU,而同一模型量化为4位GGUF格式可能在单块RTX 4090上运行,质量可接受且成本大幅降低。
现代推理优化是一个丰富的领域,包括KV缓存管理、连续批处理、推测性解码、张量并行和PagedAttention(vLLM使用)等技术。推理技术栈的选择——无论是用于本地CPU/GPU推理的llama.cpp、用于高吞吐量GPU服务的vLLM,还是用于开发者友好本地部署的Ollama——对于同一个模型可能带来5-10倍的性能差异。
Why It Matters
推理是AI模型向终端用户交付价值的地方,其成本在模型生命周期内通常比训练成本高一个数量级。一个出色但响应需要30秒的模型会被放弃;一个快速但不准确的模型会侵蚀信任。做好推理意味着在质量、速度和成本之间取得平衡——这三者取决于模型大小、量化、硬件和服务基础设施的明智选择。对于大规模部署AI的组织来说,推理优化直接影响利润率、用户满意度和竞争定位。
How It Works
当用户提交提示时,推理管道首先使用模型的词表将输入文本分词为整数token ID序列。这些token通过模型的嵌入层变为稠密向量,然后流经数十个Transformer层——每层应用自注意力和前馈操作。对于自回归生成,模型一次产生一个token:生成每个token后,将其追加到输入序列并运行另一次前向传播(使用KV缓存避免重新计算先前token的注意力)。这个循环持续直到模型产生停止token或达到最大输出长度。生成的token ID被解码回文本并返回给用户。连续批处理等优化允许服务器在单个批次中交错处理多个请求,最大化GPU利用率。
import requests
# Query an Ertas Cloud inference endpoint
response = requests.post(
"https://api.ertas.ai/v1/completions",
headers={"Authorization": "Bearer ert_sk_..."},
json={
"model": "my-org/support-assistant-v2",
"prompt": "How do I upgrade my subscription plan?",
"max_tokens": 256,
"temperature": 0.3,
"stream": True,
},
stream=True,
)
# Stream tokens as they are generated
for chunk in response.iter_lines():
if chunk:
print(chunk.decode(), end="", flush=True)Example Use Case
一家电商公司部署微调的7B模型来驱动其产品推荐聊天机器人。在高峰期,系统处理200个并发用户。通过在基于llama.cpp的后端以Q4_K_M GGUF格式服务模型并配合连续批处理,他们在单块A10G GPU上实现了180毫秒的中位首token时间和每秒45个token的生成速度——满足了典型回复2秒以内的延迟SLA,同时将基础设施成本保持在每次交互低于0.001美元。
Key Takeaways
- 推理是已训练模型从新输入生成输出的生产阶段——这是AI交付用户价值的地方。
- 延迟、吞吐量和每token成本是评估推理性能的三个关键指标。
- 量化(如GGUF Q4_K_M)可以在质量权衡适度的情况下将推理成本降低4-8倍。
- 服务运行时的选择(llama.cpp、vLLM、Ollama)对性能特征有重大影响。
- 推理成本在模型生命周期内通常超过训练成本,使优化对生产部署至关重要。
How Ertas Helps
Ertas Cloud为在Ertas Studio中微调的模型提供托管推理端点。用户一键部署模型即可获得兼容OpenAI API格式的API端点,使集成变得简单。底层,Ertas Cloud根据模型大小和用户的延迟及吞吐量要求,自动选择最优的服务运行时、量化级别和硬件层级。自动扩缩确保端点在流量高峰时无需人工干预即可处理,而Ertas Vault保证推理数据按照组织的隐私策略进行处理——除非明确选择加入,否则不记录任何提示或补全。
Related Resources
Batch Size
Context Window
Fine-Tuning
GGUF
JSONL
LoRA
Model Routing
Multi-Tenant Inference
Quantization
Temperature
Tokenizer
Top-p (Nucleus Sampling)
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Running AI Models Locally: The Complete Guide to Local LLM Inference
The Hidden Cost of Per-Token AI Pricing
Multi-Tenant AI Deployment: One Base Model, Dozens of Client Adapters
GPT4All
Hugging Face
Jan
KoboldCpp
llama.cpp
LM Studio
Ollama
vLLM
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for E-Commerce
Ertas for Content Creation
Ertas for AI Automation Agencies
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.