
为什么'我们使用API'意味着你在生产中无法控制你的AI
每个依赖云AI API的团队都悄然将AI行为的控制权外包了出去。以下是当模型在别人的基础设施中运行时你究竟放弃了什么。
大多数基于云AI API构建的团队认为他们控制着自己的AI。他们编写提示词。他们设置系统指令。他们选择温度和上下文窗口。他们感觉在控制之中。
他们并没有。
控制——真正的控制——意味着当给定输入到达你的系统时,你决定发生什么。这是模型的工作。模型做决定。而模型不是你的。
你编写的提示词是一个请求。模型根据训练选择、安全过滤器和RLHF值来决定如何执行——这些都是由其 他人为可能与你的用例不一致的目的而做出的。你是在向别人构建和维护的黑盒写建议。
这不是理论性的抱怨。它有具体的运营后果。以下是当模型在别人的基础设施中运行时你放弃的六个控制维度。
1. 模型更新:静默行为变更
云AI供应商更新他们的模型。有时他们会宣布;通常不会。当gpt-4-turbo被更新时,使用该端点的每个应用都会在你没有任何部署操作的情况下获得一个新模型。这种变化在基础设施层面是不可见的——相同的端点、相同的API密钥、不同的行为。
"不同的行为"在实践中是什么样的?更短的输出。改变的格式偏好。转变的分类阈值。增加的某些主题拒绝率。改变的摘要风格。这些变化都不会触发部署警报。它们都不会在你的应用日志中显示为版本变更。你的产品行为改变了,你可能直到用户告诉你某些东西不同时才知道。
这不是假设的。它在整个行业中都有记录。拥有LLM驱动产品的团队专门构建回归测试套件,因为他们已经被静默模型更新所伤害。
2. 训练数据:你没有做出的选择
模型的行为——它知道什么、强调什么、倾向于拒绝什么、如何框定模糊话题——反映了训练期间做出的选择。这些选择包括包含了什么数据、过滤掉了什么数据、数据如何加权,以及在RLHF期间人类评估者认为什么是好的与坏的。
你对这些都没有任何输入。训练数据反映了供应商的优先级、法律风险、地理考虑和可用数据集——而不是你的领域专业知识或用户需求。
这比听起来更重要。一个主要在英语互联网文本上训练的模型嵌入了关于语言、文化和上下文的假设,这些假设可能与你的部署环境不匹配。一个评估者被指示偏好更短回答的模型将产生更短的回答——无论这对你的用例是否合适。一个法律风险影响数据过滤的模型会有空白,而这些空白可能正好是你的领域。
你不是用系统提示来配置工具。你是在继承一整套编码的偏好。
3. 推理基础设施:你的SLA就是他们的SLA
你的产品可用性受限于AI供应商的正常运行时间。如果API宕机,你的AI功能就宕机。如果延迟飙升,你的延迟就飙升。你的产品性能特征部分在你的控制之外。
大多数主要提供商提供99.9%的正常运行时间SLA。在SLA下,这是每年8.7小时的停机时间——在任何计划维护或属于SLA语言范围内但仍然导致降级的边缘情况之前。如果你的产品是业务关键的,你接受了供应商的基础设施问题会成为你的生产事故。
4. 定价:单方面成本变更
按令牌定价可以改变。它已经改变了。当供应商更新定价——无论是提高费率还是改变层级结构——你的单位经济在没有你采取任何行动的情况下就发生了变化。
OpenAI多次改变了GPT-4的定价。Anthropic在新模型版本发布时更新了Claude定价。每次变更都需要工程团队重新评估自建与购买决策、更新财务模型,有时还需要重新架构以使用更便宜的端点。
对于高流量生产工作负载,这种风险是显著的。每天一百万次API调用20%的价格上涨是一个重大的预算影响,除了你在注册时同意的条款外,你没有任何合同保护。
5. 政策变更:追溯使用场景限制
可接受使用政 策在演变。供应商今天允许的,明天可能会限制——特别是随着AI监管在全球推进,供应商调整政策以在不同司法管辖区保持合规。
如果你的用例接近任何政策边界——法律研究、医疗信息、安全工具、财务建议、政治内容——你承担着政策更新缩小你的应用操作空间的风险。供应商可能会通知你。但他们不会为你的用例设置过渡期。
这创造了一类在传统软件依赖中没有类比的产品风险。一个库不会更新其可接受使用政策。但API可以。
6. 战略转向:你的供应商使命刚刚改变了
2026年初,OpenAI与美国国防部签订了一份合同,为军事应用提供AI服务。这是一家私营公司的事实性商业决定。
这对每个在OpenAI API上构建的企业意味着什么:你的AI供应商现在也是一个国防承包商。美国国防部是你AI堆栈中的隐含利益相关者。你没有投票支持这一点。它不在任何供应商选择标准中。它是单方面发生的。
这是否改变了OpenAI开发模型的方式?是否影响训练优先级?是否改变了安全过滤的校准方式?是否影响OpenAI优先考虑或降低优先级的用例?短期内可能不会有太大变化。但你不知道。你看不到模型内部。你没有审计权来了解供应商优先级如何影响模型行为。
这是控制问题最尖锐的版本:你的供应商可以做出一个重大改变其AI优化目标的战略决定,而你将在公开宣布时才知道。
这造成的治理差距
每个企业AI治理框架都有针对企业控制的系统的政策、控制和问责链。提供商边界是该框架中的一个差距。
你可以记录你的提示词。你可以记录你的输入和输出。你可以监控延迟和错误率。但你不能审计模型的训练数据。你不能在模型更新到达生产之前观察它。你不能锁定确切的模型状态并保证它不会改变。你不能验证供应商的内部流程是否与你的治理要求一致。
生产中的AI模型治理涵盖了这个差距所处的完整治理框架。这里的重点是具体的:差距从结构上存在,因为你不拥有模型。
模型所有权实际是什么样子
替代方案不是从零开始构建你自己的基础模型。而是在你的领域数据上微调一个开源基础模型,拥有生成的权重,并自己控制部署。
具体来说:你取一个像Llama 3、Mistral或Qwen这样的模型。你在你的专有数据集上微调它——客户支持对话、领域特定文档、你的任务的标注样本。你现在拥有一个模型检查点,其输出校准到你的领域。
你将该检查点导出为GGUF格式。GGUF是一种可移植的量化模型格式,可以在Ollama、llama.cpp和LM Studio上运行。你在自己的硬件上运行推理——工作站、服务器或边缘设备。模型不会改变,除非你决定重新训练。更新是显式的。回滚是可能的。训练数据谱系由你记录。
这解决了所有六个控制维度:
- 没有静默模型更新——权重是静态的,直到你重新训练
- 训练数据是你的数据——你做出了这些选择
- 推理在你的基础设施上运行——你的SLA,你的正常运行时间
- 没有按令牌定价——计算是固定或可预测的成本
- 没有可接受使用政策——这是你的硬件上的你的模型
- 没有供应商战略转向——你不依赖于任何人的使命
经济效益在规模上更优
高流量工作负载的API定价远比本地推理在规模上更昂贵。数学:
按当前定价,GPT-4级API调用大约为每1,000个令牌$0.01-0.03。在中等GPU上运行的微调7B参数模型在满负荷时大约为每1,000个令牌$0.00004-0.0001的电力成本。对于领域特定任务——微调的较小模型经常匹配或超越更大的通用模型——这是99.6%的成本降低。
硬件成本在有意义的流量下很快摊销。在每月500,000次API调用时,本地推理的节省可以在几周内支付一台专用推理机器的费用。
路径
微调需要标注数据集、训练运行和评估过程。工具开销一直是大多数团队的障碍——不是概念,而是执行所需的基础设施。
Ertas微调SaaS旨在消除这一障碍。上传你的数据集,通过可视化界面配置微调,在云GPU上运行,下载生成的GGUF。不需要MLOps基础设施。生成的模型是你的:可移植的、版本锁定的,可以部署在llama.cpp运行的任何地方。
如果你在云API上运行高流量AI工作负载,问题不是微调是否值得探索。而是你为什么还没有这样做。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.