
从房间大小的计算机到口袋里的 AI:微调的类比
CPU 从 ENIAC 到智能手机用了60年。AI 推理正走在同样的路径上——从云数据中心到专用芯片再到设备端。微调是让每代硬件发挥作用的软件层。
1946年,ENIAC 占地 1,800 平方英尺,重 30 吨,每秒执行 5,000 次运算。需要 20 个人操作,消耗 150 千瓦的电力。
2026年,你手机的处理器每秒运行数万亿次运算,芯片比你的拇指指甲还小,功耗仅为毫瓦级。它还有一个能够运行十亿参数语言模型的神经处 理单元。
从 ENIAC 到 iPhone 的旅程用了大约 60 年。从仅云端 AI 推理到设备端 AI 的旅程正在大约 6 年内发生。
而让每一代计算变得有用的相同模式——应用软件——正在重演。只不过这一次,"应用软件"是微调模型。
模式:硬件缩小,用户倍增
每次重大计算硬件转型都遵循相同的弧线:
时代 1:集中式(1950年代-1970年代)
大型机服务大型机构。全球只有数千台计算机。用户走向计算机——字面意义上,通过提交穿孔卡片。
时代 2:部门级(1970年代-1980年代)
小型计算机将计算带到公司内部的部门。更小、更便宜、更易访问——但仍然是由专家管理的共享资源。
时代 3:个人化(1980年代-2000年代)
PC 把计算机放在每张桌子上。硬件标准化且负担得起。是什么让它有用?软件。没有应用程序,PC 就是一个昂贵的纸镇。
时代 4:移动化(2007年至今)
智能手机把计算机放进每个口袋。硬件足够强大。什么打开了市场?App Store。数百万专门化的应用程序,每个都为特定用例进行了微调(字面意义上的)。
每一代都让硬件便宜 10-100 倍、数量增加 10-100 倍。而每一代只有在出现软件层将通用硬件专门化为特定任务时才发挥其潜力。
AI 正在重复这个弧线——压缩版
AI 推理正在沿着相同的轨迹前进,但速度更快:
阶段 1:云数据中心(2020-2024)
AI 推理发生在集中的数据中心。用户通过 API 访问。这是 AI 的大型机时代。
阶段 2:边缘服务器和本地 GPU(2024-2026)
Ollama、llama.cpp 和 LM Studio 等工具将 AI 带到本地硬件。消费级 GPU 和 Apple Silicon 现在可以运行 7B-70B 参数模型。这是 AI 的小型机/PC 时代。
阶段 3:专用芯片(2026+)
像 Taalas 这样的公司正在构建专用芯片。HC1 以 17,000 tokens/秒的速度运行 Llama 3.1 8B。这是 AI 的早期微处理器时代。
阶段 4:设备端(下一步)
嵌入每个设备的 AI 芯片。每个设备默认变得"智能"。这是 AI 的智能手机时代。我们正站在门槛上。
解锁每一代的软件层
模式中的模式:硬件本身从未创造市场。软件才是。
- 大型机需要专家编写的 COBOL 程序
- PC 需要消费者应用程序(最终是网络)
- 智能手机需要 App Store——数百万专门化的应用
AI 硬件需要微调模型。
微调的 LoRA 适配器是 AI 硬件时代的"应用"。
| 计算时代 | 硬件 | 软件层 | 解锁了什么 |
|---|---|---|---|
| PC | x86 处理器 | 桌面应用 | 人人可用的生产力 |
| 移动 | ARM 处理器 | 移动应用(App Store) | 口袋里的计算 |
| AI | 推理芯片(GPU、ASIC) | 微调模型(LoRA 适配器) | 无处不在的领域专用 AI |
为什么时间窗口很重要
在每次硬件转型中,都有一个窗口期——硬件准备好了但软件生态系统仍在形成。在此窗口期构建的团队占领了市场。
AI 推理硬件目前正处于那个窗口期:
- 消费级 NPU 正在数亿设备中出货
- 边缘 AI 硬件预计到 2030 年将达到 590 亿美元
- 开放权重模型(Llama、Qwen、Gemma)提供了基础层
缺少的是什么?数百万个为数百万个特定用例微调的模型。现在构建这些模型的团队将拥有 AI 硬件时代的"应用商店"。
实际意义
对独立开发者
今天就在你产品的领域上微调一个小模型。当设备端 AI 成为标准时,你的模型已准备好作为应用的一部分发布——没有云依赖,没有按查询成本,没有隐私顾虑。
对代理机构
构建按客户的 LoRA 适配器库。随着硬件变得更便宜和更分布式,你将把专门的 AI 模型部署到客户基础设施上——而不是管理 API 订阅。
对企业
设备端 AI 完全改变了合规对话。在你设施内硬件上运行的微调模型不是数据隐私风险——它是数据隐私解决方案。现在就开始构建微调模型,这样当你的硬件采购跟上时它们就已经过验证。
平台机会
如果微调模型是"应用「,AI 硬件是」手机「,那么微调平台就是」应用商店"。
这就是 Ertas 正在构建的。一个让任何人——无论 ML 专业知识如何——都能为其特定领域微调开放权重模型的平台。上传数据集。可视化训练。导出为 GGUF 或 LoRA 适配器。部署到任何地方。
你今天微调的模型运行在 GPU 上。明天运行在专用芯片上。最终运行在客户设备中的芯片上。微调是常量;硬件是变量。
窗口期已打开。现在就开始构建。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Taalas HC1: What a Hardwired Llama Chip Means for Fine-Tuning
A Canadian startup just burned Llama 3.1 8B into silicon, achieving 17,000 tokens/sec at $0.0075 per million tokens — up to 74x faster than Nvidia's H200. Here's why the HC1's LoRA support signals that fine-tuning is becoming a hardware-level capability.

Edge AI in 2026: Why 80% of Inference Is Moving Local
The edge AI hardware market is projected to hit $59 billion by 2030 and 80% of inference is expected to happen locally. Here's what's driving the shift, what hardware is emerging, and why fine-tuning is the missing piece.
LoRA on Silicon: How Hardware Is Making Fine-Tuning a First-Class Citizen
From Taalas's HC1 to Tether Data's QVAC Fabric LLM, hardware vendors are building LoRA support directly into their platforms. Fine-tuning is no longer just a training technique — it's becoming a hardware deployment interface.