
为什么硬件公司正在将 LoRA 支持构建到芯片中
Taalas、Apple、Qualcomm 等正在将 LoRA 适配器支持添加到他们的 AI 芯片中。这不是巧合——LoRA 正在成为 fine-tuned 模型与推理硬件之间的标准接口。
AI 硬件行业正在发生值得关注的事情:芯片制造商正在将原生 LoRA 适配器支持构建到他们的硅片中。
Taalas 将 Llama 3.1 8B 硬编码到 ASIC 中——并包含了 LoRA 支持。Apple 的 Core ML 框架支持在 Neural Engine 硬件上的 LoRA 适配器推理。Qualcomm 的 AI Engine 在 Snapdragon NPU 上运行基于适配器的模型。
这些公司不协调。他们竞争。但他们汇聚在同一个架构选择上:将 LoRA 适配器作为基础模型和硬件之间的定制层。
技术原因:为什么 LoRA 适合硬件
LoRA 适配器很小
完整 8B 参数模型重 4-16GB。同一模型的 LoRA 适配器重 50-200MB。小 20-300 倍。
适配器交换速度快
切换 fine-tuned 模型意味着交换 50-200MB 的适配器权重,而不是重新加载 4-16GB。
计算简单
LoRA 通过在模型特定层添加两个小矩阵工作。推理期间开销极小。
商业原因:一个 SKU,多个客户
一个基础模型(硬编码) × 多个 LoRA 适配器(加载) = 一个芯片设计服务多个客户。
- 医疗公司加载临床 LoRA → 芯片运行医疗 AI
- 律师事务所加载法律 LoRA → 芯片运行合同分析
- 代理机构加载客户 LoRA → 芯片服务 15 个不同的企业
汇聚模式
硬 件层: [基础模型 → 硬编码/优化]
↑
接口层: [LoRA 适配器 → 加载/交换]
↑
软件层: [Fine-Tuning 平台 → 创建适配器]
基础模型成为基础设施。LoRA 适配器成为应用。Fine-tuning 平台成为开发环境。
对使用 AI 的团队意味着什么
- 训练适配器,而非单体模型 — 最大化部署灵活性
- 你的适配器是你的护城河 — 差异化来自适配器层
- 思考适配器组合 — 基础适配器 + 客户适配器 + 任务适配器
- 现在开始 — 硬件正在发货,现在构建适配器的团队将在下一代硬件到来时已经准备好
Ertas 提供整个管道的可视化界面:上传数据集、选择基础模型、无代码 fine-tune、导出 LoRA 适配器。
本文引用了 Taalas HC1、Tether Data QVAC Fabric LLM 和 LoRA-Edge 研究。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

Taalas HC1:硬连线 Llama 芯片对微调意味着什么
一家加拿大初创公司将 Llama 3.1 8B 烧入硅片,实现 17,000 token/秒、$0.0075/百万 token——比 Nvidia H200 快达 74 倍。HC1 的 LoRA 支持表明微调正在成为硬件级能力。
LoRA遇上芯片:硬件如何使微调成为一等公民
从Taalas的HC1到Tether Data的QVAC Fabric LLM,硬件厂商正在将LoRA支持直接构建到平台中。微调不再仅是训练技术——它正成为硬件部署接口。

从房间大小的计算机到口袋里的 AI:微调的类比
CPU 从 ENIAC 到智能手机用了60年。AI 推理正走在同样的路径上——从云数据中心到专用芯片再到设备端。微调是让每代硬件发挥作用的软件层。