为什么硬件公司正在将 LoRA 支持构建到芯片中

AI 硬件行业正在发生值得关注的事情：芯片制造商正在将原生 LoRA 适配器支持构建到他们的硅片中。

Taalas 将 Llama 3.1 8B 硬编码到 ASIC 中——并包含了 LoRA 支持。Apple 的 Core ML 框架支持在 Neural Engine 硬件上的 LoRA 适配器推理。Qualcomm 的 AI Engine 在 Snapdragon NPU 上运行基于适配器的模型。

这些公司不协调。他们竞争。但他们汇聚在同一个架构选择上：将 LoRA 适配器作为基础模型和硬件之间的定制层。

技术原因：为什么 LoRA 适合硬件

LoRA 适配器很小

完整 8B 参数模型重 4-16GB。同一模型的 LoRA 适配器重 50-200MB。小 20-300 倍。

适配器交换速度快

切换 fine-tuned 模型意味着交换 50-200MB 的适配器权重，而不是重新加载 4-16GB。

计算简单

LoRA 通过在模型特定层添加两个小矩阵工作。推理期间开销极小。

商业原因：一个 SKU，多个客户

一个基础模型（硬编码） × 多个 LoRA 适配器（加载） = 一个芯片设计服务多个客户。

医疗公司加载临床 LoRA → 芯片运行医疗 AI
律师事务所加载法律 LoRA → 芯片运行合同分析
代理机构加载客户 LoRA → 芯片服务 15 个不同的企业

汇聚模式

硬件层:  [基础模型 → 硬编码/优化]
                       ↑
接口层: [LoRA 适配器 → 加载/交换]
                       ↑
软件层:  [Fine-Tuning 平台 → 创建适配器]

基础模型成为基础设施。LoRA 适配器成为应用。Fine-tuning 平台成为开发环境。

对使用 AI 的团队意味着什么

训练适配器，而非单体模型 — 最大化部署灵活性
你的适配器是你的护城河 — 差异化来自适配器层
思考适配器组合 — 基础适配器 + 客户适配器 + 任务适配器
现在开始 — 硬件正在发货，现在构建适配器的团队将在下一代硬件到来时已经准备好

Ertas 提供整个管道的可视化界面：上传数据集、选择基础模型、无代码 fine-tune、导出 LoRA 适配器。

本文引用了 Taalas HC1、Tether Data QVAC Fabric LLM 和 LoRA-Edge 研究。

为什么硬件公司正在将 LoRA 支持构建到芯片中

技术原因：为什么 LoRA 适合硬件

LoRA 适配器很小

适配器交换速度快

计算简单

商业原因：一个 SKU，多个客户

汇聚模式

对使用 AI 的团队意味着什么

Ship AI that runs on your users' devices.

Keep reading

Taalas HC1：硬连线 Llama 芯片对微调意味着什么

LoRA遇上芯片：硬件如何使微调成为一等公民

从房间大小的计算机到口袋里的 AI：微调的类比