Back to blog
    为什么硬件公司正在将 LoRA 支持构建到芯片中
    lora硬件ai-chipstaalasapplequalcommfine-tuningedge-ai

    为什么硬件公司正在将 LoRA 支持构建到芯片中

    Taalas、Apple、Qualcomm 等正在将 LoRA 适配器支持添加到他们的 AI 芯片中。这不是巧合——LoRA 正在成为 fine-tuned 模型与推理硬件之间的标准接口。

    EErtas Team·

    AI 硬件行业正在发生值得关注的事情:芯片制造商正在将原生 LoRA 适配器支持构建到他们的硅片中。

    Taalas 将 Llama 3.1 8B 硬编码到 ASIC 中——并包含了 LoRA 支持。Apple 的 Core ML 框架支持在 Neural Engine 硬件上的 LoRA 适配器推理。Qualcomm 的 AI Engine 在 Snapdragon NPU 上运行基于适配器的模型。

    这些公司不协调。他们竞争。但他们汇聚在同一个架构选择上:将 LoRA 适配器作为基础模型和硬件之间的定制层。

    技术原因:为什么 LoRA 适合硬件

    LoRA 适配器很小

    完整 8B 参数模型重 4-16GB。同一模型的 LoRA 适配器重 50-200MB。小 20-300 倍。

    适配器交换速度快

    切换 fine-tuned 模型意味着交换 50-200MB 的适配器权重,而不是重新加载 4-16GB。

    计算简单

    LoRA 通过在模型特定层添加两个小矩阵工作。推理期间开销极小。

    商业原因:一个 SKU,多个客户

    一个基础模型(硬编码) × 多个 LoRA 适配器(加载) = 一个芯片设计服务多个客户。

    • 医疗公司加载临床 LoRA → 芯片运行医疗 AI
    • 律师事务所加载法律 LoRA → 芯片运行合同分析
    • 代理机构加载客户 LoRA → 芯片服务 15 个不同的企业

    汇聚模式

    硬件层:  [基础模型 → 硬编码/优化]
                           ↑
    接口层: [LoRA 适配器 → 加载/交换]
                           ↑
    软件层:  [Fine-Tuning 平台 → 创建适配器]
    

    基础模型成为基础设施。LoRA 适配器成为应用。Fine-tuning 平台成为开发环境。

    对使用 AI 的团队意味着什么

    1. 训练适配器,而非单体模型 — 最大化部署灵活性
    2. 你的适配器是你的护城河 — 差异化来自适配器层
    3. 思考适配器组合 — 基础适配器 + 客户适配器 + 任务适配器
    4. 现在开始 — 硬件正在发货,现在构建适配器的团队将在下一代硬件到来时已经准备好

    Ertas 提供整个管道的可视化界面:上传数据集、选择基础模型、无代码 fine-tune、导出 LoRA 适配器。


    本文引用了 Taalas HC1Tether Data QVAC Fabric LLMLoRA-Edge 研究

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading