
為何硬體公司將 LoRA 支援內建到晶片中
Taalas、Apple、Qualcomm 等公司正在將 LoRA 適配器支援加入其 AI 晶片。這不是巧合——LoRA 正在成為微調模型與推論硬體之間的標準介面。
AI 硬體行業正在發生一些值得關注的事情:晶片製造商正在將對 LoRA 適配器的原生支援內建到他們的晶片中。
Taalas 將 Llama 3.1 8B 硬接線到 ASIC 中——並包含了 LoRA 支援。Apple 的 Core ML 框架支援在 Neural Engine 硬體上進行 LoRA 適配器推論。Qualcomm 的 AI Engine 在 Snapdragon NPU 上運行基於適配器的模型。Tether Data 建立了整個邊緣運行時,圍繞在消費級硬體上進行 LoRA 微調。
這些公司不協調。他們競爭。然而他們正在向同一個架構選擇收斂:將 LoRA 適配器視為基礎模型和硬體之間的自定義層。
這種收斂不是巧合。它由硬體工程和業務邏輯驅動。
技術案例:為何 LoRA 適合硬體
LoRA 適配器很小
一個完整的 8B 參數模型根據量化,重量為 4–16GB。相同模型的 LoRA 適配器重量為 50–200MB。這是 20–300 倍更小。
在快速記憶體有限(SRAM、片上快取)的硬體上,這個大小差異是決定性的。您可以將 LoRA 適配器放入片上 SRAM。您無法將整個模型放在那裡。 在 Taalas 的 HC1 上,基礎模型字面上在電晶體中——只有 LoRA 適配器需要從記憶體載入。
適配器交換很快
改變晶片運行哪個微調模型意味著,使用 LoRA,交換 50–200MB 的適配器權重。沒有 LoRA,這意味著從較慢的片外記憶體重新載入 4–16GB 的模型權重。
對於多租戶推論——以不同模型專業化為不同客戶提供服務——50MB 交換和 16GB 重新載入之間的差異,是亞毫秒切換和多秒停機之間的差異。
計算是簡單的
LoRA 通過將兩個小矩陣(A 和 B)添加到模型的特定層來工作。在推論期間,適配器計算是一個直接的矩陣乘法,對基礎模型的前向傳播增加了最小的開銷。
這種可預測的、規則的計算能高效地映射到固定硬體上。沒有動態分支,沒有可變記憶體分配——只有硬體加速器處理良好的一致矩陣數學。
業務案例:一個 SKU,多個客戶
硬體供應商面臨一個根本張力:他們需要為性能專業化,但他們需要為市場規模通用化。
只運行通用 Llama 3.1 8B 的晶片市場有限。它只適用於通用聊天機器人,僅此而已。為了證明數億美元研發的合理性,晶片需要服務許多不同的使用案例。
LoRA 完美地解決了這個問題:
一個基礎模型(硬接線)× 多個 LoRA 適配器(載入)= 來自一個晶片設計的多個客戶。
- 一家醫療保健公司載入臨床 LoRA → 晶片運行醫療 AI
- 一家律師事務所載入法律 LoRA → 晶片運行合約分析
- 一個代理商載入每客戶的 LoRA → 晶片為 15 個不同的業務服務
- 一個 SaaS 產品載入領域 LoRA → 晶片運行嵌入式產品 AI
硬體供應商不需要了解客戶領域的任何事情。他們出售推論計算。客戶帶來自己的微調適配器。
這反映了 GPU 供應商(Nvidia)如何建立他們的業務:銷售通用計算硬體,讓軟體開發者創建應用程式。只不過使用 LoRA,「應用程式」是一個 50–200MB 的適配器文件,「部署應用程式」意味著將其載入到晶片上。