為何硬體公司將 LoRA 支援內建到晶片中

AI 硬體行業正在發生一些值得關注的事情：晶片製造商正在將對 LoRA 適配器的原生支援內建到他們的晶片中。

Taalas 將 Llama 3.1 8B 硬接線到 ASIC 中——並包含了 LoRA 支援。Apple 的 Core ML 框架支援在 Neural Engine 硬體上進行 LoRA 適配器推論。Qualcomm 的 AI Engine 在 Snapdragon NPU 上運行基於適配器的模型。Tether Data 建立了整個邊緣運行時，圍繞在消費級硬體上進行 LoRA 微調。

這些公司不協調。他們競爭。然而他們正在向同一個架構選擇收斂：將 LoRA 適配器視為基礎模型和硬體之間的自定義層。

這種收斂不是巧合。它由硬體工程和業務邏輯驅動。

技術案例：為何 LoRA 適合硬體

LoRA 適配器很小

一個完整的 8B 參數模型根據量化，重量為 4–16GB。相同模型的 LoRA 適配器重量為 50–200MB。這是 20–300 倍更小。

在快速記憶體有限（SRAM、片上快取）的硬體上，這個大小差異是決定性的。您可以將 LoRA 適配器放入片上 SRAM。您無法將整個模型放在那裡。在 Taalas 的 HC1 上，基礎模型字面上在電晶體中——只有 LoRA 適配器需要從記憶體載入。

適配器交換很快

改變晶片運行哪個微調模型意味著，使用 LoRA，交換 50–200MB 的適配器權重。沒有 LoRA，這意味著從較慢的片外記憶體重新載入 4–16GB 的模型權重。

對於多租戶推論——以不同模型專業化為不同客戶提供服務——50MB 交換和 16GB 重新載入之間的差異，是亞毫秒切換和多秒停機之間的差異。

計算是簡單的

LoRA 通過將兩個小矩陣（A 和 B）添加到模型的特定層來工作。在推論期間，適配器計算是一個直接的矩陣乘法，對基礎模型的前向傳播增加了最小的開銷。

這種可預測的、規則的計算能高效地映射到固定硬體上。沒有動態分支，沒有可變記憶體分配——只有硬體加速器處理良好的一致矩陣數學。

業務案例：一個 SKU，多個客戶

硬體供應商面臨一個根本張力：他們需要為性能專業化，但他們需要為市場規模通用化。

只運行通用 Llama 3.1 8B 的晶片市場有限。它只適用於通用聊天機器人，僅此而已。為了證明數億美元研發的合理性，晶片需要服務許多不同的使用案例。

LoRA 完美地解決了這個問題：

一個基礎模型（硬接線）× 多個 LoRA 適配器（載入）= 來自一個晶片設計的多個客戶。

一家醫療保健公司載入臨床 LoRA → 晶片運行醫療 AI
一家律師事務所載入法律 LoRA → 晶片運行合約分析
一個代理商載入每客戶的 LoRA → 晶片為 15 個不同的業務服務
一個 SaaS 產品載入領域 LoRA → 晶片運行嵌入式產品 AI

硬體供應商不需要了解客戶領域的任何事情。他們出售推論計算。客戶帶來自己的微調適配器。

這反映了 GPU 供應商（Nvidia）如何建立他們的業務：銷售通用計算硬體，讓軟體開發者創建應用程式。只不過使用 LoRA，「應用程式」是一個 50–200MB 的適配器文件，「部署應用程式」意味著將其載入到晶片上。

基於適配器部署的經濟學

讓我們看看 LoRA 支援對不同部署模型意味著什麼：

對於硬體供應商

沒有 LoRA 支援：每個客戶使用案例可能需要不同的基礎模型 → 不同的晶片設計 → 更高的研發成本，更小的生產規模，更高的每單位成本。

有 LoRA 支援：一個晶片設計服務給定基礎模型類別的整個市場。規模經濟。更大的生產規模。更低的每單位成本。

對於推論供應商

沒有 LoRA：服務 50 個不同的客戶意味著託管 50 個不同的模型實例 → 50 倍的 GPU 記憶體 → 50 倍的基礎設施成本。

有 LoRA：服務 50 個不同的客戶意味著一個基礎模型 + 50 個適配器 → 1 倍的基礎模型成本 + 微不足道的適配器儲存。這是使 AI 代理商經濟上可行的多租戶部署模型。

對於終端用戶

沒有 LoRA：為您的領域自定義 AI 意味著完整微調（昂貴、緩慢）或提示詞工程（品質有限）。

有 LoRA：自定義 AI 意味著訓練一個小型適配器（在 Ertas 上約 2 分鐘設置)，並將其載入到您正在運行的任何硬體上。適配器在部署目標之間是可攜帶的。

收斂模式

以下是多個硬體供應商正在獨立建構的方向：

硬體層：  [基礎模型 → 硬接線/優化]
                       ↑
介面層：  [LoRA 適配器 → 載入/交換]
                       ↑
軟體層：  [微調平台 → 創建適配器]

基礎模型成為基礎設施——就像作業系統核心。LoRA 適配器成為應用程式——就像移動應用程式。微調平台成為開發環境——就像 IDE 或應用程式建構器。

這三層技術棧正在以下各方獨立出現：

Taalas：HC1（硬接線基礎）+ LoRA 適配器 + 任何微調平台
Apple：Neural Engine（優化基礎）+ Core ML LoRA 適配器 + Apple 的訓練工具
消費級 GPU：Ollama/llama.cpp（軟體基礎）+ LoRA 適配器 + 任何微調平台
邊緣設備：NPU（硬體加速基礎）+ 適配器推論 + 設備端或雲端訓練

微調平台坐在這個技術棧的頂部，創建插入下面任何硬體層的適配器。

這對使用 AI 建構的團隊意味著什麼

1. 訓練適配器，而非整體模型

如果整個硬體行業正在以 LoRA 為部署介面收斂，您的微調輸出應該是 LoRA 適配器——而非合併的、整體的模型文件。

保持基礎模型為標準（Llama、Qwen、Gemma）。將您的自定義保留在單獨的適配器中。隨著硬體選項的增加，這給了您最大的部署靈活性。

2. 您的適配器是您的護城河

當每個人都可以存取相同的基礎模型和相同的硬體時，差異化來自適配器層——這意味著它來自您的訓練資料、您的微調品質，以及您的評估流程。

建構最佳適配器的團隊獲勝，無論他們部署在哪個硬體世代上。

3. 考慮適配器組合

如果您是為多個細分市場服務的代理商或 SaaS 產品，開始以適配器組合的方式思考：

基礎適配器：您的行業的一般領域知識
客戶適配器：在基礎之上建立的每客戶專業化
任務適配器：特定任務專業化（分類、提取、生成）

每個適配器是一個 50–200MB 的文件。您的整個 AI 能力可能是幾 GB 的適配器，坐在共享基礎模型之上。這非常可攜帶且非常便宜管理。

4. 現在就開始——窗口正在關閉

硬體正在出貨。介面標準（LoRA）正在收斂。缺少的部分是針對特定領域和使用案例的微調適配器庫。

現在就建構這些適配器的團隊——那些投資於資料集品質、訓練方法論和評估嚴謹性的團隊——當下一代硬體到來時，將擁有生產就緒的 AI。等待的人將在競爭對手已經部署時才開始訓練模型。

入門

建構 LoRA 適配器不再需要 ML 專業知識。Ertas 為整個管道提供視覺介面：

上傳您的資料集（或從 Hugging Face 匯入）
選擇基礎模型（Llama、Qwen、Gemma、Phi）
視覺化微調——無需程式碼、無需 YAML、無需命令列
以標準格式匯出您的 LoRA 適配器
在任何支援基礎模型的硬體上部署

您今天創建的適配器通過 Ollama 在 GPU 上運行。明天它在專用晶片上運行。微調投資是永久的；硬體是可互換的。

本文引用了 Taalas HC1、Tether Data QVAC Fabric LLM 和 LoRA-Edge 研究。