Back to blog
    為何硬體公司將 LoRA 支援內建到晶片中
    lorahardwareai-chipstaalasapplequalcommfine-tuningedge-ai

    為何硬體公司將 LoRA 支援內建到晶片中

    Taalas、Apple、Qualcomm 等公司正在將 LoRA 適配器支援加入其 AI 晶片。這不是巧合——LoRA 正在成為微調模型與推論硬體之間的標準介面。

    EErtas Team·

    AI 硬體行業正在發生一些值得關注的事情:晶片製造商正在將對 LoRA 適配器的原生支援內建到他們的晶片中。

    Taalas 將 Llama 3.1 8B 硬接線到 ASIC 中——並包含了 LoRA 支援。Apple 的 Core ML 框架支援在 Neural Engine 硬體上進行 LoRA 適配器推論。Qualcomm 的 AI Engine 在 Snapdragon NPU 上運行基於適配器的模型。Tether Data 建立了整個邊緣運行時,圍繞在消費級硬體上進行 LoRA 微調。

    這些公司不協調。他們競爭。然而他們正在向同一個架構選擇收斂:將 LoRA 適配器視為基礎模型和硬體之間的自定義層。

    這種收斂不是巧合。它由硬體工程和業務邏輯驅動。

    技術案例:為何 LoRA 適合硬體

    LoRA 適配器很小

    一個完整的 8B 參數模型根據量化,重量為 4–16GB。相同模型的 LoRA 適配器重量為 50–200MB。這是 20–300 倍更小。

    在快速記憶體有限(SRAM、片上快取)的硬體上,這個大小差異是決定性的。您可以將 LoRA 適配器放入片上 SRAM。您無法將整個模型放在那裡。在 Taalas 的 HC1 上,基礎模型字面上在電晶體中——只有 LoRA 適配器需要從記憶體載入。

    適配器交換很快

    改變晶片運行哪個微調模型意味著,使用 LoRA,交換 50–200MB 的適配器權重。沒有 LoRA,這意味著從較慢的片外記憶體重新載入 4–16GB 的模型權重。

    對於多租戶推論——以不同模型專業化為不同客戶提供服務——50MB 交換和 16GB 重新載入之間的差異,是亞毫秒切換和多秒停機之間的差異。

    計算是簡單的

    LoRA 通過將兩個小矩陣(A 和 B)添加到模型的特定層來工作。在推論期間,適配器計算是一個直接的矩陣乘法,對基礎模型的前向傳播增加了最小的開銷。

    這種可預測的、規則的計算能高效地映射到固定硬體上。沒有動態分支,沒有可變記憶體分配——只有硬體加速器處理良好的一致矩陣數學。

    業務案例:一個 SKU,多個客戶

    硬體供應商面臨一個根本張力:他們需要為性能專業化,但他們需要為市場規模通用化。

    只運行通用 Llama 3.1 8B 的晶片市場有限。它只適用於通用聊天機器人,僅此而已。為了證明數億美元研發的合理性,晶片需要服務許多不同的使用案例。

    LoRA 完美地解決了這個問題:

    一個基礎模型(硬接線)× 多個 LoRA 適配器(載入)= 來自一個晶片設計的多個客戶。

    • 一家醫療保健公司載入臨床 LoRA → 晶片運行醫療 AI
    • 一家律師事務所載入法律 LoRA → 晶片運行合約分析
    • 一個代理商載入每客戶的 LoRA → 晶片為 15 個不同的業務服務
    • 一個 SaaS 產品載入領域 LoRA → 晶片運行嵌入式產品 AI

    硬體供應商不需要了解客戶領域的任何事情。他們出售推論計算。客戶帶來自己的微調適配器。

    這反映了 GPU 供應商(Nvidia)如何建立他們的業務:銷售通用計算硬體,讓軟體開發者創建應用程式。只不過使用 LoRA,「應用程式」是一個 50–200MB 的適配器文件,「部署應用程式」意味著將其載入到晶片上。

    基於適配器部署的經濟學

    讓我們看看 LoRA 支援對不同部署模型意味著什麼:

    對於硬體供應商

    沒有 LoRA 支援:每個客戶使用案例可能需要不同的基礎模型 → 不同的晶片設計 → 更高的研發成本,更小的生產規模,更高的每單位成本。

    有 LoRA 支援:一個晶片設計服務給定基礎模型類別的整個市場。規模經濟。更大的生產規模。更低的每單位成本。

    對於推論供應商

    沒有 LoRA:服務 50 個不同的客戶意味著託管 50 個不同的模型實例 → 50 倍的 GPU 記憶體 → 50 倍的基礎設施成本。

    有 LoRA:服務 50 個不同的客戶意味著一個基礎模型 + 50 個適配器 → 1 倍的基礎模型成本 + 微不足道的適配器儲存。這是使 AI 代理商經濟上可行的多租戶部署模型

    對於終端用戶

    沒有 LoRA:為您的領域自定義 AI 意味著完整微調(昂貴、緩慢)或提示詞工程(品質有限)。

    有 LoRA:自定義 AI 意味著訓練一個小型適配器(在 Ertas 上約 2 分鐘設置),並將其載入到您正在運行的任何硬體上。適配器在部署目標之間是可攜帶的。

    收斂模式

    以下是多個硬體供應商正在獨立建構的方向:

    硬體層:  [基礎模型 → 硬接線/優化]
                           ↑
    介面層:  [LoRA 適配器 → 載入/交換]
                           ↑
    軟體層:  [微調平台 → 創建適配器]
    

    基礎模型成為基礎設施——就像作業系統核心。LoRA 適配器成為應用程式——就像移動應用程式。微調平台成為開發環境——就像 IDE 或應用程式建構器。

    這三層技術棧正在以下各方獨立出現:

    • Taalas:HC1(硬接線基礎)+ LoRA 適配器 + 任何微調平台
    • Apple:Neural Engine(優化基礎)+ Core ML LoRA 適配器 + Apple 的訓練工具
    • 消費級 GPU:Ollama/llama.cpp(軟體基礎)+ LoRA 適配器 + 任何微調平台
    • 邊緣設備:NPU(硬體加速基礎)+ 適配器推論 + 設備端或雲端訓練

    微調平台坐在這個技術棧的頂部,創建插入下面任何硬體層的適配器。

    這對使用 AI 建構的團隊意味著什麼

    1. 訓練適配器,而非整體模型

    如果整個硬體行業正在以 LoRA 為部署介面收斂,您的微調輸出應該是 LoRA 適配器——而非合併的、整體的模型文件。

    保持基礎模型為標準(Llama、Qwen、Gemma)。將您的自定義保留在單獨的適配器中。隨著硬體選項的增加,這給了您最大的部署靈活性。

    2. 您的適配器是您的護城河

    當每個人都可以存取相同的基礎模型和相同的硬體時,差異化來自適配器層——這意味著它來自您的訓練資料、您的微調品質,以及您的評估流程。

    建構最佳適配器的團隊獲勝,無論他們部署在哪個硬體世代上。

    3. 考慮適配器組合

    如果您是為多個細分市場服務的代理商或 SaaS 產品,開始以適配器組合的方式思考:

    • 基礎適配器:您的行業的一般領域知識
    • 客戶適配器:在基礎之上建立的每客戶專業化
    • 任務適配器:特定任務專業化(分類、提取、生成)

    每個適配器是一個 50–200MB 的文件。您的整個 AI 能力可能是幾 GB 的適配器,坐在共享基礎模型之上。這非常可攜帶且非常便宜管理。

    4. 現在就開始——窗口正在關閉

    硬體正在出貨。介面標準(LoRA)正在收斂。缺少的部分是針對特定領域和使用案例的微調適配器庫。

    現在就建構這些適配器的團隊——那些投資於資料集品質、訓練方法論和評估嚴謹性的團隊——當下一代硬體到來時,將擁有生產就緒的 AI。等待的人將在競爭對手已經部署時才開始訓練模型。

    入門

    建構 LoRA 適配器不再需要 ML 專業知識。Ertas 為整個管道提供視覺介面:

    1. 上傳您的資料集(或從 Hugging Face 匯入)
    2. 選擇基礎模型(Llama、Qwen、Gemma、Phi)
    3. 視覺化微調——無需程式碼、無需 YAML、無需命令列
    4. 以標準格式匯出您的 LoRA 適配器
    5. 在任何支援基礎模型的硬體上部署

    您今天創建的適配器通過 Ollama 在 GPU 上運行。明天它在專用晶片上運行。微調投資是永久的;硬體是可互換的。


    本文引用了 Taalas HC1Tether Data QVAC Fabric LLMLoRA-Edge 研究

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading