
從房間大小的電腦到口袋裡的AI:微調的平行發展
CPU從ENIAC到智能手機用了60年。AI推論正在走同樣的弧線——從雲端數據中心到專用晶片再到設備端芯片。微調是讓每一代硬件都有用的軟件層。
1946年,ENIAC佔地1,800平方英尺,重達30噸,每秒執行5,000次運算。它需要20人操作,消耗150千瓦的電力。
2026年,你手機的處理器每秒運行數萬億次運算,芯片比你的指甲還小,只消耗毫瓦電力。它還有一個能夠運行十億參 數語言模型的神經處理單元。
從ENIAC到iPhone的旅程花了約60年。從純雲端AI推論到設備端AI的旅程只花了約6年。
而讓每一代計算都有用的模式——應用軟件——正在重複。只是這次,「應用軟件」是微調模型。
模式:硬件縮小,用戶增加
每一次重大計算硬件轉型都遵循同樣的弧線:
第一個時代:集中式(1950年代至1970年代)
大型主機服務於大型機構。全球只有幾千台電腦。用戶來到電腦前——字面上,通過提交打孔卡。
市場規模: 數千台機器。數萬名用戶。
第二個時代:部門級(1970年代至1980年代)
小型電腦(DEC VAX、HP 3000)將計算帶到了公司內的各個部門。更小、更便宜、更易獲取——但仍然是由專家管理的共享資源。
市場規模: 數十萬台機器。數百萬名用戶。
第三個時代:個人(1980年代至2000年代)
PC讓每張桌子上都有一台電腦。硬件標準化且經濟實惠。是什麼讓它有用?軟件。WordPerfect、Lotus 1-2-3、Excel、網頁瀏覽器。沒有應用程序,PC就是一個昂貴的書架擺設。
市場規模: 數十億台機器。數十億名用戶。
第四個時代:移動(2007年至今)
智能手機讓每個口袋裡都有一台電腦。硬件已經足夠強大。是什麼打開了市場?App Store。數百萬個專業應用程序,每個都為特定使用案例精確調整。
市場規模: 60億以上設備。50億以上用戶。
每一代硬件成本降低10 至100倍,數量增加10至100倍。而每一代只有當一個軟件層出現,將通用硬件專業化用於特定任務時,才能發揮其潛力。
AI正在重複這條弧線——更快速
AI推論正在走同樣的軌跡,但速度加快了:
第一階段:雲端數據中心(2020至2024年)
AI推論發生在集中的數據中心。用戶通過API訪問它——OpenAI、Anthropic、Google。你提交你的「打孔卡」(一個提示)並得到返回結果。計算昂貴、集中,由少數幾個提供商控制。
這是AI的大型主機時代。
第二階段:邊緣服務器和本地GPU(2024至2026年)
Ollama、llama.cpp 和 LM Studio 等工具將AI帶到了本地硬件。消費級GPU和Apple Silicon現在可以運行70億至700億參數的模型。硬件在你的桌子上,模型在你的磁盤上。
這是AI的小型電腦/PC時代。更易獲取,但仍然需要技術知識和像樣的硬件。
第三階段:專用晶片(2026年以後)
像 Taalas 這樣的公司正在構建運行特定模型的專用芯片,速度非凡。HC1以每秒17,000個token的速度運行Llama 3.1 8B——比任何GPU都快,成本和功耗只有其幾分之一。
這是AI的早期微處理器時代。專業化、快速、越來越便宜。
第四階段:設備端(下一步)
AI芯片嵌入每一台設備——手機、筆記本電腦、家電、汽車、醫療設備、工業設備。不是作為附件,而是作為核心組件。每台設備默認變得「智能」。
這是AI的智能手機時代。我們正處於門檻上。
釋放每一代的軟件層
這是模式中的模式:硬件本身從未創造市場。軟件創造了市場。
- 大型主機需要由專家編寫的COBOL程序
- PC需要消費者應用程序(以及最終的網絡)
- 智能手機需要App Store——數百萬個專業應用
AI硬件需要微調模型。
在專用晶片上運行的通用基礎模型就像沒有應用程序的智能手機。它可以做基本的事情——回答一般問題、生成通用文本——但它不能做你的事情。它不理解你的醫學術語。它不了解你的法律領域。它無法對你的客戶支持工單進行分類。
微調的LoRA適配器是AI硬件時代的「應用程序」。
考慮這個平行:
| 計算時代 | 硬件 | 軟件層 | 釋放了什麼 |
|---|---|---|---|
| PC | x86處理器 | 桌面應用程序 | 人人都有生產力 |
| 移動 | ARM處理器 | 移動應用(App Store) | 每個口袋裡的計算 |
| AI | 推論芯片(GPU、ASIC) | 微調模型(LoRA適配器) | 無處不在的領域特定AI |
App Store不僅僅分發軟件——它創建了一個市場,任何人都可以為特定受眾構建專業工具。微調平台為AI提供同樣的功能:它們讓任何人都可以為其特定領域創建專業模型,無需從頭構建模型。
為什麼時機很重要
在每一次硬件轉型中,都有一個硬件已就緒但軟件生態系統仍在形成的窗口期。在此窗口期建設的團隊會佔領市場。
- Apple於2008年推出App Store,比iPhone晚一年。早期應用開發者幾乎沒有競爭。到2010年,市場已經擁擠。
- 網絡在1993年(Mosaic瀏覽器)就可以導航了。在1995至1998年建立網站的企業建立了類別定義性的在線形象。到2005年,每個競爭對手都追上來了。
AI推論硬件現在正處於那個窗口期:
- 消費級NPU正在數億台設備中出貨
- 邊緣AI硬件預計到2030年將達到590億美元
- 像HC1這樣的專用AI ASIC正在展示生產級性能
- 開源權重模型(Llama、Qwen、Gemma)提供了基礎層
缺少什麼?針對數百萬特定使用案例的數百萬個微調模型。現在構建這些模型的團隊將擁有AI硬件時代的「應用商店」。
這在實踐中意味著什麼
對於獨立開發者
今天在你的產品領域微調一個小模型。當設備端AI成為標準時(它已經開始了),你的模型已準備好作為你應用程序的一部分交付——沒有雲端依賴,沒有每次查詢的成本,沒有隱私顧慮。
對於機構
構建每個客戶的LoRA適配器庫。隨著硬件變得更便宜和更分散,你將把專業AI模型部署到客戶基礎設施——而不是管理API訂閱。
對於企業
設備端AI完全改變了合規對話。在你的設施內的硬件上運行的微調模型不是數據隱私風險——它是數據隱私解決方案。現在就開始構建微調模型,這樣當你的硬件採購跟上時,它們已經過驗證。
對於所有人
學習微調。不是因為它在技術上很有趣(它確實很有趣),而是因為它是讓每一代AI硬件都有用的技能。就像學習編程讓PC有用,學習構建應用程序讓智能手機有用一樣。
平台機遇
如果微調模型是「應用程序」而AI硬件是「手機」,那麼微調平台就是「應用商店」。
這就是 Ertas 正在構建的。一個平台,任何人——無論ML專業知識如何——都可以為其特定領域微調開源權重模型。上傳數據集。可視化訓練。導出為 GGUF 或 LoRA 適配器。在任何地方部署。
你今天微調的模型在GPU上運行。明天它在專用晶片上運行。最終,它在你客戶設備的芯片上運行。微調是常量;硬件是變量。
窗口是開著的。現在就建設。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Taalas HC1: What a Hardwired Llama Chip Means for Fine-Tuning
A Canadian startup just burned Llama 3.1 8B into silicon, achieving 17,000 tokens/sec at $0.0075 per million tokens — up to 74x faster than Nvidia's H200. Here's why the HC1's LoRA support signals that fine-tuning is becoming a hardware-level capability.

Edge AI in 2026: Why 80% of Inference Is Moving Local
The edge AI hardware market is projected to hit $59 billion by 2030 and 80% of inference is expected to happen locally. Here's what's driving the shift, what hardware is emerging, and why fine-tuning is the missing piece.
LoRA on Silicon: How Hardware Is Making Fine-Tuning a First-Class Citizen
From Taalas's HC1 to Tether Data's QVAC Fabric LLM, hardware vendors are building LoRA support directly into their platforms. Fine-tuning is no longer just a training technique — it's becoming a hardware deployment interface.