
Taalas HC1:硬连线 Llama 芯片对微调意味着什么
一家加拿大初创公司将 Llama 3.1 8B 烧入硅片,实现 17,000 token/秒、$0.0075/百万 token——比 Nvidia H200 快达 74 倍。HC1 的 LoRA 支持表明微调正在成为硬件级能力。
一家名为 Taalas 的加拿大初创公司做了听起来不可能的事:他们将 Meta 的 Llama 3.1 8B 模型直接硬连线到芯片中。不是加载到 GPU 上。不是通过软件运行时运行。他们在 815mm² 的芯片上将模型权重蚀刻入 530 亿个晶体管。
结果?每用户 17,000 token/秒。大约比市场上任何东西快 8-74 倍。
但速度不是最有趣的部分。最有趣的部分是尽管硬连线,HC1 支持 LoRA 微调。
为什么硬连线硅片上的 LoRA 支持很重要
LoRA 适配器是轻量级定制层——通常 50-200MB。在 HC1 上,基础 Llama 3.1 8B 权重硬连线以获得速度,而 LoRA 适配器权重加载到片上 SRAM 以获得灵活性。
这意味着:
- 一个芯片,多个专业化。 加载法律 LoRA 运行法律 AI。换医疗 LoRA 运行临床 AI。
- 硬件速度的微调推理。 你的领域特定微调模型以 17,000 token/秒运行。
- LoRA 正在成为硬件部署接口。
现在构建者该做什么
- 今天就在开源模型上微调。 你今天创建的 LoRA 适配器将在 GPU 上现在工作,以后在专用硅片上也能工作。
- 导出为可移植格式。 GGUF + 标准 LoRA 格式。
- 以适配器思维,而非单体模型。 一个基础模型 + 多个 LoRA 适配器 = 一次训练投资服务多客户多用例。
微调模型是永久资产。硬件是可替换基底。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading
LoRA on Silicon: How Hardware Is Making Fine-Tuning a First-Class Citizen
From Taalas's HC1 to Tether Data's QVAC Fabric LLM, hardware vendors are building LoRA support directly into their platforms. Fine-tuning is no longer just a training technique — it's becoming a hardware deployment interface.

Why Hardware Companies Are Building LoRA Support Into Their Chips
Taalas, Apple, Qualcomm, and others are adding LoRA adapter support to their AI silicon. It's not a coincidence — LoRA is becoming the standard interface between fine-tuned models and inference hardware.

Taalas vs Nvidia vs Groq vs Cerebras: AI Inference Hardware Compared (2026)
A detailed comparison of AI inference hardware in 2026: Taalas HC1 (model-on-silicon), Nvidia H200/B200 (general GPU), Groq LPU, Cerebras wafer-scale, and SambaNova. Performance, cost, flexibility, and fine-tuning support compared.