
Taalas HC1:硬连线 Llama 芯片对微调意味着什么
一家加拿大初创公司将 Llama 3.1 8B 烧入硅片,实现 17,000 token/秒、$0.0075/百万 token——比 Nvidia H200 快达 74 倍。HC1 的 LoRA 支持表明微调正在成为硬件级能力。
一家名为 Taalas 的加拿大初创公司做了听起来不可能的事:他们将 Meta 的 Llama 3.1 8B 模型直接硬连线到芯片中。不是加载到 GPU 上。不是通过软件运行时运行。他们在 815mm² 的芯片上将模型权重蚀刻入 530 亿个晶体管。
结果?每用户 17,000 token/秒。大约比市场上任何东西快 8-74 倍。
但速度不是最有趣的部分。最有趣的部分是尽管硬连线,HC1 支持 LoRA 微调。
为什么硬连线硅片上的 LoRA 支持很重要
LoRA 适配器是轻量级定制层——通常 50-200MB。在 HC1 上,基础 Llama 3.1 8B 权重硬连线以获得速度,而 LoRA 适配器权重加载到片上 SRAM 以获得灵活性。
这意味着:
- 一个芯片,多个专业化。 加载法律 LoRA 运行法律 AI。换医疗 LoRA 运行临床 AI。
- 硬件速度的微调推理。 你的领域特定微调模型以 17,000 token/秒运行。
- LoRA 正在成为硬件部署接口。
现在构建者该做什么
- 今天就在开源模型上微调。 你今天创建的 LoRA 适配器将在 GPU 上现在工作,以后在专用硅片上也能工作。
- 导出为可移植格式。 GGUF + 标准 LoRA 格式。
- 以适配器思维,而非单体模型。 一个基础模型 + 多个 LoRA 适配器 = 一次训练投资服务多客户多用例。
微调模型是永久资产。硬件是可替换基底。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

为什么硬件公司正在将 LoRA 支持构建到芯片中
Taalas、Apple、Qualcomm 等正在将 LoRA 适配器支持添加到他们的 AI 芯片中。这不是巧合——LoRA 正在成为 fine-tuned 模型与推理硬件之间的标准接口。
LoRA遇上芯片:硬件如何使微调成为一等公民
从Taalas的HC1到Tether Data的QVAC Fabric LLM,硬件厂商正在将LoRA支持直接构建到平台中。微调不再仅是训练技术——它正成为硬件部署接口。

Taalas 对比 Nvidia 对比 Groq 对比 Cerebras:2026 年 AI 推理硬件比较
2026 年 AI 推理硬件详细比较:Taalas HC1(模型上硅)、Nvidia H200/B200(通用 GPU)、Groq LPU、Cerebras 晶圆级和 SambaNova。性能、成本、灵活性和微调支持对比。