taalashc1llamainference-hardwareloraedge-aifine-tuningasic

Taalas HC1：硬连线 Llama 芯片对微调意味着什么

一家加拿大初创公司将 Llama 3.1 8B 烧入硅片，实现 17,000 token/秒、$0.0075/百万 token——比 Nvidia H200 快达 74 倍。HC1 的 LoRA 支持表明微调正在成为硬件级能力。

EErtas Team·February 22, 2026

一家名为 Taalas 的加拿大初创公司做了听起来不可能的事：他们将 Meta 的 Llama 3.1 8B 模型直接硬连线到芯片中。不是加载到 GPU 上。不是通过软件运行时运行。他们在 815mm² 的芯片上将模型权重蚀刻入 530 亿个晶体管。

结果？每用户 17,000 token/秒。大约比市场上任何东西快 8-74 倍。

但速度不是最有趣的部分。最有趣的部分是尽管硬连线，HC1 支持 LoRA 微调。

为什么硬连线硅片上的 LoRA 支持很重要

LoRA 适配器是轻量级定制层——通常 50-200MB。在 HC1 上，基础 Llama 3.1 8B 权重硬连线以获得速度，而 LoRA 适配器权重加载到片上 SRAM 以获得灵活性。

这意味着：

一个芯片，多个专业化。 加载法律 LoRA 运行法律 AI。换医疗 LoRA 运行临床 AI。
硬件速度的微调推理。 你的领域特定微调模型以 17,000 token/秒运行。
LoRA 正在成为硬件部署接口。

现在构建者该做什么

今天就在开源模型上微调。 你今天创建的 LoRA 适配器将在 GPU 上现在工作，以后在专用硅片上也能工作。
导出为可移植格式。 GGUF + 标准 LoRA 格式。
以适配器思维，而非单体模型。 一个基础模型 + 多个 LoRA 适配器 = 一次训练投资服务多客户多用例。

微调模型是永久资产。硬件是可替换基底。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

为什么硬件公司正在将 LoRA 支持构建到芯片中

为什么硬件公司正在将 LoRA 支持构建到芯片中

Taalas、Apple、Qualcomm 等正在将 LoRA 适配器支持添加到他们的 AI 芯片中。这不是巧合——LoRA 正在成为 fine-tuned 模型与推理硬件之间的标准接口。

LoRA遇上芯片：硬件如何使微调成为一等公民

LoRA遇上芯片：硬件如何使微调成为一等公民

从Taalas的HC1到Tether Data的QVAC Fabric LLM，硬件厂商正在将LoRA支持直接构建到平台中。微调不再仅是训练技术——它正成为硬件部署接口。

Taalas 对比 Nvidia 对比 Groq 对比 Cerebras：2026 年 AI 推理硬件比较

Taalas 对比 Nvidia 对比 Groq 对比 Cerebras：2026 年 AI 推理硬件比较

2026 年 AI 推理硬件详细比较：Taalas HC1（模型上硅）、Nvidia H200/B200（通用 GPU）、Groq LPU、Cerebras 晶圆级和 SambaNova。性能、成本、灵活性和微调支持对比。