Back to blog
    Taalas HC1:硬连线 Llama 芯片对微调意味着什么
    taalashc1llamainference-hardwareloraedge-aifine-tuningasic

    Taalas HC1:硬连线 Llama 芯片对微调意味着什么

    一家加拿大初创公司将 Llama 3.1 8B 烧入硅片,实现 17,000 token/秒、$0.0075/百万 token——比 Nvidia H200 快达 74 倍。HC1 的 LoRA 支持表明微调正在成为硬件级能力。

    EErtas Team·

    一家名为 Taalas 的加拿大初创公司做了听起来不可能的事:他们将 Meta 的 Llama 3.1 8B 模型直接硬连线到芯片中。不是加载到 GPU 上。不是通过软件运行时运行。他们在 815mm² 的芯片上将模型权重蚀刻入 530 亿个晶体管。

    结果?每用户 17,000 token/秒。大约比市场上任何东西快 8-74 倍。

    但速度不是最有趣的部分。最有趣的部分是尽管硬连线,HC1 支持 LoRA 微调

    为什么硬连线硅片上的 LoRA 支持很重要

    LoRA 适配器是轻量级定制层——通常 50-200MB。在 HC1 上,基础 Llama 3.1 8B 权重硬连线以获得速度,而 LoRA 适配器权重加载到片上 SRAM 以获得灵活性。

    这意味着:

    • 一个芯片,多个专业化。 加载法律 LoRA 运行法律 AI。换医疗 LoRA 运行临床 AI。
    • 硬件速度的微调推理。 你的领域特定微调模型以 17,000 token/秒运行。
    • LoRA 正在成为硬件部署接口。

    现在构建者该做什么

    1. 今天就在开源模型上微调。 你今天创建的 LoRA 适配器将在 GPU 上现在工作,以后在专用硅片上也能工作。
    2. 导出为可移植格式。 GGUF + 标准 LoRA 格式。
    3. 以适配器思维,而非单体模型。 一个基础模型 + 多个 LoRA 适配器 = 一次训练投资服务多客户多用例。

    微调模型是永久资产。硬件是可替换基底。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading