Fine-Tune Falcon-H1-Tiny with Ertas

技术创新研究院 (TII) 2026 年 1 月发布的超小型模型集合——15 个不到 1 亿参数的变体,加上一个 6 亿参数推理模型 (Falcon-H1-Tiny-R-0.6B),全部使用混合 Mamba+Transformer 架构,是 2026 年浏览器和微控制器部署中最小可行的大语言模型。

~50M~135M~360M0.6B (Tiny-R)TII

Overview

Falcon-H1-Tiny 由技术创新研究院 (TII) 于 2026 年 1 月 15 日发布,是一个面向最小实际部署利基的 15 个超小型开源权重模型集合——基于浏览器的推理、微控制器级硬件、嵌入式系统以及超低资源环境,在这些场景中即使 Gemma 4 e2b(约 2B 有效参数)也太大。大多数变体在 1 亿参数以下;最大的是 Falcon-H1-Tiny-R-0.6B,有 6 亿参数。

所有 Falcon-H1-Tiny 变体都使用更广泛 Falcon-H1 产品线的混合 Mamba+Transformer 架构。在超小参数规模下,Mamba 组件的线性时间复杂度特别有价值——纯 Transformer 注意力的二次复杂度即使在小参数量下也使长上下文推理代价高昂,而混合架构在纯 Transformer 难以处理的规模上保持可用的长上下文行为。对于基于浏览器和微控制器级别的部署,这种效率直接转化为可行性。

Falcon-H1-Tiny-R-0.6B 是该家族中专用的推理变体。在 6 亿参数下,它远小于 Falcon H1R-7B(更广泛 Falcon-H1 的推理模型),但通过针对性后训练仍展现出可衡量的推理能力。虽然在绝对能力上无法与全尺寸推理模型竞争,但 Tiny-R-0.6B 处理较小通用替代方案无法触及的结构化推理任务。

15 个变体的集合涵盖了一系列规模和专业化权衡。一些变体是通用的,其他则针对特定任务专业化(分类、提取、结构化输出、简单聊天)。这种多样性支持不同的部署场景——团队可以选择最匹配其特定用例的变体,而不必致力于一刀切的小模型选项。

模型权重在 Hugging Face 上以 `tiiuae/falcon-h1-tiny` 集合提供。许可为 Falcon LLM License——商业宽松许可,其条款适合嵌入式和消费产品部署。对于在严格资源受限环境中需要设备端 AI 的产品发布团队,Falcon-H1-Tiny 是 2026 年最可信的开源权重选择之一。

Key Features

1 亿参数以下的变体填补了 2026 年没有其他开源权重家族解决的部署利基。Gemma 4 e2b(约 2B 有效)和 SmolLM(135M-1.7B)涵盖了小模型层级,而 Falcon-H1-Tiny 显著向下扩展——进入基于浏览器的推理、微控制器部署和嵌入式系统用例变得实用的范围。对于在严格受限环境中需要设备端 AI 的产品而言,这一规模类别确实具有变革意义。

混合 Mamba+Transformer 架构异常适合超小型部署。线性时间的 Mamba 组件在小参数规模下高效地处理长序列——这对于用户可能将大量文本粘贴到提示中的基于浏览器的用例至关重要。同等参数规模的纯 Transformer 替代方案即使是适度的长上下文行为也难以应对;Falcon-H1-Tiny 中的混合方法保留了可用的长上下文能力,直至令人惊讶的小规模。

Falcon-H1-Tiny-R-0.6B 是该家族中的推理专家。尽管参数量为 6 亿,针对性的推理后训练在结构化推理任务上产生了可衡量的能力。虽然无法与全尺寸推理模型竞争,但 Tiny-R-0.6B 处理较小替代方案产生几乎随机输出的任务——为以前无法实现的部署规模开启了推理模式能力。

15 个变体的集合结构支持灵活部署。团队可以使用一个变体进行原型设计,然后切换到不同的规模或专业化,无需架构更改——所有变体共享相同的提示格式、分词器和集成模式。对于在为其特定用例迭代正确规模和能力权衡的团队,这种多样性具有运营价值。

Fine-Tuning with Ertas

在 Ertas Studio 中对 Falcon-H1-Tiny 进行微调极其易于获得。最小变体(1 亿参数以下)可在几乎任何现代设备上用 QLoRA 微调——RTX 3060 6GB 起的消费级 GPU、最新的笔记本电脑,甚至一些集成显卡配置都能处理训练步骤吞吐量。6 亿参数的 Tiny-R 变体 QLoRA 微调需要 4-6GB VRAM。

对于专业化微调用例——分类、提取、特定于你应用的结构化输出、严格受限领域中的简单聊天——Falcon-H1-Tiny 是最具成本效益的可用基础之一。训练成本最小(通常单块消费级 GPU 上不到一小时),由此产生的微调变体可以直接嵌入到移动应用、浏览器扩展或微控制器固件中。

混合 Mamba+Transformer 架构在 Ertas Studio 的训练流程中得到支持,自动处理 Mamba 状态空间组件。具有结构化输出、分类标签或领域特定模式的训练数据格式都原生支持。训练完成后,Ertas Studio 导出为 GGUF 或 ONNX 格式,完整保留架构——对于通过 ONNX Runtime Web 进行基于浏览器的部署或通过专用推理框架进行微控制器部署特别有用。

专门就基于浏览器的应用部署而言,在 Falcon-H1-Tiny 上对你应用的特定模式进行微调,然后导出到 ONNX,会产生一个完全在用户浏览器中运行的可部署成果,无需服务器端基础设施。这种模式对于隐私敏感应用以及部署经济性排除了按请求服务器成本的产品特别有价值。

Use Cases

基于浏览器的 AI 应用是 Falcon-H1-Tiny 的独特用例。需要设备端 AI 能力的 Web 应用——保护隐私的内容审核、即时翻译、结构化数据提取、自动补全、简单聊天——会发现 Falcon-H1-Tiny 的 1 亿参数以下变体是少数几个可信的选项之一。ONNX Runtime Web 和类似的基于浏览器的推理框架直接支持这些模型,无需服务器成本即可启用完全客户端 AI 功能。

微控制器和嵌入式系统应用进一步扩展了部署范围。具有严格内存预算的物联网设备、智能家居电器、汽车界面和工业传感器都面临排除较大模型的部署约束。Falcon-H1-Tiny 的最小变体在这些环境中可通过适当的量化和推理框架支持进行部署。

移动应用受益于该规模类别的离线优先 AI 功能。虽然 Gemma 4 e2b 可以装入手机,但 Falcon-H1-Tiny 的额外资源节省使在较大尺寸下会消耗过多电池和内存的常驻后台 AI 功能成为可能。预测文本、设备端搜索排序、内容分类和类似的常驻模式都受益于超小占用空间。

对于需要在比典型推理模型支持的部署规模更小的规模上拥有推理模式能力的产品,Falcon-H1-Tiny-R-0.6B 提供了独特的选择。虽然无法与全尺寸推理模型竞争,但 6 亿推理变体在以前无法实现推理能力的部署环境中启用了结构化深思行为。

Hardware Requirements

1 亿参数以下的 Falcon-H1-Tiny 变体在 Q4_K_M 下通常需要 50-200MB 内存——可装入几乎任何现代设备,包括手机、嵌入式系统、浏览器标签页和微控制器级硬件。6 亿参数的 Tiny-R 变体在 Q4_K_M 下约需 360MB——仍然小到足以进行浏览器部署,所有消费级硬件都可获得。

混合 Mamba+Transformer 架构的长上下文效率直接转化为小规模部署的可行性。长上下文推理(4K-32K tokens)在那些会与同等参数量纯 Transformer 替代方案上即使较短上下文也难以应对的设备上,真正变得可行。

在 Ertas Studio 中微调时:1 亿参数以下的 Falcon-H1-Tiny 变体 QLoRA 需要 2-4GB VRAM,可装入几乎任何消费级 GPU。6 亿参数的 Tiny-R 变体需要 4-6GB VRAM。训练步骤吞吐量极快——在较大模型上需要数小时的微调运行,在这些超小型变体上几分钟即可完成,使在训练数据和超参数选择上快速迭代变得实用。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →