Fine-Tune Falcon with Ertas

技术创新研究院的开放权重模型家族，提供 7B、40B 和 180B 三种规模，在大规模 RefinedWeb 数据集上训练，率先展示了高质量过滤网络数据用于大语言模型训练的可行性。

7B40B180BTII Abu Dhabi

Overview

Falcon 是由阿联酋阿布扎比技术创新研究院（TII）开发的大语言模型家族。当 Falcon 40B 于 2023 年 5 月发布时，它曾短暂登顶 Hugging Face Open LLM 排行榜，证明精心策划的网络数据可以产生与使用更昂贵的人工策划数据集训练的模型相媲美的效果。

Falcon 家族包括三种规模：7B、40B 和 180B 参数。模型主要在 RefinedWeb 上训练，这是 TII 通过对 Common Crawl 数据进行广泛的质量过滤、去重和内容提取而创建的大规模过滤网页数据集。180B 模型在约 3.5 万亿个 token 上训练，是当时最大的公开训练模型之一。

在架构上，Falcon 使用仅解码器的 Transformer，7B 变体采用多查询注意力（单个键值头在所有查询头之间共享），40B 和 180B 变体采用分组查询注意力。模型使用约 65K token 的自定义分词器词表，支持 2K 上下文窗口（可通过微调和 RoPE 缩放扩展）。

Falcon 模型在 Apache 2.0 许可下发布。虽然更新的模型在大多数基准测试上已超越 Falcon，但它在展示以网络数据为中心的训练可行性方面的贡献对整个行业后续模型开发实践产生了深远影响。

Key Features

RefinedWeb 数据集是 Falcon 对大语言模型生态系统最重要的贡献。TII 证明了通过足够严格的过滤——包括基于 URL 的过滤、使用 trafilatura 的内容提取、使用 MinHash 的精确和近似去重以及质量评分——仅网络爬取的数据就能产生与在策划数据集上训练的模型相竞争的效果。这一发现影响了许多后续模型的训练数据策略。

Falcon 7B 的多查询注意力将 KV 缓存减少到单个头，提供了卓越的推理吞吐量。这使 Falcon 7B 在内存带宽为瓶颈的高并发服务场景中特别高效。40B 和 180B 模型使用分组查询注意力以平衡效率和模型质量。

Falcon 的指令调优变体（Falcon Instruct）在聊天和指令数据的混合集上微调，展示了出色的对话能力。模型对进一步微调反应良好，社区为不同领域和语言产生了众多专门变体，特别是阿拉伯语，这与 TII 所在的阿联酋密切相关。

Fine-Tuning with Ertas

Falcon 模型在 Ertas Studio 中的微调非常简单。7B 模型特别高效，由于多查询注意力减少了内存开销，使用 QLoRA 仅需 6-10GB VRAM。40B 模型需要 24-32GB VRAM，可在单块 A100 40GB 或 A6000 48GB 上运行。180B 模型需要多 GPU 配置进行微调。

Falcon 对特定领域数据的微调反应良好，其 RefinedWeb 训练提供了坚实的通用知识基础。对于阿拉伯语应用，Falcon 是一个很好的起点——RefinedWeb 数据集包含阿拉伯语内容，TII 还发布了阿拉伯语专用变体。在 Ertas Studio 中使用阿拉伯语对话或领域数据微调可以产生能力出色的阿拉伯语 AI 助手。

训练完成后，导出为 GGUF 格式进行部署。请注意，Falcon 较短的默认上下文窗口（2K）可能需要显式配置 RoPE 缩放（如果应用需要更长的上下文）。Ertas Studio 在微调过程中提供了上下文扩展选项，允许您将 Falcon 的有效上下文长度扩展到 8K 或 16K token。

Use Cases

Falcon 7B 是需要快速高效推理且具有良好通用质量的应用的可靠选择。其多查询注意力使其成为 API 服务中吞吐量最高效的 7B 模型之一，在标准 NLP 任务上表现良好：摘要、问答、分类和对话式 AI。

40B 模型适合注重质量但不要求前沿模型性能的企业应用。它能够胜任复杂的指令遵循、内容生成和分析任务。早期采用 Falcon 并拥有现有微调变体的组织可能会发现继续使用 Falcon 生态系统比迁移更具性价比。

Falcon 在阿拉伯语 AI 应用方面特别有优势，这得益于 TII 对阿拉伯语 NLP 的持续投入。微调后的 Falcon 模型在中东和北非地区服务于阿拉伯语客户支持、内容生成和翻译任务。

Hardware Requirements

Falcon 7B 在 Q4_K_M 量化下约需 4.3GB 内存，可在配备 8GB 以上内存的消费级硬件上轻松运行。40B 模型在 Q4_K_M 下约需 23GB，可在 RTX 4090 24GB（较紧凑）或 A6000 48GB 上运行。180B 在 Q4_K_M 下约需 103GB，需要多 GPU 配置或大内存 CPU 推理。

在 Q8_0 量化下，需求分别约为 7.5GB（7B）、43GB（40B）和 190GB（180B）。全精度 FP16 推理需要 14.5GB（7B）、80GB（40B）和 360GB（180B）。7B 模型的多查询注意力提供了出色的每秒 token 性能，通常比同参数量的 GQA 模型快 20-30%。

在 Ertas Studio 中微调时，7B 需要 6-10GB VRAM，40B 需要 24-32GB，180B 使用 QLoRA 需要 80-120GB。7B 模型的低需求使其对个人开发者和小团队探索自定义模型开发非常友好。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →