Fine-Tune InternLM with Ertas

上海人工智能实验室的多语言模型系列，提供 7B 和 20B 两种规模，具有强大的中英文能力、长上下文支持以及在推理和工具使用基准测试上的出色表现。

7B20BShanghai AI Lab

Overview

InternLM 是由上海人工智能实验室与多所中国高校和研究机构合作开发的大语言模型系列。当前版本 InternLM 2.5 提供 7B 和 20B 参数两种规模，是中国研发的最强开放权重模型家族之一。

模型在超过 2.6 万亿个 token 的多样化语料库上训练，精心策划了高质量的中英文文本、代码、数学内容和科学文献。InternLM 2.5 在需要推理、工具使用和长上下文理解的任务上表现特别出色，经常在中文语言基准测试中名列前茅，同时保持有竞争力的英语性能。

在架构上，InternLM 2.5 使用带有分组查询注意力、SwiGLU 激活函数和 RoPE 位置编码的稠密 Transformer 解码器。模型通过动态 NTK 感知插值支持 100 万 token 的上下文窗口，这是所有开放权重模型中最长的上下文窗口之一。这使得处理超长文档、完整代码库和广泛的对话历史成为可能。

InternLM 模型在 Apache 2.0 许可下发布，支持研究和商业使用。上海人工智能实验室还围绕 InternLM 提供了完整的生态系统，包括 XComposer 多模态模型、Math 推理模型和 Lagent 智能体框架。

Key Features

InternLM 2.5 的 100 万 token 上下文窗口是其最引人注目的特性。虽然许多模型通过 RoPE 缩放声称支持长上下文，但 InternLM 在整个上下文范围内展示了可靠的性能，即使在极端序列长度下也能保持连贯的理解和准确的检索。这通过动态 NTK 插值和专门的长上下文训练数据的组合来实现。

工具使用和智能体能力是 InternLM 另一个出色的领域。模型专门使用工具使用数据进行训练，包括代码解释器集成、网络搜索和函数调用。InternLM 作为 Lagent 智能体框架的骨干，在 AgentBench 和 T-Bench 等智能体基准测试上表现出色。模型可以规划多步骤工具交互、优雅地处理工具错误，并综合来自多次工具调用的结果。

InternLM 在数学和科学推理方面表现强劲，专门在数学证明、科学论文和结构化推理任务上进行了训练。InternLM-Math 变体进一步提升了这一能力，在数学奥林匹克问题和研究生级别科学问题上取得了有竞争力的成果。

Fine-Tuning with Ertas

InternLM 模型非常适合在 Ertas Studio 中微调，特别是对于需要中英双语能力或智能体工具使用行为的应用。7B 模型使用 QLoRA 需要 8-12GB VRAM，可在 RTX 4070 Ti 或 RTX 4080 等消费级 GPU 上运行。20B 模型需要 14-20GB VRAM，可在 RTX 4090 或 A5000 上运行。

对于智能体和工具使用微调，Ertas Studio 支持包含工具调用注释的训练数据集。将示例结构化为自然语言查询、预期的工具调用和最终综合响应。InternLM 现有的工具使用能力意味着适应新工具和 API 只需相对较少的微调数据——仅 500-1000 个示例即可为自定义 API 产生可靠的工具调用行为。

微调完成后，导出为 GGUF 格式进行本地部署。InternLM 的长上下文能力在量化后得以保留，但极长的上下文将需要按比例增加更多内存用于 KV 缓存。通过 Ollama 或 llama.cpp 部署以集成到您的应用栈中。

Use Cases

InternLM 是构建需要与工具、API 和外部数据源交互的 AI 智能体的绝佳选择。其强大的工具使用训练使其在函数调用、代码执行、网络搜索集成和多步骤任务规划方面表现可靠。构建需要查询数据库、调用内部 API 和综合多源结果的内部 AI 助手的组织会发现 InternLM 是一个很好的基础。

100 万 token 的上下文窗口使 InternLM 在极端长上下文应用中很有价值：处理整本书或文档集、在单次传递中分析大型代码库，以及为持久化 AI 助手维护超长对话历史。这对法律文件审查、专利分析和综合文献综述特别有用。

中英双语应用是另一个关键用例。InternLM 在中文任务上与 Yi 和 Qwen 等专门的中文模型不相上下，同时保持强大的英语能力。服务于中国和英语地区市场的组织可以使用 InternLM 作为两种语言的单一模型骨干。

Hardware Requirements

InternLM 7B 在 Q4_K_M 量化下模型权重约需 4.5GB 内存。但 100 万 token 的上下文窗口意味着 KV 缓存在长序列时会消耗大量额外内存——处理 100K token 可能需要额外 8-12GB 内存仅用于 KV 缓存。请根据预期的上下文长度合理规划内存。

20B 模型在 Q4_K_M 下权重约需 12GB，长上下文的 KV 缓存同样按比例增长。在 Q8_0 下，20B 模型权重约需 21GB。全精度 FP16 推理仅权重分别约需 14.5GB（7B）或 40GB（20B）。

在 Ertas Studio 中微调时，7B 模型使用 QLoRA 需要 8-12GB VRAM，20B 需要 14-20GB。使用长上下文示例训练将需要与序列长度成比例的额外内存。对于大多数微调任务，4K-8K token 的上下文长度足够且内存需求可控。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →