Fine-Tune InternLM with Ertas

上海人工智慧實驗室的多語言模型系列，提供 7B 和 20B 兩種規格，具備強大的中英雙語能力、長上下文支援，以及在推理和工具使用基準測試上的卓越表現。

7B20BShanghai AI Lab

Overview

InternLM 是由上海人工智慧實驗室與多所中國大學和研究機構合作開發的大型語言模型系列。當前一代 InternLM 2.5 提供 7B 和 20B 兩種參數規格，代表了最強大的中國開發開放權重模型家族之一。

模型使用超過 2.6 兆個 token 的多元語料庫進行訓練，經過精心策劃以包含高品質的中英文文本、程式碼、數學內容和科學文獻。InternLM 2.5 在需要推理、工具使用和長上下文理解的任務上表現特別突出，經常在中文語言基準測試中名列前茅，同時維持具競爭力的英文效能。

在架構方面，InternLM 2.5 使用密集 Transformer 解碼器，具備分組查詢注意力、SwiGLU 激活函數和 RoPE 位置嵌入。模型透過動態 NTK 感知插值支援 100 萬 token 的上下文視窗，這是任何開放權重模型中最長的上下文視窗之一。這使其能夠處理超長文件、完整程式碼庫和豐富的對話歷史記錄。

InternLM 模型以 Apache 2.0 授權發布，支援研究和商業使用。上海人工智慧實驗室還圍繞 InternLM 提供了全面的生態系統，包括 XComposer 多模態模型、Math 推理模型和 Lagent 代理框架。

Key Features

InternLM 2.5 的 100 萬 token 上下文視窗是其最引人注目的特色。雖然許多模型聲稱透過 RoPE 縮放實現長上下文，但 InternLM 在其完整上下文範圍內展現了可靠的效能，即使在極端序列長度下也能維持連貫的理解和準確的檢索。這透過動態 NTK 插值和專門的長上下文訓練資料的組合來實現。

工具使用和代理能力是 InternLM 表現出色的另一個領域。模型經過專門的工具使用資料訓練，包括程式碼直譯器整合、網路搜尋和函數呼叫。InternLM 是 Lagent 代理框架的核心，在 AgentBench 和 T-Bench 等代理基準測試上展現強勁效能。模型可以規劃多步驟工具互動、優雅地處理工具錯誤，並綜合多次工具呼叫的結果。

InternLM 展現了強大的數學和科學推理能力，經過數學證明、科學論文和結構化推理任務的專門訓練。InternLM-Math 變體進一步強化了這一點，在數學奧林匹克問題和研究生等級科學問題上取得了具競爭力的成績。

Fine-Tuning with Ertas

InternLM 模型非常適合在 Ertas Studio 中進行微調，特別是對於需要中英雙語能力或代理工具使用行為的應用。7B 模型使用 QLoRA 需要 8-12GB VRAM，在 RTX 4070 Ti 或 RTX 4080 等消費級 GPU 上即可執行。20B 模型需要 14-20GB VRAM，適合 RTX 4090 或 A5000。

對於代理和工具使用的微調，Ertas Studio 支援包含工具呼叫標註的訓練資料集。將您的範例結構化為自然語言查詢、預期的工具呼叫和最終的綜合回應。InternLM 已有的工具使用能力意味著它只需要相對少量的微調資料即可適應新工具和 API——僅 500-1000 個範例就能為自訂 API 產生可靠的工具呼叫行為。

微調後，匯出為 GGUF 格式進行本地部署。InternLM 的長上下文能力在量化後得以保留，但極長的上下文會需要相應更多的 RAM 來處理 KV 快取。透過 Ollama 或 llama.cpp 部署以整合到您的應用堆疊中。

Use Cases

InternLM 是建立需要與工具、API 和外部資料來源互動的 AI 代理的絕佳選擇。其強大的工具使用訓練使其在函數呼叫、程式碼執行、網路搜尋整合和多步驟任務規劃方面非常可靠。建立需要查詢資料庫、呼叫內部 API 和綜合多來源結果的內部 AI 助手的組織會發現 InternLM 是一個強大的基礎。

100 萬 token 的上下文視窗使 InternLM 在極端長上下文應用中非常有價值：處理整本書或文件集合、一次分析大型程式碼庫，以及為持久性 AI 助手維護非常長的對話歷史。這對法律文件審查、專利分析和全面文獻調查特別有用。

中英雙語應用是另一個關鍵用途。InternLM 在中文任務上的表現與 Yi 和 Qwen 等專用中文模型競爭力相當，同時維持強大的英文能力。同時服務中國和英語市場的組織可以使用 InternLM 作為兩種語言的單一模型骨幹。

Hardware Requirements

InternLM 7B 在 Q4_K_M 量化下的模型權重需要約 4.5GB RAM。然而，100 萬 token 的上下文視窗意味著 KV 快取對長序列可能消耗大量額外記憶體——處理 10 萬個 token 可能需要額外 8-12GB RAM 僅用於 KV 快取。請根據您預期的上下文長度相應規劃記憶體。

20B 模型在 Q4_K_M 下的模型權重需要約 12GB，長上下文的 KV 快取縮放類似。在 Q8_0 下，20B 模型需要約 21GB 的權重。完整 FP16 推論僅權重就需要約 14.5GB（7B）或 40GB（20B）。

在 Ertas Studio 中進行微調，7B 模型使用 QLoRA 需要 8-12GB VRAM，20B 需要 14-20GB。使用長上下文範例進行訓練會需要與序列長度成比例的額外記憶體。對於大多數微調任務，4K-8K token 的上下文長度已足夠，並能將記憶體需求保持在可管理範圍內。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →