qwenmultilingualfine-tuninginternationalslmsegment:developer

微调 Qwen 2.5 用于多语言应用

Qwen 2.5 覆盖 29 种语言，18 万亿训练 token。以下是如何为多语言分类、支持和内容生成微调它——无需每种语言单独模型。

EErtas Team·March 15, 2026

大多数开源语言模型以英语为主。Qwen 2.5 不同。阿里巴巴在 18 万亿 token 上训练，覆盖 29 种语言，对非拉丁文字和从右到左语言有真正的投入。

为什么 Qwen 在多语言上胜出

英语约 40%，中文约 25%，欧洲语言约 15%，亚洲语言约 10%，阿拉伯语/印地语等约 7%
152K 词汇分词器：中文约 1.5 token/字符（vs Llama 的 2-3）

多语言基准

基准	Qwen 2.5 7B	Llama 3.3 8B
MGSM（多语言数学）	72.4%	61.2%
XNLI（跨语言 NLI）	78.6%	69.4%

多语言微调配置

LoRA rank 32（高于单语的 16），学习率 1.5e-4，4-5 epochs。混合语言示例在每个 batch 中。

Qwen 2.5 7B vs Llama 3.3 8B 非英语任务

语言	Qwen 2.5 7B	Llama 3.3 8B
英语	95%	96%
德语	93%	84%
中文	92%	71%
阿拉伯语	89%	63%
日语	91%	68%
印地语	87%	58%
平均	91.9%	76.6%

如果您的应用涉及任何非英语语言，Qwen 2.5 是显而易见的选择。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

延伸阅读

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

微调 Gemma 3：Google 为端侧部署优化的轻量模型

微调 Gemma 3：Google 为端侧部署优化的轻量模型

Gemma 3 为端侧推理优化——手机、平板、边缘硬件。以下是如何为无需服务器运行的移动 AI 功能和 IoT 应用微调它。

微调 Phi-4：微软最佳企业任务小型模型

微调 Phi-4：微软最佳企业任务小型模型

Phi-4 14B 在数学基准上超越 GPT-4，同时在本地硬件上运行速度快 15 倍。以下是如何为分类、提取和结构化输出任务微调它。

结构化输出微调：超越 JSON Mode 实现有保障的 Schema

结构化输出微调：超越 JSON Mode 实现有保障的 Schema

JSON mode 给您有效的 JSON。微调给您有保障的 Schema 合规——每个字段、每个类型、每次。以下是如何训练模型输出您应用期望的精确结构。