Fine-Tune SOLAR with Ertas

Upstage 通过深度扩展技术创建的 107 亿参数模型，这是一种新颖的技术，通过合并和扩展预训练模型的层来以高效的推理成本达到更大模型的质量。

10.7BUpstage

Overview

SOLAR 10.7B 是由韩国 AI 公司 Upstage 开发的大语言模型。SOLAR 于 2023 年 12 月发布，引入了一种名为深度扩展（DUS）的创新模型创建技术，通过智能复制和合并较小预训练模型的层来产生更大、更强大的模型。从基于 Llama 2 的架构出发，Upstage 使用 DUS 创建了一个 107 亿参数的模型，在关键基准测试上超越了许多现有的 13B 模型，并与一些 30B 以上的模型竞争。

深度扩展方法通过取一个预训练模型、复制其部分层，然后在扩展模型上进行继续预训练来工作。这允许新模型继承原始预训练权重的知识，同时从额外的层中获得更多容量。结果是比从头训练 10.7B 模型更快训练且质量更高的模型。

SOLAR 10.7B 使用稠密 Transformer 架构，包含 48 层、4096 的隐藏维度和 32 个注意力头。支持分组查询注意力以实现高效推理，使用 4K token 的上下文窗口（可通过 RoPE 缩放扩展）。模型使用 Llama 分词器和 32K 词表。

指令调优变体（SOLAR 10.7B Instruct）使用监督微调和直接偏好优化（DPO）的组合进行训练，展示了强大的指令遵循、对话和推理能力。SOLAR 在 Apache 2.0 许可下发布，可完全商业使用。

Key Features

深度扩展（DUS）是 SOLAR 对模型开发社区的开创性贡献。该技术证明了可以通过复制层并继续训练从现有预训练模型高效创建更大的新模型，而无需从头训练。这种方法显著降低了生成目标规模的优秀模型所需的计算成本和时间，该技术此后影响了其他模型缩放策略。

SOLAR 10.7B 在模型规模格局中占据了一个有趣的位置——它位于流行的 7B 和 13B 层级之间。这个 10.7B 的规模相比 7B 模型提供了有意义的质量提升，同时在内存和推理速度方面比 13B 模型更高效。对于 7B 质量不足但 13B 资源太勉强的应用，SOLAR 提供了一个有吸引力的中间地带。

经过 DPO 训练的指令变体除了英语外在韩语任务上也表现特别出色，反映了 Upstage 对韩国市场的关注。这使 SOLAR 成为韩英双语应用的值得注意的选项，尽管它本质上是一个具有广泛语言支持的通用模型。

Fine-Tuning with Ertas

SOLAR 10.7B 由于其适中的规模，在 Ertas Studio 中微调非常方便。QLoRA 微调约需 8-12GB VRAM，在 RTX 4070 Ti 12GB、RTX 4080 16GB 或 RTX 4090 24GB 等消费级 GPU 能力范围内。模型的深度扩展架构意味着它比典型的 10B 模型拥有更多层（48 层 vs 通常的 32 层），提供了更多潜在的 LoRA 插入点以实现细粒度适应。

在 Ertas Studio 中，选择 SOLAR 10.7B 作为基础模型，以 JSONL 或 CSV 格式上传数据集，配置 LoRA 参数。模型对 16-64 的 LoRA rank 和约 1e-4 到 3e-4 的学习率反应良好。在单块 GPU 上处理 10,000 个示例的训练通常在 1-3 小时内完成，使迭代开发变得实际可行。

微调完成后，Ertas Studio 导出为 GGUF 格式。10.7B 模型在 Q4_K_M 下生成约 6.5GB 的文件——对本地部署非常易于管理。通过 Ollama、llama.cpp 或 LM Studio 部署即可立即使用。略大于 7B 的尺寸意味着 SOLAR 微调模型提供了明显优于 7B 替代方案的质量，同时保持高度便携性。

Use Cases

SOLAR 10.7B 非常适合 7B 模型略显不足但 13B 以上模型资源过于密集的应用。对话式 AI、内容生成、客户支持自动化和文档摘要都受益于 SOLAR 额外参数提供的质量提升。该模型对韩语应用特别有效，是在韩国运营的企业的强选择。

该模型强大的指令遵循能力使其适合结构化输出生成：JSON 提取、表单填写、数据分类和基于模板的内容创建。微调后的 SOLAR 模型可以作为自动化工作流中可靠的数据处理引擎。

SOLAR 在探索模型缩放的教育和研究场景中也很有价值。深度扩展技术为创建针对特定部署约束优化的自定义模型规模开辟了可能性。研究人员可以研究层复制和继续训练对模型行为、知识保留和能力缩放的影响。

Hardware Requirements

SOLAR 10.7B 在 Q4_K_M 量化下约需 6.5GB 内存，在大多数配备 8-16GB 内存的系统和配备 8GB 以上 VRAM 的 GPU 上都很舒适。在 Q8_0 下约需 11.5GB，可在 16GB GPU 和 16GB 以上内存系统上运行。全精度 FP16 推理约需 21.5GB VRAM，可在 RTX 4090 24GB 或 A5000 24GB 上实现。

消费级硬件上的推理速度出色。在 RTX 4090 上使用 Q4_K_M 量化，预计每秒 45-60 个 token 用于生成。在配备 16GB 统一内存的 Apple M2 Pro 上，预计每秒 12-18 个 token。现代硬件上使用 Q4_K_M 的 CPU 推理通常每秒可达 5-10 个 token。

在 Ertas Studio 中使用 QLoRA 微调，推荐 8-12GB VRAM。不带量化的完整 LoRA 约需 16-18GB VRAM。模型的适中大小允许在消费级 GPU 上使用合理的批次大小，支持高效训练。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →