What is 基础模型?

在大规模通用语料库上预训练的基础模型，作为在领域特定任务上进行微调的起点。

Definition

基础模型（也称为基座模型或预训练模型）是一个经过大规模预训练的大型神经网络——通常在从互联网、书籍、代码仓库和其他文本源抓取的数万亿token上进行训练。在预训练过程中，模型学习通用的语言理解能力：语法、事实、推理模式，甚至初步的编程能力。流行的基础模型系列包括Meta的Llama、Mistral AI的Mistral和Mixtral、微软的Phi以及Google的Gemma。

基础模型有意保持通用性。它们不针对任何单一任务进行优化，而是作为多功能的底层基座，可以通过微调、指令调优或基于人类反馈的强化学习（RLHF）来适配特定应用。可以将基础模型想象成一个高学历的通才——对各种领域都略知一二，但缺乏特定工作所需的专业知识——微调则提供这种专业化。

基础模型通常以多种规模发布（如1B、3B、7B、13B、70B参数），为从业者提供了从能力到成本的一系列权衡选择。较小的模型微调和部署更快更便宜，而较大的模型通常展现更强的推理能力和更广泛的知识。基础模型的选择是任何微调项目中最关键的决策之一，因为它决定了最终专业化模型能达到的性能上限。

Why It Matters

从零开始训练一个语言模型需要数百万美元的计算资源、数月的工程时间和精心策划的TB级数据集。基础模型将所有这些投资封装成一个可复用的工件，任何人都可以下载并在此基础上构建。通过从一个强大的基础模型开始，组织仅需数千个领域特定的样本和几小时的微调就可以获得生产级质量的结果——仅是从零训练所需成本和时间的一小部分。开源基础模型生态系统使得各种规模的团队都能获得最先进的AI能力。

How It Works

基础模型通过一个称为预训练的过程创建，模型在大规模数据集上学习预测序列中的下一个token。这种下一token预测目标迫使模型内化语言模式、事实知识和推理启发式方法。预训练通常在数百或数千个GPU的集群上运行数周到数月。产生的检查点——一组权重张量——就是基础模型。然后它以开源或开放权重许可证发布，供社区下载、评估和微调用于特定应用。

Example Use Case

一家法律科技公司评估Llama 3 8B、Mistral 7B和Phi-3 Mini作为合同分析助手的候选基础模型。在一组法律推理任务的留出测试集上对每个模型进行基准测试后，他们选择了Mistral 7B，因为它在长上下文法律文段上表现优异。然后他们使用LoRA在15,000个标注的合同条款上对其进行微调，产生了一个继承基础模型通用语言能力同时擅长条款提取和风险评分的专业化模型。

Key Takeaways

基础模型是一个预训练的基座，封装了来自大规模训练的通用语言理解能力。
微调基础模型比从零训练高效得多——无论在成本还是时间方面。
模型规模（参数数量）是一个关键权衡：更大的模型更有能力但运行更昂贵。
基础模型的选择决定了下游微调模型的性能上限。
开源基础模型（Llama、Mistral、Phi、Gemma）使最先进的AI普及化。

How Ertas Helps

Ertas Studio提供了一个精选的基础模型目录，用户可以将其作为微调项目的起点。平台支持Llama、Mistral和Phi等流行的开源系列，并为每个模型提供关于规模、能力和硬件要求的清晰信息。Ertas自动处理模型下载、格式转换和GPU分配，使用户能够专注于选择适合其用例的基础模型，而不是与基础设施搏斗。