synthetic-datadata-augmentationair-gappedfine-tuninglocal-llmon-premisesegment:service-provider

隔离网络环境中的合成数据生成用于微调

如何在隔离网络环境中生成合成训练数据——涵盖使用本地 LLM 的改写、指令生成、DPO 对和种子扩展。

EErtas Team·March 11, 2026

企业数据集结构性地小。医院可能有 1,500 份相关放射学报告。律所可能有 800 份特定类型合同。银行可能有 3,000 条符合分类任务的交易叙述。

在隔离网络环境中，所有生成必须使用本地模型。

技术

改写

取现有训练示例并生成保留含义但改变表面形式的变体。

从文档生成指令

将原始文档转化为指令/完成训练对。

DPO 对创建

生成选择/拒绝响应对来引导模型行为。

种子示例扩展

从小量高质量、人工验证的示例开始，生成匹配模式的额外示例。

隔离网络约束

模型能力上限：本地模型不如前沿 API 模型。缓解：更严格的质量过滤——生成所需量的 3-5 倍，然后积极过滤。

吞吐量约束：单 GPU 生成 10,000 合成示例需数小时至数天。

质量过滤：不可商量的步骤

最小过滤管道：格式合规性、去重、语义相关性、事实基础性、多样性检查。

Ertas Data Suite 的 Augment 模块使用本地 LLM（通过 Ollama/llama.cpp）处理合成数据生成，内置质量过滤和去重。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

在离线企业环境中运行 Ollama 进行 AI 辅助数据准备

在离线企业环境中运行 Ollama 进行 AI 辅助数据准备

在离线环境中部署 Ollama 进行 AI 辅助数据标注的分步指南——模型传输、离线设置、GPU 配置和常见故障模式。

企业 AI 数据准备的本地运行时架构

企业 AI 数据准备的本地运行时架构

本地运行 AI 数据准备的架构指南——部署模型、计算层级、本地 LLM 推理和企业数据集的存储策略。

政府和国防 AI 承包商的气隙数据准备

政府和国防 AI 承包商的气隙数据准备

在真正气隙隔离的政府和国防环境中运行 AI 数据准备流水线的技术指南，零互联网连接。