
synthetic-datadata-augmentationair-gappedfine-tuninglocal-llmon-premisesegment:service-provider
隔离网络环境中的合成数据生成用于微调
如何在隔离网络环境中生成合成训练数据——涵盖使用本地 LLM 的改写、指令生成、DPO 对和种子扩展。
EErtas Team·
企业数据集结构性地小。医院可能有 1,500 份相关放射学报告。律所可能有 800 份特定类型合同。银行可能有 3,000 条符合分类任务的交易叙述。
在隔离网络环境中,所有生成必须使用本地模型。
技术
改写
取现有训练示例并生成保留含义但改变表面形式的变体。
从文档生成指令
将原始文档转化为指令/完成训练对。
DPO 对创建
生成选择/拒绝响应对来引导模型行为。
种子示例扩展
从小量高质量、人工验证的示例开始,生成匹配模式的额外示例。
隔离网络约束
模型能力上限:本地模型不如前沿 API 模型。缓解:更严格的质量过滤——生成所需量的 3-5 倍,然后积极过滤。
吞吐量约束:单 GPU 生成 10,000 合成示例需数小时至数天。
质量过滤:不可商量的步骤
最小过滤管道:格式合规性、去重、语义相关性、事实基础性、多样性检查。
Ertas Data Suite 的 Augment 模块使用本地 LLM(通过 Ollama/llama.cpp)处理合成数据生成,内置质量过滤和去重。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.


