
隔离网络环境中的合成数据生成用于微调
如何在隔离网络环境中生成合成训练数据——涵盖使用本地 LLM 的改写、指令生成、DPO 对和种子扩展。
企业数据集结构性地小。医院可能有 1,500 份相关放射学报告。律所可能有 800 份特定类型合同。银行可能有 3,000 条符合分类任务的交易叙述。
在隔离网络环境中,所有生成必须使用本地模型。
技术
改写
取现有训练示例并生成保留含义但改变表面形式的变体。
从文档生成指令
将原始文档转化为指令/完成训练对。
DPO 对创建
生成选择/拒绝响应对来引导模型行为。
种子示例扩展
从小量高质量、人工验证的示例开始,生成匹配模式的额外示例。
隔离网络约束
模型能力上限:本地模型不如前沿 API 模型。缓解:更严格的质量过滤——生成所需量的 3-5 倍,然后积极过滤。
吞吐量约束:单 GPU 生成 10,000 合成示例需数小时至数天。
质量过滤:不可商量的步骤
最小过滤管道:格式合规性、去重、语义相关性、事实基础性、多样性检查。
Ertas Data Suite 的 Augment 模块使用本地 LLM(通过 Ollama/llama.cpp)处理合成数据生成,内置质量过滤和去重。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Premise Runtime Architecture for Enterprise AI Data Preparation
Architectural guide for running AI data preparation on-premise — deployment models, compute tiers, local LLM inference, and storage strategies for enterprise datasets.

Running Ollama for AI-Assisted Data Prep in Air-Gapped Enterprise Environments
Step-by-step guide to deploying Ollama for AI-assisted data labeling in air-gapped environments — model transfer, offline setup, GPU configuration, and common failure modes.

How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning
A complete guide to building on-premise data preparation pipelines for LLM fine-tuning — covering the 5 stages from ingestion to export, tool comparisons, and architecture for regulated environments.