Back to blog
    隔离网络环境中的合成数据生成用于微调
    synthetic-datadata-augmentationair-gappedfine-tuninglocal-llmon-premisesegment:service-provider

    隔离网络环境中的合成数据生成用于微调

    如何在隔离网络环境中生成合成训练数据——涵盖使用本地 LLM 的改写、指令生成、DPO 对和种子扩展。

    EErtas Team·

    企业数据集结构性地小。医院可能有 1,500 份相关放射学报告。律所可能有 800 份特定类型合同。银行可能有 3,000 条符合分类任务的交易叙述。

    在隔离网络环境中,所有生成必须使用本地模型。

    技术

    改写

    取现有训练示例并生成保留含义但改变表面形式的变体。

    从文档生成指令

    将原始文档转化为指令/完成训练对。

    DPO 对创建

    生成选择/拒绝响应对来引导模型行为。

    种子示例扩展

    从小量高质量、人工验证的示例开始,生成匹配模式的额外示例。

    隔离网络约束

    模型能力上限:本地模型不如前沿 API 模型。缓解:更严格的质量过滤——生成所需量的 3-5 倍,然后积极过滤。

    吞吐量约束:单 GPU 生成 10,000 合成示例需数小时至数天。

    质量过滤:不可商量的步骤

    最小过滤管道:格式合规性、去重、语义相关性、事实基础性、多样性检查。

    Ertas Data Suite 的 Augment 模块使用本地 LLM(通过 Ollama/llama.cpp)处理合成数据生成,内置质量过滤和去重。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading