Back to blog
    为企业 AI 代理准备工具调用数据集:本地工作流
    data-preparationtool-callingagentson-premiseenterprisesegment:enterprise

    为企业 AI 代理准备工具调用数据集:本地工作流

    AI 代理需要工具调用训练数据来可靠地选择和调用正确的工具。以下是如何从企业文档准备函数调用数据集——完全本地。

    EErtas Team·

    大多数企业 AI 代理项目卡在同一个点上:代理可以进行对话,但无法可靠地在正确时间用正确参数调用正确的内部工具。

    仅靠提示不能解决。一旦你有 40+ 个能力重叠的内部工具,基于提示的方法就达到上限。

    解决方案:在特定于你环境的工具调用数据上微调模型。挑战在于该数据在你创建之前不存在——而且对于企业来说,创建过程必须完全在本地进行。

    为什么代理需要工具调用训练数据

    微调后三件事可测量改善:

    1. 工具选择准确率从 60-70%(仅提示)跳至 90-95%(微调)
    2. 参数格式错误减少 80% 以上
    3. 模型学习何时不调用工具

    准备管道

    阶段 1:从 API 规范提取工具定义

    阶段 2:生成用户查询变体(每工具 50-200 个)

    阶段 3:创建预期调用/响应对

    阶段 4:验证和去重

    阶段 5:导出为 JSONL

    本地要求

    工具调用数据集是企业生产的最敏感数据准备工件之一。工具定义本身揭示内部 API 架构。训练示例揭示使用模式。

    整个管道必须在组织控制的基础设施上运行。

    实际考量

    数据集大小:30 工具系统目标 3,000-6,000 示例。 更新频率:内部 API 会变。预算季度数据集更新。 多轮序列:包含占生产使用 20-30% 的工具调用链。

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading