企业 AI 代理的数据准备：为什么你的代理只能和你的数据一样好

打开任何代理式 AI 教程，焦点都在框架上。LangChain 的工具调用 API。CrewAI 的多代理编排。AutoGen 的对话模式。隐含的假设是数据已经解决了——只需将代理指向你的文档，它就会自己搞定。

它搞不定。

在与跨医疗、法律、金融服务和制造业部署 AI 代理的企业团队合作后，一个清晰的模式浮现：数据质量是代理部署成功或失败的最强预测因素。 不是模型。不是框架。不是硬件。是数据。

这不是一个感觉良好的观察。它有具体的机制支撑：代理基于它们检索的信息和训练期间学习的模式做决策。如果检索返回不相关的块，代理基于错误信息做决策。如果训练数据包含不一致的工具调用模式，代理会错误地调用工具。失败是确定性的——垃圾进，垃圾出。

代理需要的三种数据类型

企业代理消费三个不同类别的数据，每种都有不同的准备要求：

1. 知识库（用于 RAG 的文档）

这是代理在查询时检索以指导其响应的信息。企业知识库通常包括：内部政策和程序、产品文档和规格、客户记录和历史、监管指南、培训手册和 SOP、邮件档案和会议笔记。

"准备好"意味着什么： 文档必须从其源格式解析、清除样板内容、去重、在语义边界处分块、用元数据标记，并使用本地嵌入模型进行嵌入。每个块必须可追溯到其源文档。

2. 工具模式（函数定义）

代理通过工具与企业系统交互——描述可用操作、接受什么参数和返回什么的函数定义。

"准备好"意味着什么： 每个工具必须有清晰的名称、精确的描述（做什么以及何时使用）、有类型和约束的完善参数文档，以及防止格式错误调用的验证规则。

3. 训练数据（用于微调）

如果你正在微调基础模型以改善代理行为（企业部署应该这样做），你需要正确代理行为的标注示例。包括用户查询与正确的推理步骤、工具调用和响应序列的配对。

"准备好"意味着什么： 包含完整代理轨迹的指令/响应对——用户输入、代理推理、应该进行的工具调用（带精确参数）和最终响应。典型的良好范围企业工作流需要 500-2,000 个示例。

知识库质量问题

这是大多数代理项目失败的地方，值得详细关注。

常见方法：取 10,000 个企业文档（PDF、Word 文件、邮件、电子表格），通过摄取管道运行，将块转储到向量存储中，然后连接代理。团队很兴奋——代理可以访问他们所有的企业知识。

然后他们测试它。代理 30-40% 的时间给出错误答案。不是来自模型的幻觉——而是错误答案，因为检索系统返回了不相关或误导性的块。团队怪模型。他们尝试更大的模型。仍然 25-35% 的时间是错误的，因为问题从来不是模型。

以下是出错的地方：

问题 1：解析失败

企业文档很杂乱。扫描生成的 PDF 有 OCR 错误。复杂格式的 Word 文档在文本提取时崩溃。合并单元格的电子表格在展平为文本时失去意义。

如果 15% 的文档有严重的解析错误，15% 的知识库包含损坏的信息。

修复： 使用处理多种格式并有格式特定逻辑的文档解析器。验证解析输出与源文档。标记未通过质量检查的文档以进行手动审查。

问题 2：重复内容

企业在多个地方有相同的信息。如果所有这些都在向量存储中，关于假期政策的查询可能检索到五个说法略有不同的块。

代理现在在其上下文窗口中有矛盾的信息。它可能平均化矛盾的陈述，任意选择一个，或幻觉一个综合。

修复： 在文档级别（精确和近似重复检测）和块级别（语义相似度阈值）去重。保留最权威或最新的版本。

问题 3：糟糕的分块

字符计数分块——每 512 或 1,024 个字符分割——是大多数摄取管道的默认设置。它也是破坏文档含义的默认方式。

修复： 在主题边界处分割的语义分块——章节标题、段落分隔、逻辑过渡。将表格、列表和条件逻辑作为原子单元保留。

问题 4：缺少元数据

没有元数据，代理无法过滤其检索。

修复： 用以下信息标记每个块：源文档、文档日期、作者/所有者、部门/类别、版本，以及与你用例相关的任何其他分类。

问题 5：没有 PII/PHI 处理

修复： 在摄取管道中运行 PII/PHI 检测和脱敏。在分块和嵌入之前脱敏或掩码敏感数据。

准备工具模式

模式质量	代理工具调用准确率
最简（名称 + 基本参数）	45-55%
有文档（描述 + 类型）	70-80%
完整（描述 + 约束 + 示例）	85-92%
完整 + 在模式示例上微调	92-97%

为微调准备训练数据

每个训练示例是一个完整的代理轨迹：

{
  "messages": [
    {
      "role": "system",
      "content": "You are a customer service agent with access to: [tool definitions]"
    },
    {
      "role": "user",
      "content": "What's the renewal date for Acme Corp's contract?"
    },
    {
      "role": "assistant",
      "content": null,
      "tool_calls": [{
        "function": {
          "name": "query_customer_database",
          "arguments": "{\"customer_id\": \"ACME-001\", \"fields\": [\"contract_end_date\"]}"
        }
      }]
    },
    {
      "role": "tool",
      "content": "{\"contract_end_date\": \"2026-09-15\"}"
    },
    {
      "role": "assistant",
      "content": "Acme Corp's contract renews on September 15, 2026."
    }
  ]
}

目标数量： 单个明确定义的工作流需要 500 个示例。处理多种工作流类型的更广泛代理需要 1,000-2,000 个。质量比数量更重要——500 个干净、标注良好的示例优于 5,000 个嘈杂的示例。

可追溯到数据的常见代理失败

失败模式	症状	根本原因
幻觉事实	代理陈述任何源文档中没有的内容	差的 RAG 检索——返回不相关的块，模型用捏造填补空白
错误的工具调用	代理调用错误的函数或传递错误的参数	差的训练数据——工具调用示例不足或不一致
自信的错误答案	代理给出详细、权威、不正确的答案	知识库中的过时数据
响应缓慢	代理每次交互需要 5-10 秒	分块不当的数据——大块导致嵌入查找缓慢和上下文窗口膨胀
行为不一致	相同的问题每次得到不同的答案	知识库中的重复数据——不同的块给出矛盾的信息

每个这些失败都是数据问题，而不是模型问题。修复数据，大多数这些失败就会消失。

从哪里开始

框架选择——LangChain、CrewAI、AutoGen 或自定义循环——是你要做的最不重要的决策。数据准备是最重要的。把数据做对了，一个 7B 模型就能作为你的企业代理表现出色。做错了，GPT-4 也会自信地给你错误的答案。