Back to blog
    企业 AI 代理的数据准备:为什么你的代理只能和你的数据一样好
    data-preparationagentic-aienterprise-aion-premiseragsegment:enterprise

    企业 AI 代理的数据准备:为什么你的代理只能和你的数据一样好

    每个人都在谈论代理框架——LangChain、CrewAI、AutoGen。没有人谈论为它们提供数据的数据层。数据质量是代理成功或失败的首要预测因素。本指南涵盖代理需要的三种数据类型以及如何准备每种数据。

    EErtas Team·

    打开任何代理式 AI 教程,焦点都在框架上。LangChain 的工具调用 API。CrewAI 的多代理编排。AutoGen 的对话模式。隐含的假设是数据已经解决了——只需将代理指向你的文档,它就会自己搞定。

    它搞不定。

    在与跨医疗、法律、金融服务和制造业部署 AI 代理的企业团队合作后,一个清晰的模式浮现:数据质量是代理部署成功或失败的最强预测因素。 不是模型。不是框架。不是硬件。是数据。

    这不是一个感觉良好的观察。它有具体的机制支撑:代理基于它们检索的信息和训练期间学习的模式做决策。如果检索返回不相关的块,代理基于错误信息做决策。如果训练数据包含不一致的工具调用模式,代理会错误地调用工具。失败是确定性的——垃圾进,垃圾出。

    代理需要的三种数据类型

    企业代理消费三个不同类别的数据,每种都有不同的准备要求:

    1. 知识库(用于 RAG 的文档)

    这是代理在查询时检索以指导其响应的信息。企业知识库通常包括:内部政策和程序、产品文档和规格、客户记录和历史、监管指南、培训手册和 SOP、邮件档案和会议笔记。

    "准备好"意味着什么: 文档必须从其源格式解析、清除样板内容、去重、在语义边界处分块、用元数据标记,并使用本地嵌入模型进行嵌入。每个块必须可追溯到其源文档。

    2. 工具模式(函数定义)

    代理通过工具与企业系统交互——描述可用操作、接受什么参数和返回什么的函数定义。

    "准备好"意味着什么: 每个工具必须有清晰的名称、精确的描述(做什么以及何时使用)、有类型和约束的完善参数文档,以及防止格式错误调用的验证规则。

    3. 训练数据(用于微调)

    如果你正在微调基础模型以改善代理行为(企业部署应该这样做),你需要正确代理行为的标注示例。包括用户查询与正确的推理步骤、工具调用和响应序列的配对。

    "准备好"意味着什么: 包含完整代理轨迹的指令/响应对——用户输入、代理推理、应该进行的工具调用(带精确参数)和最终响应。典型的良好范围企业工作流需要 500-2,000 个示例。

    知识库质量问题

    这是大多数代理项目失败的地方,值得详细关注。

    常见方法:取 10,000 个企业文档(PDF、Word 文件、邮件、电子表格),通过摄取管道运行,将块转储到向量存储中,然后连接代理。团队很兴奋——代理可以访问他们所有的企业知识。

    然后他们测试它。代理 30-40% 的时间给出错误答案。不是来自模型的幻觉——而是错误答案,因为检索系统返回了不相关或误导性的块。团队怪模型。他们尝试更大的模型。仍然 25-35% 的时间是错误的,因为问题从来不是模型。

    以下是出错的地方:

    问题 1:解析失败

    企业文档很杂乱。扫描生成的 PDF 有 OCR 错误。复杂格式的 Word 文档在文本提取时崩溃。合并单元格的电子表格在展平为文本时失去意义。

    如果 15% 的文档有严重的解析错误,15% 的知识库包含损坏的信息。

    修复: 使用处理多种格式并有格式特定逻辑的文档解析器。验证解析输出与源文档。标记未通过质量检查的文档以进行手动审查。

    问题 2:重复内容

    企业在多个地方有相同的信息。如果所有这些都在向量存储中,关于假期政策的查询可能检索到五个说法略有不同的块。

    代理现在在其上下文窗口中有矛盾的信息。它可能平均化矛盾的陈述,任意选择一个,或幻觉一个综合。

    修复: 在文档级别(精确和近似重复检测)和块级别(语义相似度阈值)去重。保留最权威或最新的版本。

    问题 3:糟糕的分块

    字符计数分块——每 512 或 1,024 个字符分割——是大多数摄取管道的默认设置。它也是破坏文档含义的默认方式。

    修复: 在主题边界处分割的语义分块——章节标题、段落分隔、逻辑过渡。将表格、列表和条件逻辑作为原子单元保留。

    问题 4:缺少元数据

    没有元数据,代理无法过滤其检索。

    修复: 用以下信息标记每个块:源文档、文档日期、作者/所有者、部门/类别、版本,以及与你用例相关的任何其他分类。

    问题 5:没有 PII/PHI 处理

    修复: 在摄取管道中运行 PII/PHI 检测和脱敏。在分块和嵌入之前脱敏或掩码敏感数据。

    准备工具模式

    模式质量代理工具调用准确率
    最简(名称 + 基本参数)45-55%
    有文档(描述 + 类型)70-80%
    完整(描述 + 约束 + 示例)85-92%
    完整 + 在模式示例上微调92-97%

    为微调准备训练数据

    每个训练示例是一个完整的代理轨迹:

    {
      "messages": [
        {
          "role": "system",
          "content": "You are a customer service agent with access to: [tool definitions]"
        },
        {
          "role": "user",
          "content": "What's the renewal date for Acme Corp's contract?"
        },
        {
          "role": "assistant",
          "content": null,
          "tool_calls": [{
            "function": {
              "name": "query_customer_database",
              "arguments": "{\"customer_id\": \"ACME-001\", \"fields\": [\"contract_end_date\"]}"
            }
          }]
        },
        {
          "role": "tool",
          "content": "{\"contract_end_date\": \"2026-09-15\"}"
        },
        {
          "role": "assistant",
          "content": "Acme Corp's contract renews on September 15, 2026."
        }
      ]
    }

    目标数量: 单个明确定义的工作流需要 500 个示例。处理多种工作流类型的更广泛代理需要 1,000-2,000 个。质量比数量更重要——500 个干净、标注良好的示例优于 5,000 个嘈杂的示例。

    可追溯到数据的常见代理失败

    失败模式症状根本原因
    幻觉事实代理陈述任何源文档中没有的内容差的 RAG 检索——返回不相关的块,模型用捏造填补空白
    错误的工具调用代理调用错误的函数或传递错误的参数差的训练数据——工具调用示例不足或不一致
    自信的错误答案代理给出详细、权威、不正确的答案知识库中的过时数据
    响应缓慢代理每次交互需要 5-10 秒分块不当的数据——大块导致嵌入查找缓慢和上下文窗口膨胀
    行为不一致相同的问题每次得到不同的答案知识库中的重复数据——不同的块给出矛盾的信息

    每个这些失败都是数据问题,而不是模型问题。修复数据,大多数这些失败就会消失。

    从哪里开始

    框架选择——LangChain、CrewAI、AutoGen 或自定义循环——是你要做的最不重要的决策。数据准备是最重要的。把数据做对了,一个 7B 模型就能作为你的企业代理表现出色。做错了,GPT-4 也会自信地给你错误的答案。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading