
企业 AI 代理的数据准备:为什么你的代理只能和你的数据一样好
每个人都在谈论代理框架——LangChain、CrewAI、AutoGen。没有人谈论为它们提供数据的数据层。数据质量是代理成功或失败的首要预测因素。本指南涵盖代理需要的三种数据类型以及如何准备每种数据。
打开任何代理式 AI 教程,焦点都在框架上。LangChain 的工具调用 API。CrewAI 的多代理编排。AutoGen 的对话模式。隐含的假设是数据已经解决了——只需将代理指向你的文档,它就会自己搞定。
它搞不定。
在与跨医疗、法律、金融服务和制造业部署 AI 代理的企业团队合作后,一个清晰的模式浮现:数据质量是代理部署成功或失败的最强预测因素。 不是模型。不是框架。不是硬件。是数据。
这不是一个感觉良好的观察。它有具体的机制支撑:代理基于它们检索的信息和训练期间学习的模式做决策。如果检索返回不相关的块,代理基于错误信息做决策。如果训练数据包含不一致的工具调用模式,代理会错误地调用工具。失败是确定性的——垃圾进,垃圾出。
代理需要的三种数据类型
企业代理消费三个不同类别的数据,每种都有不同的准备要求:
1. 知识库(用于 RAG 的文档)
这是代理在查询时检索以指导其响应的信息。企业知识库通常包括:内部政策和程序、产品文档和规格、客户记录和历史、监管指南、培训手册和 SOP、邮件档案和会议笔记。
"准备好"意味着什么: 文档必须从其源格式解析、清除样板内容、去重、在语义边界处分块、用元数据标记,并使用本地嵌入模型进行嵌入。每个块必须可追溯到其源文档。
2. 工具模式(函数定义)
代理通过工具与企业系统交互——描述可用操作、接受什么参数和返回什么的函数定义。
"准备好"意味着什么: 每个工具必须有清晰的名称、精确的描述(做什么以及何时使用)、有类型和约束的完善参数文档,以及防止格式错误调用的验证规则。
3. 训练数据(用于微调)
如果你正在微调基础模型以改善代理行为(企业部署应该这样做),你需要正确代理行为的标注示例。包括用户查询与正确的推理步骤、工 具调用和响应序列的配对。
"准备好"意味着什么: 包含完整代理轨迹的指令/响应对——用户输入、代理推理、应该进行的工具调用(带精确参数)和最终响应。典型的良好范围企业工作流需要 500-2,000 个示例。
知识库质量问题
这是大多数代理项目失败的地方,值得详细关注。
常见方法:取 10,000 个企业文档(PDF、Word 文件、邮件、电子表格),通过摄取管道运行,将块转储到向量存储中,然后连接代理。团队很兴奋——代理可以访问他们所有的企业知识。
然后他们测试它。代理 30-40% 的时间给出错误答案。不是来自模型的幻觉——而是错误答案,因为检索系统返回了不相关或误导性的块。团队怪模型。他们尝试更大的模型。仍然 25-35% 的时间是错误的,因为问题从来不是模型。
以下是出错的地方:
问题 1:解析失败
企业文档很杂乱。扫描生成的 PDF 有 OCR 错误。复杂格式的 Word 文档在文本提取时崩溃。合并单元格的电子表格在展平为文本时失去意义。
如果 15% 的文档有严重的解析错误,15% 的知识库包含损坏的信息。
修复: 使用处理多种格式并有格式特定逻辑的文档解析器。验证解析输出与源文档。标记未通过质量检查的文档以进行手动审查。
问题 2:重复内容
企业在多个地方有相同的信息。如果所有这些都在向量存储中,关于假期政策的查询可能检索到五个说法略有不同的块。
代理现在在其上下文窗口中有矛盾的信息。它可能平均化矛盾的陈述,任意选择一个,或幻觉一个综合。
修复: 在文档级别(精确和近似重复检测)和块级别(语义相似度阈值)去重。保留最权威或最新的版本。
问题 3:糟糕的分块
字符计数分块——每 512 或 1,024 个字符分割——是大多数摄取管道的默认设置。它也是破坏文档含义的默认方式。
修复: 在主题边界处分割的语义分块——章节标题、段落分隔、逻辑过渡。将表格、列表和条件逻辑作为原子单元保留。
问题 4:缺少元数据
没有元数据,代理无法过滤其检索。
修复: 用以下信息标记每个块:源文档、文档日期、作者/所有者、部门/类别、版本,以及与你用例相关的任何其他分类。
问题 5:没有 PII/PHI 处理
修复: 在摄取管道中运行 PII/PHI 检测和脱敏。在分块和嵌入之前脱敏或掩码敏感数据。
准备工具模式
| 模式质量 | 代理工具调用准确率 |
|---|---|
| 最简(名称 + 基本参数) | 45-55% |
| 有文档(描述 + 类型) | 70-80% |
| 完整(描述 + 约束 + 示例) | 85-92% |
| 完整 + 在模式示例上微调 | 92-97% |
为微调准备训练数据
每个训练示例是一个完整的代理轨迹:
{
"messages": [
{
"role": "system",
"content": "You are a customer service agent with access to: [tool definitions]"
},
{
"role": "user",
"content": "What's the renewal date for Acme Corp's contract?"
},
{
"role": "assistant",
"content": null,
"tool_calls": [{
"function": {
"name": "query_customer_database",
"arguments": "{\"customer_id\": \"ACME-001\", \"fields\": [\"contract_end_date\"]}"
}
}]
},
{
"role": "tool",
"content": "{\"contract_end_date\": \"2026-09-15\"}"
},
{
"role": "assistant",
"content": "Acme Corp's contract renews on September 15, 2026."
}
]
}
目标数量: 单个明确定义的工作流需要 500 个示例。处理多种工作流类型的更广泛代理需要 1,000-2,000 个。质量比数量更重要——500 个干净、标注良好的示例优于 5,000 个嘈杂的示例。
可追溯到数据的常见代理失败
| 失败模式 | 症状 | 根本原因 |
|---|---|---|
| 幻觉事实 | 代理陈述任何源文档中没有的内容 | 差的 RAG 检索——返回不相关的块,模型用捏造填补空白 |
| 错误的工具调用 | 代理调用错误的函数或传递错误的参数 | 差的训练数据——工具调用示例不足或不一致 |
| 自信的错误答案 | 代理给出详细、权威、不正确的答案 | 知识库中的过时数据 |
| 响应缓慢 | 代理每次交互需要 5-10 秒 | 分块不当的数据——大块导致嵌入查找缓慢和上下文窗口膨胀 |
| 行为不一致 | 相同的问题每次得到不同的答案 | 知识库中的重复数据——不同的块给出矛盾的信息 |
每个这些失败都是数据问题,而不是模型问题。修复数据,大多数这些失败就会消失。
从哪里开始
框架选择——LangChain、CrewAI、AutoGen 或自定义循环——是你要做的最不重要的决策。数据准备是最重要的。把数据做对了,一个 7B 模型就能作为你的企业代理表现出色。做错了,GPT-4 也会自信地给你错误的答案。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

企业 AI 智能体:微调模型 vs RAG 何时使用哪种
企业 AI 智能体该用微调、RAG 还是两者兼用?本指南从 10 个决策维度比较两种方案,解释何时各有胜出,介绍混合模式及数据准备要求。

端侧 AI vs 本地部署 AI:不同的隐私问题,不同的数据准备
端侧 AI 和本地部署 AI 解决根本不同的隐私问题——需要根本不同的数据准备策略。以下是如何判断你需要哪种以及每种的数据管道应该是什么样的。

受监管行业云数据准备的真实成本(2026)
云数据准备工具需要 $50K-$150K 的合规审批费用和 6-18 个月的时间。本地替代方案完全消除了这些成本。以下是受监管行业需要的 TCO 对比。