
知识库智能体AIRAG本地部署企业AI数据准备segment:enterprise
从企业文档本地构建AI代理知识库
从企业文档构建RAG知识库的分步指南——解析、清洗、分块、嵌入和索引——全部在本地完成。
EErtas Team·
AI代理的好坏取决于背后的知识库。在企业代理部署中,检索质量是代理输出质量的最强预测因子。良好构建的知识库配7B模型始终优于混乱的知识库配70B模型。
本指南介绍从企业文档构建代理知识库的完整管道,全部在本地完成。
管道概览
原始企业文档
↓
步骤1:文档摄入(解析)
↓
步骤2:文本清洗
↓
步骤3:带元数据的分块
↓
步骤4:嵌入(本地模型)
↓
步骤5:向量存储索引
↓
步骤6:检索测试和验证
↓
代理RAG查询
步骤3:带元数据的分块
为什么字符计数分块失败
字符计数分块没有文档结构意识。它在不该分割的地方分割。
语义分块
在自然主题边界处分割:节标题、段落边界、表格边界、列表边界。
| 参数 | 推荐范围 |
|---|---|
| 目标分块大小 | 300-800令牌 |
| 最大分块大小 | 1,200令牌 |
| 重叠 | 50-100令牌 |
步骤4:嵌入
| 模型 | 维度 | 质量(MTEB) | 大小 |
|---|---|---|---|
| all-MiniLM-L6-v2 | 384 | 良好 | 80MB |
| E5-large-v2 | 1,024 | 很好 | 1.3GB |
| BGE-large-en-v1.5 | 1,024 | 很好 | 1.3GB |
步骤5:向量存储
对于大多数企业部署(10K-500K文档),Qdrant是推荐选择。
步骤6:检索测试
质量指标: Hits@10——测试查询中正确答案包含在前10个检索块中的百分比。目标:85%以上。
审计要求
知识库中的每个文档都必须可追溯到其来源。审计链:源文档 → 解析文本 → 清洗文本 → 块 → 嵌入 → 检索事件。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.


