Back to blog
    最佳可视化RAG管道构建器:从文档到检索端点无需编写代码
    rag-pipelineno-codevisual-pipelineenterprise-aidata-pipelinesegment:enterprise

    最佳可视化RAG管道构建器:从文档到检索端点无需编写代码

    构建RAG管道通常需要五个或更多Python库的专业知识。可视化管道构建器让领域专家和工程师都能通过在画布上拖放和连接节点来构建生产级RAG。

    EErtas Team·

    检索增强生成已成为将LLM响应建立在私有数据之上的标准架构。概念很简单:将文档分块,嵌入到向量存储中,在查询时检索相关上下文。但实现起来并不简单。

    生产级RAG管道通常需要拼接五个或更多的Python库——PyPDF或Docling用于解析,分块库用于分段,嵌入API客户端,向量数据库SDK,以及一个检索框架将所有这些串联在一起。每个库都有自己的配置界面、版本管理特性和故障模式。结果是,构建RAG管道已变成一项Python工程任务,尽管架构本身在概念上很简单。

    这就是我们所说的RAG的Python税。

    RAG的Python税

    考虑一下典型的文档到检索管道在代码中是什么样子。您需要处理PDF提取(包括多栏布局和扫描文档)、规范化文本、以适当的重叠将其分割成块、生成嵌入、将这些嵌入写入向量存储,然后构建一个检索端点,该端点接收查询、嵌入查询、搜索向量存储、组装上下文并返回结果。

    每个步骤都涉及库的选择、依赖管理和错误处理。PyPDF处理简单PDF,但在复杂布局上表现不佳。Docling处理更多格式,但需要额外的设置。分块策略因文档类型而异。嵌入模型的选择影响质量和延迟。向量存储客户端在不同提供商之间存在差异。

    对于经验丰富的ML工程师来说,这是一个周末项目。对于没有专门ML专业知识的团队来说,这是一个数周的工作,伴随着漫长的调试过程。

    谁被排除在外

    Python税造成了一个令人不安的差距。最了解文档的人——审阅临床文献的医生、分析判例法的律师、阅读技术规格的工程师——很少是能够构建或修改服务于这些文档的RAG管道的人。

    使用电子表格和SQL工作的数据分析师无法轻易参与管道开发。能够维护系统的初级工程师被ML工具的复杂性所阻碍。能够立即发现不良分块策略或缺失文档类型的领域专家无法在不向ML团队提交工单的情况下检查或调整管道。

    这不仅仅是效率问题。这是质量问题。当最接近数据的人无法看到或影响数据如何流经管道时,错误会持续更长时间,系统也会偏离用户真正需要的东西。

    可视化RAG管道构建器带来了什么变化

    可视化RAG管道构建器不会改变底层架构。步骤完全相同:解析、清理、分块、嵌入、存储、检索。改变的是组装和配置这些步骤的界面。

    不再编写Python,而是将节点拖到画布上并用边连接它们。每个节点代表一个处理步骤——文件导入器、PDF解析器、文本清理器、RAG分块器、嵌入生成器、向量存储写入器。通过设置面板配置每个节点:分块大小、重叠百分比、嵌入模型选择、向量存储目标。

    管道变成了一个可见的、可检查的工件。团队中的任何人都可以打开画布,准确地看到文档如何从摄取流向检索。拖放式RAG管道不是真实管道的简化玩具版——它就是真实的管道,只是输入方式不同。

    在Ertas中从文档到检索端点:逐节点介绍

    Ertas Data Suite是一个基于Tauri 2.0(Rust和React)构建的本地桌面应用程序,提供使用React Flow的可视化节点图管道。它配备了8个类别的25种节点类型。以下是完整的文档到RAG管道在画布上的样子。

    索引端(构建知识库):

    • 文件导入 — 指向一个文档目录。该节点接受PDF(包括多栏和扫描的)、Word文档、Excel和CSV文件、PowerPoint演示文稿、HTML页面、图像和音频文件。
    • 解析器 — 从每种文件格式中提取结构化文本。对于PDF,这包括保留表格结构并正确处理多栏布局的布局感知解析。
    • 清理 — 规范化提取的文本:去除页眉和页脚、移除水印、修复编码问题、去重复内容。
    • RAG分块器 — 将清理后的文本分割成块。可配置的分块大小和重叠。该节点在其输出边上显示元素计数,因此您可以准确看到给定文档集产生了多少个块。
    • 嵌入 — 为每个块生成向量嵌入。从节点的配置面板中选择嵌入模型。
    • 向量存储写入器 — 将嵌入及其关联的元数据写入目标向量存储。

    检索端(服务查询):

    • API端点 — 公开一个接受查询的本地REST端点。
    • 查询嵌入器 — 使用索引期间使用的同一模型嵌入传入的查询。
    • 向量搜索 — 在向量存储中搜索与查询嵌入最相似的块。可配置的top-k和相似度阈值。
    • 上下文组装器 — 将检索到的块组合成格式化的上下文块,准备注入LLM提示词。
    • API响应 — 通过端点返回组装好的上下文。

    节点之间的每条边都显示元素计数——您可以准确看到有多少文档、块或嵌入通过每个步骤。质量评分器和异常检测器节点可以在任何点插入,以便在问题向下游传播之前直观地捕获问题。

    整个管道无需编写代码即可组装。配置通过节点设置面板完成。最好的无代码RAG管道工具是视觉表示就是实际管道的工具,而不是在幕后生成代码的图表。

    在一个画布上进行多格式文档摄取

    大多数现实世界的知识库不是纯PDF集合。法律团队可能有案件PDF、Word文档简报、案件元数据的Excel电子表格和扫描的图像证据。医疗保健组织有临床PDF以及DICOM报告、转录的音频笔记和EHR系统的HTML导出。

    多格式文档RAG管道需要处理所有这些,而无需为每种格式建立单独的摄取路径。在Ertas中,文件导入节点接受所有支持的格式,解析器节点将每个文件路由到适当的提取逻辑。无论输入格式如何,输出都是规范化文本,因此下游的分块和嵌入工作方式相同,无论源是PDF还是音频转录。

    这使Ertas成为跨多种文件类型的RAG工作流程的最佳文档摄取工具的有力候选者。无论您需要用于法律档案的PDF到RAG管道还是用于研究组织的多格式管道,同一画布都能处理。

    代码仍然重要的地方

    可视化管道构建器并非所有工程工作的替代品。在某些领域,代码仍然是更好的工具。

    自定义解析逻辑。 如果您的文档具有专有格式或需要特定领域的提取规则(例如,从非常特定的PDF模板中解析结构化数据),您可能需要一个自定义解析器节点——这需要代码来构建。

    复杂的检索策略。 结合密集和稀疏检索的混合搜索、使用交叉编码器的重新排序或多跳检索链可能超出了可视化构建器能够清晰表达的范围。这些是活跃的开发领域,但目前它们通常受益于代码级别的控制。

    与现有系统的集成。 如果您的RAG管道需要接入更大的ML编排系统、自定义身份验证流程或专有API,集成层通常需要代码。

    规模测试和优化。 对检索端点进行负载测试、分析嵌入吞吐量或在大型语料库上优化分块大小是脚本提供更大灵活性的任务。

    坦诚的说法:可视化管道构建器处理了大多数团队在生产RAG中需要的80-90%。剩余的10-20%仍然受益于工程工作。但这与管道的100%都需要工程工作相比,是一种根本不同的资源分配。

    方法比较

    维度Python脚本Jupyter笔记本可视化管道构建器
    配置时间数小时到数天数小时(更快的迭代)数分钟到数小时
    可维护性取决于代码质量和文档通常较差(笔记本漂移)高(可视化即自文档化)
    团队可访问性仅ML工程师ML工程师、部分数据科学家工程师、分析师、领域专家
    可观测性需要日志记录工具逐单元格,但脆弱内置(元素计数、质量评分)
    生产就绪性高(如果工程设计良好)低(笔记本不是生产工件)高(管道就是生产工件)
    审计追踪需要版本控制纪律弱(笔记本差异嘈杂)完整(本地、完全可观测)

    没有单一方法在每个维度都占主导地位。Python脚本提供最大的灵活性。笔记本提供快速实验。可视化管道构建器提供可访问性、可观测性和生产就绪性的最佳组合——这就是为什么它作为非ML工程师的最佳RAG管道构建器效果很好,同时仍能产出生产级结果。

    构建RAG,无需Python税

    支持可视化RAG管道构建器的核心论点不是代码不好。代码是强大而灵活的。论点是,应该构建和审查RAG管道的人——理解文档的领域专家、理解数据的分析师、将维护系统的工程师——不应该需要成为Python ML专家才能做到这一点。

    Ertas Data Suite让您无需Python即可构建RAG管道,从文档摄取到检索端点,在完全本地运行的可视化画布上完成。每个步骤都可检查。每个配置都可见。每个文档流都可追溯。

    如果您正在为企业文档集合构建RAG管道并希望评估可视化方法,我们正在运行设计合作伙伴计划。您提供文档和用例。我们帮助您在画布上构建管道并收集您的反馈以塑造产品。通过候补名单联系我们以开始。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading