Back to blog
    Prodigy + Docling + 自定义脚本:一次真实的企业技术栈审计
    prodigydoclingstack-auditdata-preparationenterprise-aisegment:enterprise

    Prodigy + Docling + 自定义脚本:一次真实的企业技术栈审计

    走进一个典型的企业数据准备技术栈实际样貌——Prodigy 用于标注,Docling 用于解析,自定义脚本用于其他一切——并识别摩擦点。

    EErtas Team·

    真实的企业 AI 数据准备技术栈长什么样?不是架构幻灯片上的图表——而是 ML 团队日常操作的工具、脚本和变通方案的实际现实。

    这是一个代表性技术栈的审计:Prodigy 用于标注,Docling 用于文档解析,以及自定义 Python 脚本用于中间的一切。每个工具在其类别中都受到好评。摩擦在于工具之间的空白。

    摩擦点

    摩擦点 1:Docling → Prodigy 格式转换。 需要约 1,000 行自定义 Python 代码。转换中的决策是领域特定的,但被编码在 ML 工程师维护的 Python 脚本中。

    摩擦点 2:手动质量管道。 去重、质量过滤、PII 检测和规范化又是 1,000-2,000 行无人愿意编写和维护的自定义 Python。

    摩擦点 3:审计追踪空白。 Docling 记录解析事件,Prodigy 记录标注事件,但格式转换、PII 检测配置和质量阈值设置等环节没有记录。这些空白是 EU AI Act 下的合规风险。

    摩擦点 4:关键人依赖。 大多数企业中一个 ML 工程师理解完整管道。如果这个人离开,下一个工程师需要 4-8 周来理解管道。

    摩擦点 5:领域专家排除。 Prodigy 对 ML 工程师来说很优秀,但需要命令行界面。需要标注数据的医生或律师如果没有 ML 工程师的帮助无法使用它。

    统一平台改变什么

    摩擦点不是由糟糕的工具造成的——而是由工具边界造成的。统一平台如 Ertas Data Suite 消除这些边界:文档解析直接输入清洗、清洗直接输入标注、标注包含质量审查、导出生成合规文档、领域专家使用与 ML 工程师相同的界面。

    权衡:你失去了 Prodigy 特别优秀的标注速度和 Docling 特别优秀的表格提取。你获得了管道连续性、审计追踪完整性和领域专家可访问性。

    技术栈是好的。工具之间的空白才是成本所在。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading