
prodigydoclingstack-auditdata-preparationenterprise-aisegment:enterprise
Prodigy + Docling + 自定义脚本:一次真实的企业技术栈审计
走进一个典型的企业数据准备技术栈实际样貌——Prodigy 用于标注,Docling 用于解析,自定义脚本用于其他一切——并识别摩擦点。
EErtas Team·
真实的企业 AI 数据准备技术栈长什么样?不是架构幻灯片上的图表——而是 ML 团队日常操作的工具、脚本和变通方案的实际现实。
这是一个代表性技术栈的审计:Prodigy 用于标注,Docling 用于文档解析,以及自定义 Python 脚本用 于中间的一切。每个工具在其类别中都受到好评。摩擦在于工具之间的空白。
摩擦点
摩擦点 1:Docling → Prodigy 格式转换。 需要约 1,000 行自定义 Python 代码。转换中的决策是领域特定的,但被编码在 ML 工程师维护的 Python 脚本中。
摩擦点 2:手动质量管道。 去重、质量过滤、PII 检测和规范化又是 1,000-2,000 行无人愿意编写和维护的自定义 Python。
摩擦点 3:审计追踪空白。 Docling 记录解析事件,Prodigy 记录标注事件,但格式转换、PII 检测配置和质量阈值设置等环节没有记录。这些空白是 EU AI Act 下的合规风险。
摩擦点 4:关键人依赖。 大多数企业中一个 ML 工程师理解完整管道。如果这个人离开,下一个工程师需要 4-8 周来理解管道。
摩擦点 5:领域专家排除。 Prodigy 对 ML 工程师来说很优秀,但需要命令行界面。需要标注数据的医生或律师如果没有 ML 工程师的帮助无法使用它。