Prodigy + Docling + 自定义脚本：一次真实的企业技术栈审计

真实的企业 AI 数据准备技术栈长什么样？不是架构幻灯片上的图表——而是 ML 团队日常操作的工具、脚本和变通方案的实际现实。

这是一个代表性技术栈的审计：Prodigy 用于标注，Docling 用于文档解析，以及自定义 Python 脚本用于中间的一切。每个工具在其类别中都受到好评。摩擦在于工具之间的空白。

摩擦点

摩擦点 1：Docling → Prodigy 格式转换。 需要约 1,000 行自定义 Python 代码。转换中的决策是领域特定的，但被编码在 ML 工程师维护的 Python 脚本中。

摩擦点 2：手动质量管道。 去重、质量过滤、PII 检测和规范化又是 1,000-2,000 行无人愿意编写和维护的自定义 Python。

摩擦点 3：审计追踪空白。 Docling 记录解析事件，Prodigy 记录标注事件，但格式转换、PII 检测配置和质量阈值设置等环节没有记录。这些空白是 EU AI Act 下的合规风险。

摩擦点 4：关键人依赖。 大多数企业中一个 ML 工程师理解完整管道。如果这个人离开，下一个工程师需要 4-8 周来理解管道。

摩擦点 5：领域专家排除。 Prodigy 对 ML 工程师来说很优秀，但需要命令行界面。需要标注数据的医生或律师如果没有 ML 工程师的帮助无法使用它。

摩擦点不是由糟糕的工具造成的——而是由工具边界造成的。统一平台如 Ertas Data Suite 消除这些边界：文档解析直接输入清洗、清洗直接输入标注、标注包含质量审查、导出生成合规文档、领域专家使用与 ML 工程师相同的界面。

权衡：你失去了 Prodigy 特别优秀的标注速度和 Docling 特别优秀的表格提取。你获得了管道连续性、审计追踪完整性和领域专家可访问性。

技术栈是好的。工具之间的空白才是成本所在。