Docling + Label Studio + Cleanlab：隐藏的集成税

Docling 用于文档解析。Label Studio 用于标注。Cleanlab 用于质量评分。每个都擅长其工作。问题不在于任何单独的工具——而在于它们之间的集成。格式转换、共享状态管理、审计跟踪缺口和自定义 Python 脚本代表了随每个项目增长的隐藏税。

理论上：用 Docling 解析 → 用 Label Studio 标注 → 用 Cleanlab 质量检查 → 导出。

实践中，每个箭头（→）代表数天的工程工作。

集成点

需要构建：格式转换器、元数据保留、批量导入逻辑。出错的地方：Docling 更新改变输出模式、丰富格式被展平、源文件引用丢失。

需要构建：导出管道、格式转换、部分标注处理。出错的地方：导出格式因模板而异、多标注员需要先解决、Cleanlab 分数需要映射回 Label Studio 任务。

往返涉及 4+ 次数据转换，每次都是潜在的失败点。

每个工具维护自己的日志。但没有工具记录工具之间发生的事情。这些跨工具事件是审计跟踪断裂的地方。在欧盟 AI 法案、HIPAA 或 GDPR 下，这些缺口可能构成合规违规。

预计每年 2-3 次跨三个工具的破坏性变更。总持续维护：每年 4-8 周的工程时间。

Ertas Data Suite 采用统一方法：摄取、清洗、标注、增强和导出都在同一应用中运行。零集成代码、连续血缘、领域专家无需 Docker 或 Python 即可访问。

单个工具在栈中是出色的。税在它们之间的"+"号中。