反对在企业数据准备中使用Python

Python是训练机器学习模型的正确工具。本文不是关于Python用于模型训练。

本文是关于Python用于数据准备——标注、清洗、格式化、验证和策划训练数据集。在这个背景下，Python对企业AI项目是积极有害的。

可及性问题

最直接的论点是算术。在有AI计划的典型企业中：

当数据准备需要Python时，95%有资格做这项工作的人无法参与。

依赖腐化。 一月写的脚本使用pandas 2.1。到六月，pandas发布了2.2，有破坏性变更。

部落知识。 脚本积累了只存在于作者脑中的隐含假设。

Notebook混乱。 Jupyter notebooks有结构性问题：单元格执行顺序不强制、变量状态在单元格间持续。

现代无代码数据准备工具可以处理模式感知标注、数据验证、去重、格式转换、质量指标和版本跟踪。

关键区别不是能力——而是谁可以使用工具。无代码界面使这些能力对组织中95%不能写Python的人可用。

Ertas Data Suite实现了这种架构的领域专家端。原生桌面应用用于数据标注、清洗和策划——不需要Python、notebooks或命令行。