
反对在企业数据准备中使用Python
Python非常适合ML研究和模型训练。但对企业数据准备来说很糟糕。它将领域专家拒之门外,产生不可维护的脚本,并造成可复现性噩梦。
Python是训练机器学习模型的正确工具。本文不是关于Python用于模型训练。
本文是关于Python用于数据准备——标注、清洗、格式化、验证和策划训练数据集。在这个背景下,Python对企业AI项目是积极有害的。
可及性问题
最直接的论点是算术。在有AI计划的典型企业中:
- 2-5人能写Python
- 20-100人有正确准备数据的领域专业知识
当数据准备需要Python时,95%有资格做这项工作的人无法参与。
维护噩梦
依赖腐化。 一月写的脚本使用pandas 2.1。到六月,pandas发布了2.2,有破坏性变更。
部落知识。 脚本积累了只存在于作者脑中的隐含假设。
Notebook混乱。 Jupyter notebooks有结构性问题:单元格执行顺序不强制、变量状态在单元格间持续。
无代码替代不是降级
现代无代码数据准备工具可以处理模式感知标注、数据验证、去重、格式转换、质量指标和版本跟踪。
关键区别不是能力——而是谁可以使用工具。无代码界面使这些能力对组织中95%不能写Python的人可用。
Ertas Data Suite实现了这种架构的领域专家端。原生桌面应用用于数据标注、清洗和策划——不需要Python、notebooks或命令行。
Python很适合构建模型。让它做那个。数据准备需要为理解数据的人设计的工具。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.