
IA Privacy-First Significa Privacidad en la Capa de Datos — No Solo en la Capa de Inferencia
La mayoría de discusiones sobre 'IA privacy-first' se enfocan en dónde se ejecuta el modelo. El mayor riesgo de privacidad es dónde se preparan los datos de entrenamiento. Si tu preparación de datos ocurre en la nube, tu garantía de privacidad es teatro.
Cuando las empresas dicen "IA privacy-first", casi siempre se refieren a una cosa: el modelo se ejecuta en nuestra infraestructura. Despliegue on-premise. Inferencia local. Sin datos enviados a APIs externas durante el uso en producción.
Esto es necesario. También es insuficiente.
Porque el modelo fue entrenado con datos que se prepararon usando herramientas en la nube. Los 700GB de documentos de construcción fueron parseados por un servicio de extracción de documentos en la nube. Las notas clínicas fueron etiquetadas usando una plataforma de anotación en la nube. Los registros financieros fueron evaluados por calidad con una herramienta de calidad de datos en la nube. En cada etapa, datos regulados salieron del edificio.
El modelo se ejecuta localmente. La garantía de privacidad es teatro.
La Cadena de Suministro de Preparación de Datos
Este es el pipeline típico de preparación de datos para un proyecto empresarial de IA en 2026:
- Documentos crudos -> subidos a un servicio de parsing en la nube (Unstructured.io, Docling en la nube, etc.)
- Texto parseado -> enviado a una plataforma de anotación en la nube (Label Studio Cloud, Scale AI, etc.)
- Datos etiquetados -> procesados por una herramienta de scoring de calidad en la nube (Cleanlab Cloud, etc.)
- Datos evaluados -> descargados de vuelta a la infraestructura empresarial
- Dataset limpio -> usado para ajustar un modelo on-premise
Cinco pasos. Tres de ellos involucran enviar datos regulados a servicios externos en la nube. Cada transición es un punto de egreso de datos. Cada servicio en la nube es un procesador de datos bajo GDPR, que requiere un DPA. Cada uno es un vector potencial de brecha.
La empresa anuncia con orgullo: "Nuestro modelo de IA se ejecuta completamente on-premise." Y así es. Pero los datos que lo entrenaron viajaron a través de la infraestructura de tres proveedores de nube diferentes.
Por Qué Esto Importa Legalmente
El Artículo 5(1)(f) del GDPR requiere que los datos personales sean "procesados de una manera que asegure la seguridad apropiada." El pipeline de preparación de datos ES procesamiento. Parsear un PDF que contiene datos personales es procesamiento. Etiquetar texto que incluye nombres de pacientes es procesamiento. Evaluar la calidad de datos en registros que contienen información financiera es procesamiento.
Cada servicio en la nube en la cadena de suministro de preparación de datos es un procesador de datos bajo GDPR. Cada uno requiere:
- Un Acuerdo de Procesamiento de Datos (Artículo 28)
- Base legal documentada para la actividad de procesamiento específica
- Evaluación de Impacto de Protección de Datos para procesamiento de alto riesgo (Artículo 35)
- Obligaciones de notificación en caso de brecha (Artículos 33-34)
HIPAA aplica a Información de Salud Protegida sin importar si se está usando para inferencia o para preparación de datos. Enviar notas clínicas a una herramienta de anotación en la nube es una divulgación. El proveedor de la herramienta de anotación necesita un Business Associate Agreement. La empresa es responsable de brechas en el proveedor, sin importar la postura de seguridad del proveedor.
El privilegio abogado-cliente se extiende a la preparación de datos de entrenamiento de IA legal. Si documentos privilegiados se suben a una plataforma de etiquetado en la nube, la presencia de ese tercero en la cadena de privilegio podría constituir una renuncia. El riesgo no es hipotético: los tribunales han encontrado renuncia de privilegio cuando documentos se comparten con terceros innecesarios, incluso inadvertidamente.
El Artículo 10 del EU AI Act requiere gobernanza documentada de datos para datos de entrenamiento usados en sistemas de IA de alto riesgo. Si tu documentación de gobernanza de datos muestra que los datos de entrenamiento fueron procesados a través de tres proveedores de nube antes del entrenamiento del modelo, necesitas documentar los controles de gobernanza en cada proveedor. La mayoría de empresas no pueden hacer esto porque no tienen visibilidad de las prácticas internas de manejo de datos de los proveedores.
Los Tres Niveles de Privacidad
Nivel 1: Privacidad de inferencia. El modelo se ejecuta on-premise o en el dispositivo. Las consultas de usuarios y las respuestas del modelo no salen del perímetro empresarial. Esto es lo que la mayoría de empresas quiere decir con "IA privacy-first."
Nivel 2: Privacidad de entrenamiento. El modelo se entrena on-premise. Los datos de entrenamiento no se envían a servicios externos de fine-tuning. Los pesos del modelo no se exponen a terceros. Esto agrega una capa significativa, pero aún deja la brecha de preparación de datos.
Nivel 3: Privacidad de preparación de datos. El pipeline completo, desde documentos empresariales crudos hasta datasets limpios, etiquetados y listos para entrenamiento, ocurre on-premise. Sin parsing en la nube. Sin anotación en la nube. Sin scoring de calidad en la nube. Los datos crudos nunca salen del edificio en ninguna etapa.
El Nivel 3 es el único nivel que proporciona una garantía genuina de privacidad. Si algún paso del pipeline involucra egreso de datos, la garantía es incompleta.
La Prueba de 700GB
Considera un escenario real de nuestras llamadas de descubrimiento. Una firma de construcción e ingeniería tiene 700GB de PDFs: presupuestos de cantidades, planos técnicos, especificaciones, documentos de contrato. Quieren ajustar un modelo de IA para análisis de documentos y extracción de datos.
Enfoque de Nivel 1 (solo privacidad de inferencia):
- Subir 700GB a un servicio de parsing en la nube -> egreso de datos
- Enviar documentos parseados a una plataforma de anotación en la nube -> egreso de datos
- Procesar anotaciones a través de scoring de calidad en la nube -> egreso de datos
- Descargar dataset limpio
- Ajustar modelo on-premise
- Desplegar modelo on-premise
El modelo se ejecuta localmente. Pero 700GB de documentos propietarios de construcción, que contienen nombres de clientes, costos de proyectos, especificaciones de ingeniería e información de licitación competitiva, han sido transmitidos a tres servicios de nube diferentes. Cada uno tiene su propia política de retención de datos. Cada uno es un vector de brecha. Cada uno requiere documentación de cumplimiento.
Enfoque de Nivel 3 (privacidad completa del pipeline):
- Parsear 700GB usando extracción de documentos on-premise -> sin egreso de datos
- Etiquetar usando herramienta de anotación on-premise -> sin egreso de datos
- Evaluar calidad usando evaluación de calidad on-premise -> sin egreso de datos
- Exportar dataset limpio -> se queda en almacenamiento local
- Ajustar modelo on-premise
- Desplegar modelo on-premise
Sin DPAs requeridos. Sin DPIAs para procesamiento externo. Sin auditorías de seguridad de proveedores. Sin cronograma de aprobación de cumplimiento. Los datos nunca salen del edificio.
Por Qué los Equipos Siguen Usando Preparación de Datos en la Nube
Tres razones.
Fragmentación de herramientas. Ninguna herramienta on-premise individual cubre el pipeline completo de preparación de datos. Las empresas necesitan Docling para parsing, Label Studio para anotación, Cleanlab para scoring de calidad, y ninguna de estas se integra nativamente. Auto-alojar las tres requiere Docker, Kubernetes, configuración de red y mantenimiento continuo. Las versiones en la nube son más fáciles de configurar.
Acceso de expertos de dominio. Las herramientas on-premise típicamente requieren entornos Python o acceso CLI. Las personas que deberían estar etiquetando datos, doctores, abogados, ingenieros, no pueden usarlas. Las herramientas en la nube a menudo tienen mejores interfaces porque invierten en experiencia de usuario para usuarios no técnicos.
Evaluación de riesgo percibida. Muchas empresas evalúan el riesgo de la preparación de datos en la nube como "bajo" porque "solo estamos etiquetando, no entrenando." Esto subestima la exposición regulatoria. Bajo GDPR, procesamiento es procesamiento, ya sea entrenamiento de modelos o anotación de documentos.
La Solución Es Preparación de Datos Unificada On-Premise
El camino hacia la privacidad de Nivel 3 requiere una sola herramienta que cubra el pipeline completo de preparación de datos, parsing, limpieza, etiquetado, aumentación y exportación, ejecutándose completamente on-premise sin dependencias de la nube.
Debe ser accesible para expertos de dominio, no solo para ingenieros de ML. Si la herramienta requiere un entorno Python, las personas con conocimiento de dominio (y la autoridad para etiquetar datos correctamente) quedan excluidas.
Debe generar rastros de auditoría automáticamente. Cada transformación, cada decisión de etiquetado, cada puntuación de calidad debe ser registrada con ID de operador y marca de tiempo para cumplimiento regulatorio.
Y debe funcionar air-gapped. Sin telemetría. Sin callbacks a servidor de licencias. Sin verificaciones de actualización que transmitan metadatos sobre los datos que se están procesando.
Ertas Data Suite está construido exactamente para esto. Aplicación de escritorio nativa. Cinco módulos integrados que cubren el pipeline completo. Accesible para expertos de dominio, sin Python, sin terminal. Inferencia LLM local para funciones asistidas por IA. Rastro de auditoría completo. Operación air-gapped.
La IA privacy-first comienza en la capa de datos. No en la capa de inferencia.
Agenda una Llamada de Descubrimiento para evaluar la postura de privacidad de tu preparación de datos y discutir alternativas on-premise de punta a punta.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

On-Device vs On-Premise AI: Different Privacy Problems, Different Data Prep
On-device AI and on-premise AI solve fundamentally different privacy problems — and require fundamentally different data preparation strategies. Here's how to tell which you need and what your data pipeline should look like for each.

The Real Cost of Cloud Data Prep in Regulated Industries (2026)
Cloud data prep tools require compliance approvals that cost $50K–$150K and take 6–18 months. On-premise alternatives eliminate these costs entirely. Here's the TCO comparison regulated industries need.

GDPR-Compliant RAG Pipeline: Right to Erasure, Data Minimisation, and Vector Store Implications
GDPR Article 17 gives individuals the right to have their data deleted — but once personal data is embedded in a vector store, deletion is not straightforward. Here is how to build a RAG pipeline that handles GDPR from the start.