IA Privacy-First Significa Privacidad en la Capa de Datos — No Solo en la Capa de Inferencia

Cuando las empresas dicen "IA privacy-first", casi siempre se refieren a una cosa: el modelo se ejecuta en nuestra infraestructura. Despliegue on-premise. Inferencia local. Sin datos enviados a APIs externas durante el uso en producción.

Esto es necesario. También es insuficiente.

Porque el modelo fue entrenado con datos que se prepararon usando herramientas en la nube. Los 700GB de documentos de construcción fueron parseados por un servicio de extracción de documentos en la nube. Las notas clínicas fueron etiquetadas usando una plataforma de anotación en la nube. Los registros financieros fueron evaluados por calidad con una herramienta de calidad de datos en la nube. En cada etapa, datos regulados salieron del edificio.

El modelo se ejecuta localmente. La garantía de privacidad es teatro.

La Cadena de Suministro de Preparación de Datos

Este es el pipeline típico de preparación de datos para un proyecto empresarial de IA en 2026:

Documentos crudos -> subidos a un servicio de parsing en la nube (Unstructured.io, Docling en la nube, etc.)
Texto parseado -> enviado a una plataforma de anotación en la nube (Label Studio Cloud, Scale AI, etc.)
Datos etiquetados -> procesados por una herramienta de scoring de calidad en la nube (Cleanlab Cloud, etc.)
Datos evaluados -> descargados de vuelta a la infraestructura empresarial
Dataset limpio -> usado para ajustar un modelo on-premise

Cinco pasos. Tres de ellos involucran enviar datos regulados a servicios externos en la nube. Cada transición es un punto de egreso de datos. Cada servicio en la nube es un procesador de datos bajo GDPR, que requiere un DPA. Cada uno es un vector potencial de brecha.

La empresa anuncia con orgullo: "Nuestro modelo de IA se ejecuta completamente on-premise." Y así es. Pero los datos que lo entrenaron viajaron a través de la infraestructura de tres proveedores de nube diferentes.

Por Qué Esto Importa Legalmente

El Artículo 5(1)(f) del GDPR requiere que los datos personales sean "procesados de una manera que asegure la seguridad apropiada." El pipeline de preparación de datos ES procesamiento. Parsear un PDF que contiene datos personales es procesamiento. Etiquetar texto que incluye nombres de pacientes es procesamiento. Evaluar la calidad de datos en registros que contienen información financiera es procesamiento.

Cada servicio en la nube en la cadena de suministro de preparación de datos es un procesador de datos bajo GDPR. Cada uno requiere:

Un Acuerdo de Procesamiento de Datos (Artículo 28)
Base legal documentada para la actividad de procesamiento específica
Evaluación de Impacto de Protección de Datos para procesamiento de alto riesgo (Artículo 35)
Obligaciones de notificación en caso de brecha (Artículos 33-34)

HIPAA aplica a Información de Salud Protegida sin importar si se está usando para inferencia o para preparación de datos. Enviar notas clínicas a una herramienta de anotación en la nube es una divulgación. El proveedor de la herramienta de anotación necesita un Business Associate Agreement. La empresa es responsable de brechas en el proveedor, sin importar la postura de seguridad del proveedor.

El privilegio abogado-cliente se extiende a la preparación de datos de entrenamiento de IA legal. Si documentos privilegiados se suben a una plataforma de etiquetado en la nube, la presencia de ese tercero en la cadena de privilegio podría constituir una renuncia. El riesgo no es hipotético: los tribunales han encontrado renuncia de privilegio cuando documentos se comparten con terceros innecesarios, incluso inadvertidamente.

El Artículo 10 del EU AI Act requiere gobernanza documentada de datos para datos de entrenamiento usados en sistemas de IA de alto riesgo. Si tu documentación de gobernanza de datos muestra que los datos de entrenamiento fueron procesados a través de tres proveedores de nube antes del entrenamiento del modelo, necesitas documentar los controles de gobernanza en cada proveedor. La mayoría de empresas no pueden hacer esto porque no tienen visibilidad de las prácticas internas de manejo de datos de los proveedores.

Los Tres Niveles de Privacidad

Nivel 1: Privacidad de inferencia. El modelo se ejecuta on-premise o en el dispositivo. Las consultas de usuarios y las respuestas del modelo no salen del perímetro empresarial. Esto es lo que la mayoría de empresas quiere decir con "IA privacy-first."

Nivel 2: Privacidad de entrenamiento. El modelo se entrena on-premise. Los datos de entrenamiento no se envían a servicios externos de fine-tuning. Los pesos del modelo no se exponen a terceros. Esto agrega una capa significativa, pero aún deja la brecha de preparación de datos.

Nivel 3: Privacidad de preparación de datos. El pipeline completo, desde documentos empresariales crudos hasta datasets limpios, etiquetados y listos para entrenamiento, ocurre on-premise. Sin parsing en la nube. Sin anotación en la nube. Sin scoring de calidad en la nube. Los datos crudos nunca salen del edificio en ninguna etapa.

El Nivel 3 es el único nivel que proporciona una garantía genuina de privacidad. Si algún paso del pipeline involucra egreso de datos, la garantía es incompleta.

La Prueba de 700GB

Considera un escenario real de nuestras llamadas de descubrimiento. Una firma de construcción e ingeniería tiene 700GB de PDFs: presupuestos de cantidades, planos técnicos, especificaciones, documentos de contrato. Quieren ajustar un modelo de IA para análisis de documentos y extracción de datos.

Enfoque de Nivel 1 (solo privacidad de inferencia):

Subir 700GB a un servicio de parsing en la nube -> egreso de datos
Enviar documentos parseados a una plataforma de anotación en la nube -> egreso de datos
Procesar anotaciones a través de scoring de calidad en la nube -> egreso de datos
Descargar dataset limpio
Ajustar modelo on-premise
Desplegar modelo on-premise

El modelo se ejecuta localmente. Pero 700GB de documentos propietarios de construcción, que contienen nombres de clientes, costos de proyectos, especificaciones de ingeniería e información de licitación competitiva, han sido transmitidos a tres servicios de nube diferentes. Cada uno tiene su propia política de retención de datos. Cada uno es un vector de brecha. Cada uno requiere documentación de cumplimiento.

Enfoque de Nivel 3 (privacidad completa del pipeline):

Parsear 700GB usando extracción de documentos on-premise -> sin egreso de datos
Etiquetar usando herramienta de anotación on-premise -> sin egreso de datos
Evaluar calidad usando evaluación de calidad on-premise -> sin egreso de datos
Exportar dataset limpio -> se queda en almacenamiento local
Ajustar modelo on-premise
Desplegar modelo on-premise

Sin DPAs requeridos. Sin DPIAs para procesamiento externo. Sin auditorías de seguridad de proveedores. Sin cronograma de aprobación de cumplimiento. Los datos nunca salen del edificio.

Por Qué los Equipos Siguen Usando Preparación de Datos en la Nube

Tres razones.

Fragmentación de herramientas. Ninguna herramienta on-premise individual cubre el pipeline completo de preparación de datos. Las empresas necesitan Docling para parsing, Label Studio para anotación, Cleanlab para scoring de calidad, y ninguna de estas se integra nativamente. Auto-alojar las tres requiere Docker, Kubernetes, configuración de red y mantenimiento continuo. Las versiones en la nube son más fáciles de configurar.

Acceso de expertos de dominio. Las herramientas on-premise típicamente requieren entornos Python o acceso CLI. Las personas que deberían estar etiquetando datos, doctores, abogados, ingenieros, no pueden usarlas. Las herramientas en la nube a menudo tienen mejores interfaces porque invierten en experiencia de usuario para usuarios no técnicos.

Evaluación de riesgo percibida. Muchas empresas evalúan el riesgo de la preparación de datos en la nube como "bajo" porque "solo estamos etiquetando, no entrenando." Esto subestima la exposición regulatoria. Bajo GDPR, procesamiento es procesamiento, ya sea entrenamiento de modelos o anotación de documentos.

La Solución Es Preparación de Datos Unificada On-Premise

El camino hacia la privacidad de Nivel 3 requiere una sola herramienta que cubra el pipeline completo de preparación de datos, parsing, limpieza, etiquetado, aumentación y exportación, ejecutándose completamente on-premise sin dependencias de la nube.

Debe ser accesible para expertos de dominio, no solo para ingenieros de ML. Si la herramienta requiere un entorno Python, las personas con conocimiento de dominio (y la autoridad para etiquetar datos correctamente) quedan excluidas.

Debe generar rastros de auditoría automáticamente. Cada transformación, cada decisión de etiquetado, cada puntuación de calidad debe ser registrada con ID de operador y marca de tiempo para cumplimiento regulatorio.

Y debe funcionar air-gapped. Sin telemetría. Sin callbacks a servidor de licencias. Sin verificaciones de actualización que transmitan metadatos sobre los datos que se están procesando.

Ertas Data Suite está construido exactamente para esto. Aplicación de escritorio nativa. Cinco módulos integrados que cubren el pipeline completo. Accesible para expertos de dominio, sin Python, sin terminal. Inferencia LLM local para funciones asistidas por IA. Rastro de auditoría completo. Operación air-gapped.

La IA privacy-first comienza en la capa de datos. No en la capa de inferencia.

Agenda una Llamada de Descubrimiento para evaluar la postura de privacidad de tu preparación de datos y discutir alternativas on-premise de punta a punta.

IA Privacy-First Significa Privacidad en la Capa de Datos — No Solo en la Capa de Inferencia

La Cadena de Suministro de Preparación de Datos

Por Qué Esto Importa Legalmente

Los Tres Niveles de Privacidad

La Prueba de 700GB

Por Qué los Equipos Siguen Usando Preparación de Datos en la Nube

La Solución Es Preparación de Datos Unificada On-Premise

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

On-Device vs On-Premise AI: Different Privacy Problems, Different Data Prep

The Real Cost of Cloud Data Prep in Regulated Industries (2026)

GDPR-Compliant RAG Pipeline: Right to Erasure, Data Minimisation, and Vector Store Implications