Machine Learning Air-Gapped: Cómo Construir Pipelines de Datos de IA Sin Acceso a Internet

"Air-gapped" es un término que se usa de forma imprecisa en las discusiones sobre IA empresarial. Frecuentemente significa "no queremos que los datos salgan de nuestra red" o "preferiríamos on-premise." Estos son requisitos legítimos, pero no son lo mismo que una operación genuinamente air-gapped. En entornos verdaderamente air-gapped — sistemas gubernamentales clasificados, redes de infraestructura crítica, sistemas financieros de alta seguridad — no hay conexión a internet en absoluto. No restringida. No monitoreada. Ausente.

Construir pipelines de preparación de datos de IA para estos entornos requiere una arquitectura diferente a los despliegues on-premise típicos. Cada componente debe funcionar sin llamar a casa, verificar actualizaciones de licencia, descargar pesos de modelos o acceder a APIs externas. La mayoría del software moderno falla en esta prueba de formas que no son obvias al momento de la instalación.

Esta guía cubre los tres modelos de despliegue (air-gapped, on-premise, auto-hospedado), quién realmente necesita operación genuinamente air-gapped, cómo luce un pipeline completo de datos de ML sin conectividad, y qué herramientas fallan en entornos air-gapped.

Tres Modelos: Air-Gapped, On-Premise, Auto-Hospedado

Estos términos se usan intercambiablemente en marketing de proveedores. No son lo mismo.

Modelo	Infraestructura	Internet en runtime	Datos permanecen en la org	Uso regulatorio
SaaS / Nube	Nube del proveedor	Sí	No	Raramente conforme
Auto-hospedado	Tus servidores, cualquier ubicación	Opcional	Sí (con controles)	Condicionalmente conforme
On-premise	Hardware que posees, en tu edificio	Opcional	Sí	Frecuentemente conforme
Air-gapped	Hardware que posees, red físicamente aislada	No	Sí	Completamente aislado

Auto-hospedado significa que ejecutas el software en tus propios servidores — pero esos servidores pueden estar en un centro de datos en la nube, y el software puede aún hacer conexiones externas (para validación de licencia, telemetría, descarga de modelos o actualizaciones de dependencias). Auto-hospedado no es air-gapped.

On-premise típicamente significa software ejecutándose en hardware en tu instalación. Puede aún hacer conexiones salientes para actualizaciones o telemetría. "On-premise" en documentación de proveedores frecuentemente solo significa "tú lo instalas."

Air-gapped significa que la máquina host no tiene conexión de red a internet y, en implementaciones estrictas, no tiene conexión a ninguna red externa. El software en un entorno air-gapped no puede alcanzar servicios externos bajo ninguna circunstancia — no por accidente y no por diseño.

Las implicaciones de cumplimiento difieren:

Auto-hospedado en infraestructura de un proveedor de nube: aún sujeto a las obligaciones legales de ese proveedor y posibles solicitudes de acceso gubernamental
On-premise con acceso a internet: aún puede exfiltrar datos (intencionalmente o vía un componente comprometido); no satisface requisitos de "sin egreso de datos" para entornos de máxima seguridad
Air-gapped: físicamente aislado; único vector de ataque es medios removibles o acceso físico; satisface los requisitos más exigentes de soberanía de datos

Quién Realmente Necesita Operación Air-Gapped

Los requisitos genuinos de air-gapped aparecen en contextos específicos:

Defensa e inteligencia: Contratistas gubernamentales y agencias que trabajan con información clasificada operan bajo requisitos estrictos de segmentación de red. Las herramientas de desarrollo de IA deben estar certificadas para operar en redes clasificadas.

Infraestructura crítica: Operadores de redes eléctricas, plantas de tratamiento de agua e instalaciones similares están desplegando cada vez más IA para mantenimiento predictivo y detección de anomalías. Sus redes de tecnología operacional (OT) frecuentemente están aisladas de las redes de TI corporativas y no tienen conectividad a internet.

Instituciones financieras y firmas de trading: Los sistemas de trading de alta frecuencia y ciertos modelos de riesgo operan en redes aisladas para prevenir fuga de información y asegurar control de latencia. Algunos reguladores financieros requieren que los datos usados en ciertos modelos permanezcan en entornos de red específicos.

Procedimientos legales y regulatorios: Bufetes de abogados y equipos de soporte de litigación que trabajan con documentos privilegiados o sellados por el tribunal pueden ser requeridos a procesar esos documentos en entornos sin conectividad externa.

Salud con gobernanza de datos estricta: Aunque HIPAA no requiere específicamente operación air-gapped, algunas organizaciones de salud que operan bajo requisitos de manejo de datos a nivel estatal o contractual han elegido entornos air-gapped como la única forma de garantizar el aislamiento de datos.

Operaciones de ciberseguridad: Los centros de operaciones de seguridad que trabajan con inteligencia de amenazas y datos de incidentes pueden operar en redes aisladas para prevenir acceso adversario a las herramientas de análisis.

Una firma de ciberseguridad nos dijo directamente: "La mayoría de las herramientas de IA procesan inferencia sobre la nube, haciendo los datos esencialmente públicos." Para organizaciones donde los datos de entrenamiento son inteligencia de amenazas sensible o información clasificada, ese es un riesgo inaceptable — y la operación air-gapped es la única alternativa.

El Pipeline Completo: Qué Requiere Cada Etapa Sin Conectividad

Etapa 1: Ingestión de Documentos

El parsing de documentos en un entorno air-gapped significa que toda la lógica de parsing — incluyendo OCR — debe estar empaquetada con la aplicación y operar sin llamadas externas.

Qué falla: APIs de OCR en la nube (Google Document AI, Azure Document Intelligence, AWS Textract). Cualquier biblioteca que proxy OCR a un servicio externo. Parsers de documentos que verifican actualizaciones de modelos en runtime.

Qué funciona: Motores OCR embebidos (Tesseract, EasyOCR, PaddleOCR) empaquetados con la aplicación. Modelos de análisis de layout (para PDFs multi-columna, tablas, encabezados) cargados desde archivos de modelo locales. Preprocesamiento de imagen para mejora de calidad de escaneo ejecutándose localmente.

El desafío práctico: el OCR embebido es más lento y a veces menos preciso que el OCR de API en la nube. Para una empresa regulada donde los datos no pueden salir de la red, esta es la compensación aceptable. La precisión puede mejorarse pre-procesando la calidad del escaneo y usando configuraciones de OCR específicas de dominio.

Etapa 2: Limpieza y Des-identificación

La detección y redacción de PII/PHI requiere modelos NLP que puedan ejecutarse localmente. El reconocimiento de entidades nombradas para identificar nombres, fechas, organizaciones, números de registros médicos y otras entidades sensibles debe usar pesos de modelos cargados localmente.

Qué falla: APIs NLP en la nube (AWS Comprehend Medical, Google Healthcare Natural Language API, Azure Text Analytics for Health). Cualquier herramienta de detección de PII que envíe documentos a un endpoint externo.

Qué funciona: spaCy con modelos NER cargados localmente, Hugging Face Transformers con modelos cuantizados GGUF cargados desde almacenamiento local, coincidencia de patrones basada en reglas para identificadores estructurados (números de teléfono, SSNs, números de registros médicos).

Para entornos air-gapped, los pesos de modelos deben transferirse vía medios removibles aprobados durante la fase de configuración inicial. Después de eso, el sistema opera completamente desde almacenamiento local.

Etapa 3: Anotación

La anotación — el etiquetado humano de documentos para NER, clasificación, bounding boxes o pares de Q&A — no requiere inherentemente conectividad a internet. El desafío es que la mayoría de plataformas de anotación son herramientas SaaS basadas en web que requieren una conexión activa.

Qué falla: Label Studio Cloud, Scale AI, Amazon SageMaker Ground Truth, Labelbox, cualquier herramienta de anotación basada en navegador respaldada por servidores externos.

Qué funciona: Herramientas de anotación auto-instalables sin dependencias externas; flujos de trabajo de anotación integrados en aplicaciones de escritorio locales; herramientas basadas en navegador que pueden servir completamente desde localhost sin carga de assets externos.

La etapa de anotación es donde muchos pipelines air-gapped se derrumban — los equipos asumen que pueden "simplemente usar Label Studio auto-hospedado" sin verificar si la versión auto-hospedada hace llamadas externas para análisis, assets CDN o validación de licencia.

Etapa 4: Augmentación de Datos Sintéticos

Generar datos de entrenamiento sintéticos usando un LLM es una de las operaciones más dependientes de internet en un pipeline de IA moderno. Las APIs de LLM en la nube (OpenAI, Anthropic, Google, Cohere) simplemente no están disponibles en un entorno air-gapped.

Qué falla: Cualquier flujo de trabajo de augmentación que llame a una API de LLM externa. Distilabel y bibliotecas similares cuando se configuran con endpoints en la nube. Hugging Face Inference API.

Qué funciona: LLMs hospedados localmente usando Ollama o llama.cpp. Modelos cuantizados GGUF (Llama 3, Mistral, Qwen y otros) cargados desde almacenamiento local. Inferencia ejecutándose en recursos GPU locales.

Los requisitos prácticos:

Una máquina con suficiente VRAM de GPU (16GB mínimo para modelos 7B útiles; 48GB para modelos de 30B+)
Pesos de modelos pre-descargados y transferidos vía medios removibles a la máquina air-gapped
Ollama o llama.cpp instalados sin acceso a internet del gestor de paquetes (se requieren paquetes de instalación offline)

Para la mayoría de casos de uso de augmentación de documentos, un modelo cuantizado de 7B o 13B ejecutándose en una GPU de estación de trabajo es suficiente. La calidad es menor que los modelos frontier de la nube pero adecuada para generar variantes de entrenamiento de documentos estructurados.

Etapa 5: Exportación

La exportación — producir JSONL, YOLO/COCO, CSV o texto chunkeado del dataset anotado — es la etapa menos dependiente de conectividad. También es donde la pista de auditoría debe finalizarse y exportarse junto con los datos de entrenamiento.

Qué falla: Pipelines de exportación que sincronizan a almacenamiento en la nube (S3, Azure Blob) como parte del paso de exportación. Herramientas de versionado que usan registros de artefactos basados en la nube.

Qué funciona: Exportación de archivos locales a almacenamiento conectado o un recurso compartido de red interna air-gapped. Versionado local de artefactos usando git o herramientas similares sin push remoto.

Requisitos para una Configuración de ML Verdaderamente Air-Gapped

Configurar un entorno de preparación de datos de IA air-gapped requiere planificación antes de que la máquina sea aislada. Después del aislamiento, no puedes descargar dependencias.

Checklist de pre-instalación:

Todos los instaladores de aplicaciones transferidos vía medios removibles aprobados
Todas las dependencias de runtime (paquetes Python, bibliotecas del sistema) empaquetadas o pre-instaladas
Todos los pesos de modelos de ML descargados y transferidos (modelos NER, modelos OCR, LLMs)
Interfaz de anotación sirviendo todos los assets desde localhost (sin referencias a CDN externo)
Validación de licencia configurada para operación offline o licencia perpetua
Documentación interna y procedimientos de actualización establecidos

Requisitos de hardware:

Estación de trabajo o servidor GPU para augmentación con LLM (16-48GB VRAM dependiendo del tamaño del modelo)
Almacenamiento local suficiente para documentos fuente, datos procesados y pesos de modelos
Recurso compartido de red interna para acceso multi-usuario (no conectado a internet)

Procedimientos operacionales:

Actualizaciones de software vía proceso de revisión de medios removibles
Actualizaciones de modelos revisadas y aprobadas antes de transferir a red aislada
Respaldo de log de auditoría a almacenamiento de archivo interno

Herramientas que Fallan en Entornos Air-Gapped

Herramienta	Por Qué Falla
Unstructured.io cloud API	Parsing de documentos solo en la nube
Adobe Acrobat AI features	Procesamiento LLM en la nube
Label Studio Cloud	Plataforma SaaS
Scale AI / Labelbox	Plataformas de anotación en la nube
Cleanlab / Dataiku cloud	Procesamiento en la nube para puntuación de calidad
Distilabel con LLMs en la nube	Requiere API de LLM externa
Hugging Face Inference API	Endpoint de inferencia en la nube
GitHub Copilot / cualquier IA de codificación	Requiere conexión a internet

Cómo Ertas Data Suite Funciona en Entornos Air-Gapped

Ertas Data Suite fue diseñado para operación air-gapped desde el inicio. Se instala como una aplicación de escritorio nativa — sin Docker, sin acceso a internet del gestor de paquetes requerido durante la instalación. Todos los modelos de OCR, NER y procesamiento están empaquetados. La interfaz de anotación se ejecuta localmente. El módulo Augment usa Ollama con modelos hospedados localmente y no hace llamadas externas.

El pipeline completo — Ingest, Clean, Label, Augment, Export — se ejecuta sin conexión a internet en ninguna etapa. La pista de auditoría se escribe en almacenamiento local y se exporta con el dataset. La activación de software soporta licenciamiento offline para entornos donde los servidores de licencia no son accesibles.

Para organizaciones con requisitos genuinos de air-gapped, esta arquitectura no es una característica — es el requisito mínimo viable. Cualquier herramienta que haga una llamada externa no documentada en un entorno air-gapped no es solo inconveniente; es un incidente de seguridad.

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →