
Preparación de Datos Air-Gapped para Contratistas de IA de Gobierno y Defensa
Guía técnica para ejecutar pipelines de preparación de datos de IA en entornos genuinamente air-gapped de gobierno y defensa sin conectividad a internet.
Los contratos de IA para gobierno y defensa operan bajo restricciones que la mayoría de equipos de IA comerciales nunca encuentran. La más significativa: operación genuinamente air-gapped. No "nube privada." No "aislado por VPN." Sin internet. Sin conectividad de red externa en absoluto. La estación de trabajo donde preparas datos de entrenamiento puede estar en un SCIF, en una red clasificada, o en una instalación donde el cable Ethernet al exterior no existe.
Esto cambia todo en tu pipeline de preparación de datos. La mayoría de las herramientas de IA modernas asumen conectividad a internet en algún punto — para validación de licencia, descarga de pesos de modelos, llamadas API de OCR, auto-actualizaciones o telemetría. En un entorno air-gapped, cualquier herramienta que llame a casa es una herramienta que no funciona.
Esta guía cubre los requisitos técnicos para ejecutar preparación de datos de IA en entornos air-gapped de gobierno y defensa, qué se rompe, y cómo diseñar un pipeline que funcione con cero dependencia de internet.
Qué Significa "Air-Gapped" en Gobierno y Defensa
Un sistema air-gapped no tiene conexión a ninguna red externa. Esto no es una opción de configuración — es una arquitectura de red física impuesta por la instalación.
Niveles de Clasificación e Implicaciones de Red
| Red | Clasificación | Acceso a Internet | Descripción |
|---|---|---|---|
| NIPRNet | No clasificada (CUI) | Sí, filtrado | Red no clasificada del Departamento de Defensa |
| SIPRNet | Secreto | No | Red clasificada de nivel Secreto |
| JWICS | Alto Secreto/SCI | No | Sistema Conjunto Mundial de Comunicaciones de Inteligencia |
| Stand-alone | Varía | No | Estaciones de trabajo físicamente aisladas |
Para Secreto y superior, el entorno de trabajo es air-gapped por definición. Pero incluso a nivel CUI (Información No Clasificada Controlada), muchas instalaciones gubernamentales operan entornos air-gapped como postura de seguridad elegida, particularmente para preparación de datos que involucra datasets sensibles.
Implicaciones de Habilitación de Seguridad
El personal que trabaja en entornos clasificados debe tener las habilitaciones apropiadas. Esto afecta tu modelo de dotación de personal: no puedes asignar a cualquier ingeniero de datos disponible a un proyecto clasificado. Anotadores, ingenieros y personal de QA todos deben estar habilitados al nivel apropiado.
Para proveedores de servicios, esto significa que tu equipo para trabajo de IA gubernamental es un subconjunto de tu personal total, y no puedes escalarlo fácilmente.
Qué Se Rompe en Entornos Air-Gapped
Validación de Licencia
Muchas herramientas comerciales y open source validan licencias contactando un servidor externo al inicio o periódicamente durante el uso. En un entorno air-gapped, esta validación falla, y la herramienta se niega a iniciar u opera en modo degradado.
Herramientas afectadas: Plataformas de etiquetado comerciales, algunas extensiones de IDE, suscripciones vinculadas a la nube, herramientas SaaS con instaladores locales.
Solución: Negociar claves de licencia offline con los proveedores antes del despliegue. Algunos proveedores ofrecen licencias vinculadas a hardware o dongles USB. Otros simplemente no soportan uso offline.
Auto-Actualizaciones
Las herramientas que verifican actualizaciones al inicio fallarán silenciosamente (consumiendo delays de timeout) o fallarán ruidosamente (bloqueando el inicio). De cualquier forma, en un entorno air-gapped, la versión que despliegas es la versión que ejecutas hasta que actualices manualmente.
Implicación: La gestión de versiones se convierte en tu responsabilidad. Fija cada dependencia, documenta cada versión y prueba el stack completo antes de desplegarlo al entorno air-gapped.
APIs de OCR y Parsing en la Nube
Muchas herramientas de parsing de documentos — incluyendo algunas configuraciones de Unstructured.io y la mayoría de plataformas de OCR comerciales — envían documentos a APIs en la nube para procesamiento. En un entorno air-gapped, estas llamadas fallan.
Herramientas afectadas: Unstructured.io (modo nube), Azure Document Intelligence, Google Document AI, Amazon Textract.
Alternativa: Usar herramientas de parsing que se ejecuten completamente de forma local. Docling, Unstructured.io en modo local (con pesos de modelos locales pre-cargados), Tesseract OCR (local), o surya-ocr para detección de layout.
Descarga de Pesos de Modelos
Los modelos NER, modelos de embedding y modelos de lenguaje usados para augmentación de datos o detección de PII típicamente descargan pesos de Hugging Face, PyPI o repositorios personalizados en el primer uso. En un entorno air-gapped, esta descarga falla.
Solución: Pre-descargar todos los pesos de modelos en un sistema conectado, verificar su integridad (checksums), transferirlos al entorno air-gapped vía medios aprobados, y configurar las herramientas para cargar desde rutas locales.
Gestores de Paquetes y Resolución de Dependencias
pip install, npm install, cargo build — todos estos recurren a registros externos. En un entorno air-gapped, fallan.
Solución: Construir y probar tu entorno completo en un sistema conectado, luego transferirlo como un paquete pre-construido (imagen Docker, archivo de entorno virtual, o bundle de instalador). En el sistema air-gapped, instalar desde el paquete local.
Checklist Pre-Despliegue
Antes de desplegar cualquier pipeline de preparación de datos a un entorno air-gapped, verifica lo siguiente:
Bundle de Software
- Todos los binarios de aplicación incluidos y probados
- Todos los pesos de modelos pre-cargados (NER, OCR, embedding, LLM si se usa)
- Todas las dependencias Python/Node/Rust empaquetadas (sin resolución de red requerida)
- Claves de licencia configuradas para operación offline
- Mecanismos de auto-actualización deshabilitados
- Telemetría y análisis deshabilitados
- Todos los archivos de configuración pre-establecidos para operación solo local
Infraestructura
- No se requieren pulls de registro Docker en runtime (imágenes pre-cargadas o no usando Docker)
- No se requiere clúster Kubernetes (a menos que la instalación proporcione uno)
- Base de datos ejecutándose localmente (SQLite, PostgreSQL local o embebida)
- Sin llamadas API externas en ninguna ruta de código (incluyendo reporte de errores, análisis de crashes)
- Rutas de archivos configuradas para el sistema objetivo (sin rutas de almacenamiento en la nube hardcodeadas)
Verificación
- Pipeline completo probado de extremo a extremo con cable de red físicamente desconectado
- Todas las importaciones/exportaciones de archivos probadas con sistema de archivos local únicamente
- Toda la inferencia de modelos probada con pesos pre-cargados
- Logging de auditoría verificado para escribir en almacenamiento local
- Funciones de exportación verificadas para producir archivos locales (sin rutas de upload a la nube)
La Ventaja de Escritorio Nativo
En entornos clasificados y air-gapped, la infraestructura está restringida. Puede que no tengas acceso a un clúster Kubernetes, un runtime Docker, o incluso privilegios de administrador para instalar paquetes del sistema. La estación de trabajo puede ser una máquina Windows bloqueada con una imagen gubernamental estándar.
Aquí es donde la arquitectura de la aplicación importa. Las herramientas que requieren Docker, Kubernetes o infraestructura de servidor compleja son difíciles de desplegar en estos entornos. Las herramientas que se ejecutan como aplicaciones de escritorio nativas — instaladas desde un solo binario sin dependencias externas — son dramáticamente más fáciles.
La diferencia en la práctica:
| Requisito | Web App (Docker/K8s) | App de Escritorio Nativa |
|---|---|---|
| Complejidad de instalación | Alta (runtime de contenedor, orquestación, networking) | Baja (un solo instalador) |
| Privilegios de admin requeridos | Generalmente sí | Frecuentemente no |
| Dependencias de infraestructura | Docker daemon, orquestador, load balancer | Ninguna |
| Configuración de puertos/red | Requerida (incluso para local) | No requerida |
| Despliegue en estaciones bloqueadas | Difícil | Sencillo |
| Operación offline | Requiere imágenes pre-pulled | Incorporada |
Para trabajo gubernamental y de defensa, las aplicaciones de escritorio nativas eliminan toda una categoría de problemas de despliegue.
Transferencia de Datos: Introducir y Extraer Datos
En entornos air-gapped, los datos se mueven vía medios físicos aprobados. Los detalles dependen de los procedimientos de seguridad de la instalación, pero los mecanismos comunes incluyen:
Medios Removibles
Unidades USB, discos duros externos u ópticos que han sido aprobados por la oficina de seguridad de la instalación. Los datos transferidos al sistema air-gapped deben ser escaneados y aprobados. Los datos transferidos hacia afuera deben pasar por un proceso de revisión.
Soluciones Cross-Domain (CDS)
Dispositivos de hardware que median la transferencia de datos entre redes de diferentes niveles de clasificación. Estos imponen inspección de contenido, restricciones de formato de datos y política de seguridad. Las transferencias a través de un CDS se registran y son auditables.
Implicaciones de Sneakernet para Tu Pipeline
Tu pipeline debe soportar importación y exportación vía rutas del sistema de archivos, no endpoints de red. Las funciones de "Upload desde URL" son inútiles. "Conectar a bucket S3" es irrelevante. El pipeline debe leer y escribir en directorios locales, con nomenclatura clara de archivos y documentación de manifiesto para que el proceso de transferencia de datos pueda ser auditado.
Los formatos de exportación deben ser autocontenidos. Una exportación de dataset de entrenamiento que referencia archivos externos, requiere resolución de red o depende de un servidor en ejecución es inutilizable en este contexto.
Consideraciones NIST y FedRAMP
NIST SP 800-171
Para CUI (Información No Clasificada Controlada), NIST SP 800-171 especifica 110 requisitos de seguridad en 14 familias. Relevantes para preparación de datos:
- Control de Acceso (AC): Limitar acceso al sistema a usuarios autorizados. Imponer privilegio mínimo. Registrar eventos de acceso.
- Auditoría y Responsabilidad (AU): Crear, proteger y retener registros de auditoría. Asegurar responsabilidad individual.
- Gestión de Configuración (CM): Establecer e imponer configuraciones de seguridad. Rastrear cambios.
- Integridad del Sistema e Información (SI): Monitorear sistemas y tomar acción ante fallas detectadas.
Tus herramientas de preparación de datos deben soportar estos requisitos: autenticación de usuarios, logging de auditoría, gestión de configuración y verificación de integridad.
FedRAMP
Si tus herramientas están basadas en la nube y se usan para trabajo federal, deben estar autorizadas por FedRAMP. En un entorno air-gapped, FedRAMP es menos relevante porque no estás usando servicios en la nube. Pero si alguna parte de tu pipeline se ejecuta en una nube gubernamental (GovCloud, milCloud), aplica la autorización FedRAMP.
CMMC (Certificación del Modelo de Madurez de Ciberseguridad)
Para contratistas de defensa, puede requerirse certificación CMMC. El CMMC Nivel 2 se alinea con NIST SP 800-171. Tus procesos de preparación de datos deben estar documentados y ser auditables para soportar la evaluación CMMC.
Arquitectura Práctica para Preparación de Datos Air-Gapped
Stack Recomendado
- Parsing de documentos: Docling (local) o Tesseract + modelo de detección de layout (pre-cargado)
- Limpieza de texto: Scripts Python con todas las dependencias empaquetadas en un entorno virtual
- Redacción de PII/PHI: Modelo NER local (spaCy o BERT fine-tuned, pesos pre-cargados) + patrones regex
- Etiquetado: Aplicación de escritorio nativa con base de datos local y logging de auditoría
- Augmentación: LLM local (Llama 3.1 8B o similar, pesos pre-cargados) o métodos basados en reglas
- Exportación: Salida a archivos locales con manifiesto y documentación de linaje
Qué Evitar
- Cualquier herramienta que requiera una llamada de red en cualquier punto de su operación
- Despliegues basados en Docker (a menos que la instalación soporte Docker explícitamente)
- Paquetes Python que cargan pesos de modelos de forma lazy desde Hugging Face en runtime
- Herramientas con análisis o telemetría embebidos
- Plataformas cloud-first con "modo offline" que no ha sido exhaustivamente probado
Ertas Data Suite está construido como una aplicación de escritorio nativa usando Tauri 2.0 (Rust + React). Opera completamente offline sin dependencia de internet en ninguna etapa. Los cinco módulos (Ingest → Clean → Label → Augment → Export) se ejecutan localmente con dependencias pre-empaquetadas. No hay phone-home de licencia, no hay telemetría, no hay llamadas API a la nube. Se instala desde un solo binario, se ejecuta sin Docker o Kubernetes, y produce pistas de auditoría exportables y datasets de entrenamiento como archivos locales — haciéndolo desplegable en entornos gubernamentales air-gapped sin modificación de infraestructura.
Conclusión
La preparación de datos air-gapped no es una versión modificada de la preparación de datos en la nube. Es un entorno operacional fundamentalmente diferente con restricciones que eliminan la mayoría de la cadena de herramientas de IA moderna. Los proveedores de servicios que tienen éxito en trabajo de IA gubernamental y de defensa son aquellos que planifican para estas restricciones desde el principio — pre-empaquetando dependencias, probando offline, desplegando aplicaciones nativas y construyendo flujos de trabajo de exportación que producen entregables autocontenidos.
La oportunidad de mercado es sustancial y creciente. El gasto gubernamental en IA está aumentando, y la barrera de cumplimiento es un foso que mantiene fuera a los proveedores que no han invertido en la infraestructura para cumplirla.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Premise Runtime Architecture for Enterprise AI Data Preparation
Architectural guide for running AI data preparation on-premise — deployment models, compute tiers, local LLM inference, and storage strategies for enterprise datasets.

Running Ollama for AI-Assisted Data Prep in Air-Gapped Enterprise Environments
Step-by-step guide to deploying Ollama for AI-assisted data labeling in air-gapped environments — model transfer, offline setup, GPU configuration, and common failure modes.

How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning
A complete guide to building on-premise data preparation pipelines for LLM fine-tuning — covering the 5 stages from ingestion to export, tool comparisons, and architecture for regulated environments.