Preparación de Datos Air-Gapped para Contratistas de IA de Gobierno y Defensa

Los contratos de IA para gobierno y defensa operan bajo restricciones que la mayoría de equipos de IA comerciales nunca encuentran. La más significativa: operación genuinamente air-gapped. No "nube privada." No "aislado por VPN." Sin internet. Sin conectividad de red externa en absoluto. La estación de trabajo donde preparas datos de entrenamiento puede estar en un SCIF, en una red clasificada, o en una instalación donde el cable Ethernet al exterior no existe.

Esto cambia todo en tu pipeline de preparación de datos. La mayoría de las herramientas de IA modernas asumen conectividad a internet en algún punto — para validación de licencia, descarga de pesos de modelos, llamadas API de OCR, auto-actualizaciones o telemetría. En un entorno air-gapped, cualquier herramienta que llame a casa es una herramienta que no funciona.

Esta guía cubre los requisitos técnicos para ejecutar preparación de datos de IA en entornos air-gapped de gobierno y defensa, qué se rompe, y cómo diseñar un pipeline que funcione con cero dependencia de internet.

Qué Significa "Air-Gapped" en Gobierno y Defensa

Un sistema air-gapped no tiene conexión a ninguna red externa. Esto no es una opción de configuración — es una arquitectura de red física impuesta por la instalación.

Niveles de Clasificación e Implicaciones de Red

Red	Clasificación	Acceso a Internet	Descripción
NIPRNet	No clasificada (CUI)	Sí, filtrado	Red no clasificada del Departamento de Defensa
SIPRNet	Secreto	No	Red clasificada de nivel Secreto
JWICS	Alto Secreto/SCI	No	Sistema Conjunto Mundial de Comunicaciones de Inteligencia
Stand-alone	Varía	No	Estaciones de trabajo físicamente aisladas

Para Secreto y superior, el entorno de trabajo es air-gapped por definición. Pero incluso a nivel CUI (Información No Clasificada Controlada), muchas instalaciones gubernamentales operan entornos air-gapped como postura de seguridad elegida, particularmente para preparación de datos que involucra datasets sensibles.

Implicaciones de Habilitación de Seguridad

El personal que trabaja en entornos clasificados debe tener las habilitaciones apropiadas. Esto afecta tu modelo de dotación de personal: no puedes asignar a cualquier ingeniero de datos disponible a un proyecto clasificado. Anotadores, ingenieros y personal de QA todos deben estar habilitados al nivel apropiado.

Para proveedores de servicios, esto significa que tu equipo para trabajo de IA gubernamental es un subconjunto de tu personal total, y no puedes escalarlo fácilmente.

Qué Se Rompe en Entornos Air-Gapped

Validación de Licencia

Muchas herramientas comerciales y open source validan licencias contactando un servidor externo al inicio o periódicamente durante el uso. En un entorno air-gapped, esta validación falla, y la herramienta se niega a iniciar u opera en modo degradado.

Herramientas afectadas: Plataformas de etiquetado comerciales, algunas extensiones de IDE, suscripciones vinculadas a la nube, herramientas SaaS con instaladores locales.

Solución: Negociar claves de licencia offline con los proveedores antes del despliegue. Algunos proveedores ofrecen licencias vinculadas a hardware o dongles USB. Otros simplemente no soportan uso offline.

Auto-Actualizaciones

Las herramientas que verifican actualizaciones al inicio fallarán silenciosamente (consumiendo delays de timeout) o fallarán ruidosamente (bloqueando el inicio). De cualquier forma, en un entorno air-gapped, la versión que despliegas es la versión que ejecutas hasta que actualices manualmente.

Implicación: La gestión de versiones se convierte en tu responsabilidad. Fija cada dependencia, documenta cada versión y prueba el stack completo antes de desplegarlo al entorno air-gapped.

APIs de OCR y Parsing en la Nube

Muchas herramientas de parsing de documentos — incluyendo algunas configuraciones de Unstructured.io y la mayoría de plataformas de OCR comerciales — envían documentos a APIs en la nube para procesamiento. En un entorno air-gapped, estas llamadas fallan.

Herramientas afectadas: Unstructured.io (modo nube), Azure Document Intelligence, Google Document AI, Amazon Textract.

Alternativa: Usar herramientas de parsing que se ejecuten completamente de forma local. Docling, Unstructured.io en modo local (con pesos de modelos locales pre-cargados), Tesseract OCR (local), o surya-ocr para detección de layout.

Descarga de Pesos de Modelos

Los modelos NER, modelos de embedding y modelos de lenguaje usados para augmentación de datos o detección de PII típicamente descargan pesos de Hugging Face, PyPI o repositorios personalizados en el primer uso. En un entorno air-gapped, esta descarga falla.

Solución: Pre-descargar todos los pesos de modelos en un sistema conectado, verificar su integridad (checksums), transferirlos al entorno air-gapped vía medios aprobados, y configurar las herramientas para cargar desde rutas locales.

Gestores de Paquetes y Resolución de Dependencias

pip install, npm install, cargo build — todos estos recurren a registros externos. En un entorno air-gapped, fallan.

Solución: Construir y probar tu entorno completo en un sistema conectado, luego transferirlo como un paquete pre-construido (imagen Docker, archivo de entorno virtual, o bundle de instalador). En el sistema air-gapped, instalar desde el paquete local.

Checklist Pre-Despliegue

Antes de desplegar cualquier pipeline de preparación de datos a un entorno air-gapped, verifica lo siguiente:

Bundle de Software

Todos los binarios de aplicación incluidos y probados
Todos los pesos de modelos pre-cargados (NER, OCR, embedding, LLM si se usa)
Todas las dependencias Python/Node/Rust empaquetadas (sin resolución de red requerida)
Claves de licencia configuradas para operación offline
Mecanismos de auto-actualización deshabilitados
Telemetría y análisis deshabilitados
Todos los archivos de configuración pre-establecidos para operación solo local

Infraestructura

No se requieren pulls de registro Docker en runtime (imágenes pre-cargadas o no usando Docker)
No se requiere clúster Kubernetes (a menos que la instalación proporcione uno)
Base de datos ejecutándose localmente (SQLite, PostgreSQL local o embebida)
Sin llamadas API externas en ninguna ruta de código (incluyendo reporte de errores, análisis de crashes)
Rutas de archivos configuradas para el sistema objetivo (sin rutas de almacenamiento en la nube hardcodeadas)

Verificación

Pipeline completo probado de extremo a extremo con cable de red físicamente desconectado
Todas las importaciones/exportaciones de archivos probadas con sistema de archivos local únicamente
Toda la inferencia de modelos probada con pesos pre-cargados
Logging de auditoría verificado para escribir en almacenamiento local
Funciones de exportación verificadas para producir archivos locales (sin rutas de upload a la nube)

La Ventaja de Escritorio Nativo

En entornos clasificados y air-gapped, la infraestructura está restringida. Puede que no tengas acceso a un clúster Kubernetes, un runtime Docker, o incluso privilegios de administrador para instalar paquetes del sistema. La estación de trabajo puede ser una máquina Windows bloqueada con una imagen gubernamental estándar.

Aquí es donde la arquitectura de la aplicación importa. Las herramientas que requieren Docker, Kubernetes o infraestructura de servidor compleja son difíciles de desplegar en estos entornos. Las herramientas que se ejecutan como aplicaciones de escritorio nativas — instaladas desde un solo binario sin dependencias externas — son dramáticamente más fáciles.

La diferencia en la práctica:

Requisito	Web App (Docker/K8s)	App de Escritorio Nativa
Complejidad de instalación	Alta (runtime de contenedor, orquestación, networking)	Baja (un solo instalador)
Privilegios de admin requeridos	Generalmente sí	Frecuentemente no
Dependencias de infraestructura	Docker daemon, orquestador, load balancer	Ninguna
Configuración de puertos/red	Requerida (incluso para local)	No requerida
Despliegue en estaciones bloqueadas	Difícil	Sencillo
Operación offline	Requiere imágenes pre-pulled	Incorporada

Para trabajo gubernamental y de defensa, las aplicaciones de escritorio nativas eliminan toda una categoría de problemas de despliegue.

Transferencia de Datos: Introducir y Extraer Datos

En entornos air-gapped, los datos se mueven vía medios físicos aprobados. Los detalles dependen de los procedimientos de seguridad de la instalación, pero los mecanismos comunes incluyen:

Medios Removibles

Unidades USB, discos duros externos u ópticos que han sido aprobados por la oficina de seguridad de la instalación. Los datos transferidos al sistema air-gapped deben ser escaneados y aprobados. Los datos transferidos hacia afuera deben pasar por un proceso de revisión.

Soluciones Cross-Domain (CDS)

Dispositivos de hardware que median la transferencia de datos entre redes de diferentes niveles de clasificación. Estos imponen inspección de contenido, restricciones de formato de datos y política de seguridad. Las transferencias a través de un CDS se registran y son auditables.

Implicaciones de Sneakernet para Tu Pipeline

Tu pipeline debe soportar importación y exportación vía rutas del sistema de archivos, no endpoints de red. Las funciones de "Upload desde URL" son inútiles. "Conectar a bucket S3" es irrelevante. El pipeline debe leer y escribir en directorios locales, con nomenclatura clara de archivos y documentación de manifiesto para que el proceso de transferencia de datos pueda ser auditado.

Los formatos de exportación deben ser autocontenidos. Una exportación de dataset de entrenamiento que referencia archivos externos, requiere resolución de red o depende de un servidor en ejecución es inutilizable en este contexto.

Consideraciones NIST y FedRAMP

NIST SP 800-171

Para CUI (Información No Clasificada Controlada), NIST SP 800-171 especifica 110 requisitos de seguridad en 14 familias. Relevantes para preparación de datos:

Control de Acceso (AC): Limitar acceso al sistema a usuarios autorizados. Imponer privilegio mínimo. Registrar eventos de acceso.
Auditoría y Responsabilidad (AU): Crear, proteger y retener registros de auditoría. Asegurar responsabilidad individual.
Gestión de Configuración (CM): Establecer e imponer configuraciones de seguridad. Rastrear cambios.
Integridad del Sistema e Información (SI): Monitorear sistemas y tomar acción ante fallas detectadas.

Tus herramientas de preparación de datos deben soportar estos requisitos: autenticación de usuarios, logging de auditoría, gestión de configuración y verificación de integridad.

FedRAMP

Si tus herramientas están basadas en la nube y se usan para trabajo federal, deben estar autorizadas por FedRAMP. En un entorno air-gapped, FedRAMP es menos relevante porque no estás usando servicios en la nube. Pero si alguna parte de tu pipeline se ejecuta en una nube gubernamental (GovCloud, milCloud), aplica la autorización FedRAMP.

CMMC (Certificación del Modelo de Madurez de Ciberseguridad)

Para contratistas de defensa, puede requerirse certificación CMMC. El CMMC Nivel 2 se alinea con NIST SP 800-171. Tus procesos de preparación de datos deben estar documentados y ser auditables para soportar la evaluación CMMC.

Arquitectura Práctica para Preparación de Datos Air-Gapped

Stack Recomendado

Parsing de documentos: Docling (local) o Tesseract + modelo de detección de layout (pre-cargado)
Limpieza de texto: Scripts Python con todas las dependencias empaquetadas en un entorno virtual
Redacción de PII/PHI: Modelo NER local (spaCy o BERT fine-tuned, pesos pre-cargados) + patrones regex
Etiquetado: Aplicación de escritorio nativa con base de datos local y logging de auditoría
Augmentación: LLM local (Llama 3.1 8B o similar, pesos pre-cargados) o métodos basados en reglas
Exportación: Salida a archivos locales con manifiesto y documentación de linaje

Qué Evitar

Cualquier herramienta que requiera una llamada de red en cualquier punto de su operación
Despliegues basados en Docker (a menos que la instalación soporte Docker explícitamente)
Paquetes Python que cargan pesos de modelos de forma lazy desde Hugging Face en runtime
Herramientas con análisis o telemetría embebidos
Plataformas cloud-first con "modo offline" que no ha sido exhaustivamente probado

Ertas Data Suite está construido como una aplicación de escritorio nativa usando Tauri 2.0 (Rust + React). Opera completamente offline sin dependencia de internet en ninguna etapa. Los cinco módulos (Ingest → Clean → Label → Augment → Export) se ejecutan localmente con dependencias pre-empaquetadas. No hay phone-home de licencia, no hay telemetría, no hay llamadas API a la nube. Se instala desde un solo binario, se ejecuta sin Docker o Kubernetes, y produce pistas de auditoría exportables y datasets de entrenamiento como archivos locales — haciéndolo desplegable en entornos gubernamentales air-gapped sin modificación de infraestructura.

Conclusión

La preparación de datos air-gapped no es una versión modificada de la preparación de datos en la nube. Es un entorno operacional fundamentalmente diferente con restricciones que eliminan la mayoría de la cadena de herramientas de IA moderna. Los proveedores de servicios que tienen éxito en trabajo de IA gubernamental y de defensa son aquellos que planifican para estas restricciones desde el principio — pre-empaquetando dependencias, probando offline, desplegando aplicaciones nativas y construyendo flujos de trabajo de exportación que producen entregables autocontenidos.

La oportunidad de mercado es sustancial y creciente. El gasto gubernamental en IA está aumentando, y la barrera de cumplimiento es un foso que mantiene fuera a los proveedores que no han invertido en la infraestructura para cumplirla.