
Machine Learning Air-Gapped: Cómo Construir Pipelines de Datos de IA Sin Acceso a Internet
Una guía práctica para construir pipelines de preparación de datos y entrenamiento de IA en entornos air-gapped — desde ingestión de documentos hasta exportación de modelos — sin conectividad a internet requerida en ninguna etapa.
"Air-gapped" es un término que se usa de forma imprecisa en las discusiones sobre IA empresarial. Frecuentemente significa "no queremos que los datos salgan de nuestra red" o "preferiríamos on-premise." Estos son requisitos legítimos, pero no son lo mismo que una operación genuinamente air-gapped. En entornos verdaderamente air-gapped — sistemas gubernamentales clasificados, redes de infraestructura crítica, sistemas financieros de alta seguridad — no hay conexión a internet en absoluto. No restringida. No monitoreada. Ausente.
Construir pipelines de preparación de datos de IA para estos entornos requiere una arquitectura diferente a los despliegues on-premise típicos. Cada componente debe funcionar sin llamar a casa, verificar actualizaciones de licencia, descargar pesos de modelos o acceder a APIs externas. La mayoría del software moderno falla en esta prueba de formas que no son obvias al momento de la instalación.
Esta guía cubre los tres modelos de despliegue (air-gapped, on-premise, auto-hospedado), quién realmente necesita operación genuinamente air-gapped, cómo luce un pipeline completo de datos de ML sin conectividad, y qué herramientas fallan en entornos air-gapped.
Tres Modelos: Air-Gapped, On-Premise, Auto-Hospedado
Estos términos se usan intercambiablemente en marketing de proveedores. No son lo mismo.
| Modelo | Infraestructura | Internet en runtime | Datos permanecen en la org | Uso regulatorio |
|---|---|---|---|---|
| SaaS / Nube | Nube del proveedor | Sí | No | Raramente conforme |
| Auto-hospedado | Tus servidores, cualquier ubicación | Opcional | Sí (con controles) | Condicionalmente conforme |
| On-premise | Hardware que posees, en tu edificio | Opcional | Sí | Frecuentemente conforme |
| Air-gapped | Hardware que posees, red físicamente aislada | No | Sí | Completamente aislado |
Auto-hospedado significa que ejecutas el software en tus propios servidores — pero esos servidores pueden estar en un centro de datos en la nube, y el software puede aún hacer conexiones externas (para validación de licencia, telemetría, descarga de modelos o actualizaciones de dependencias). Auto-hospedado no es air-gapped.
On-premise típicamente significa software ejecutándose en hardware en tu instalación. Puede aún hacer conexiones salientes para actualizaciones o telemetría. "On-premise" en documentación de proveedores frecuentemente solo significa "tú lo instalas."
Air-gapped significa que la máquina host no tiene conexión de red a internet y, en implementaciones estrictas, no tiene conexión a ninguna red externa. El software en un entorno air-gapped no puede alcanzar servicios externos bajo ninguna circunstancia — no por accidente y no por diseño.
Las implicaciones de cumplimiento difieren:
- Auto-hospedado en infraestructura de un proveedor de nube: aún sujeto a las obligaciones legales de ese proveedor y posibles solicitudes de acceso gubernamental
- On-premise con acceso a internet: aún puede exfiltrar datos (intencionalmente o vía un componente comprometido); no satisface requisitos de "sin egreso de datos" para entornos de máxima seguridad
- Air-gapped: físicamente aislado; único vector de ataque es medios removibles o acceso físico; satisface los requisitos más exigentes de soberanía de datos