Back to blog
    Cómo Construir un Pipeline de IA Air-Gapped para Industrias Reguladas
    air-gappedregulated-industrieson-premisecompliancesovereign-aisegment:enterprise

    Cómo Construir un Pipeline de IA Air-Gapped para Industrias Reguladas

    Una guía técnica de etapa de decisión para construir un pipeline de IA con cero conectividad a internet. Cubre la arquitectura del pipeline en cada etapa — ingestión de datos, limpieza, etiquetado, augmentación y exportación — con requisitos de hardware, comparaciones de herramientas y mecanismos de transferencia para entornos air-gapped.

    EErtas Team·

    Has decidido que tu pipeline de IA debe ejecutarse air-gapped — físicamente aislado de internet sin excepciones. Quizás tus datos son clasificados. Quizás tu regulador lo requiere. Quizás tu equipo de seguridad realizó una evaluación de riesgos y concluyó que cualquier conectividad externa es inaceptable para esta carga de trabajo particular.

    Este artículo no trata sobre si necesitas operación air-gapped. (Si no estás seguro, consulta nuestra guía de despliegue air-gapped vs on-premise vs auto-hospedado para el marco de decisión.) Este artículo cubre las decisiones de arquitectura que necesitas tomar en cada etapa del pipeline al construir un sistema de IA que nunca tocará internet.

    El pipeline tiene cinco etapas. Cada etapa tiene diferentes requisitos de hardware, diferentes restricciones de herramientas y diferentes modos de fallo cuando se elimina la conectividad. Recorreremos cada una.


    Resumen de Arquitectura del Pipeline

    Un pipeline de IA air-gapped tiene las mismas etapas lógicas que cualquier otro pipeline de ML. La diferencia es que cada componente en cada etapa debe funcionar con cero conectividad externa — sin llamadas API, sin servidores de licencias, sin assets hospedados en CDN, sin telemetría, sin descarga de dependencias.

    ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────────┐   ┌──────────┐
    │  Ingest  │──▶│  Clean   │──▶│  Label   │──▶│  Augment     │──▶│  Export  │
    │          │   │          │   │          │   │  (Synthetic)  │   │          │
    │ OCR      │   │ PII/PHI  │   │ NER      │   │ Local LLM    │   │ JSONL    │
    │ PDF      │   │ Redact   │   │ Classify │   │ Inference     │   │ COCO     │
    │ Layout   │   │ Normalize│   │ BBox     │   │              │   │ CSV      │
    └──────────┘   └──────────┘   └──────────┘   └──────────────┘   └──────────┘
           │              │              │              │                   │
           ▼              ▼              ▼              ▼                   ▼
       [Audit Log]   [Audit Log]   [Audit Log]   [Audit Log]         [Audit Log]
    

    Cada etapa escribe en un log de auditoría local. En entornos air-gapped, la pista de auditoría es tu única evidencia de lo que sucedió con los datos. No hay servicio de logging en la nube al cual recurrir.


    Etapa 1: Ingestión de Datos

    La ingestión de datos convierte archivos empresariales sin procesar — PDFs, documentos Word, imágenes escaneadas, hojas de cálculo, correos electrónicos — en texto legible por máquina y contenido estructurado. En un entorno air-gapped, esto significa que toda la lógica de parsing y OCR debe estar embebida en la aplicación.

    Decisiones de arquitectura

    Selección de motor OCR: Necesitas OCR que se ejecute completamente de forma local, sin llamadas API externas ni descargas de modelos dependientes de internet.

    Motor OCRCompatible con air-gappedSoporte de idiomasPrecisión en docs limpiosPrecisión en docs escaneadosAceleración GPU
    Tesseract 5.xSí — completamente local, open source100+ idiomas vía paquetes de idioma offlineBuenaModeradaNo
    PaddleOCRSí — completamente local, open source80+ idiomas, fuerte soporte CJKMuy buenaBuenaSí (opcional)
    EasyOCRSí — completamente local, open source80+ idiomasBuenaModeradaSí (opcional)
    Google Document AINo — API en la nubeN/AN/AN/AN/A
    Azure Document IntelligenceNo — API en la nubeN/AN/AN/AN/A
    AWS TextractNo — API en la nubeN/AN/AN/AN/A

    Para entornos air-gapped, Tesseract y PaddleOCR son las opciones principales. Tesseract está más ampliamente desplegado y tiene mejor documentación para instalación offline. PaddleOCR típicamente produce mejores resultados en layouts complejos (multi-columna, tablas, texto/imagen mixto) pero requiere una gestión de dependencias más cuidadosa para instalación offline.

    Parsing de PDFs: El parsing de PDFs tiene dos modos — extracción de texto (para PDFs creados digitalmente) y extracción OCR (para PDFs escaneados). La mayoría de las colecciones de documentos empresariales contienen ambos.

    Parser de PDFCompatible con air-gappedManeja PDFs escaneadosExtracción de tablasPreservación de layout
    PyMuPDF (fitz)Con OCR embebidoBásicaBuena
    pdfplumberNo (solo texto)BuenaBuena
    DoclingSí (auto-hospedado)Con OCR embebidoMuy buena (97.9%)Muy buena
    CamelotNo (solo texto)Muy buena (tablas específicamente)Limitada
    MarkerCon OCR embebidoBuenaMuy buena
    Adobe Acrobat APINo — servicio en la nubeN/AN/AN/A

    Recomendación para air-gapped: Docling (IBM Research, open source) para parsing primario, con PyMuPDF como respaldo para documentos más simples. La precisión de extracción de tablas de Docling (97.9% en benchmarks) es importante para documentos empresariales donde las tablas contienen datos estructurados críticos.

    Requisitos de hardware para ingestión

    Carga de trabajoCPURAMGPUAlmacenamiento
    Extracción de texto PDF (sin OCR)4+ núcleos8 GBNo requerida2x volumen de documentos fuente
    OCR en documentos escaneados8+ núcleos16 GBOpcional (acelera PaddleOCR 3-5x)3x volumen de documentos fuente
    Ingestión de alto volumen (10K+ docs)16+ núcleos32 GBRecomendada3-5x volumen de documentos fuente

    El multiplicador de almacenamiento tiene en cuenta tanto los documentos originales como la salida estructurada extraída (JSON, texto, metadatos).


    Etapa 2: Limpieza y Des-identificación

    La limpieza transforma el texto crudo extraído en contenido normalizado y consistente. La des-identificación detecta y redacta información de identificación personal (PII) e información de salud protegida (PHI). En entornos air-gapped, todos los modelos NLP para detección de entidades deben ejecutarse localmente.

    Decisiones de arquitectura

    Enfoque de detección de PII/PHI: Tienes dos opciones — coincidencia de patrones basada en reglas, o reconocimiento de entidades nombradas (NER) basado en modelos NLP. En la práctica, necesitas ambos.

    Método de detecciónQué detectaTasa de falsos positivosCompatible con air-gapped
    Coincidencia de patrones regexSSNs, teléfonos, emails, tarjetas de crédito, fechas en formatos estándar, números de registros médicosBaja (los patrones son precisos)Sí — sin dependencias
    spaCy NER (modelos locales)Nombres, organizaciones, ubicaciones, fechas en formatos no estándarModerada (requiere ajuste)Sí — pesos del modelo cargados desde almacenamiento local
    Hugging Face NER (GGUF/ONNX)Nombres, organizaciones, entidades específicas de dominioBaja a moderadaSí — modelos cuantizados se ejecutan localmente
    AWS Comprehend MedicalPHI en texto clínicoBajaNo — API en la nube
    Google Healthcare NLPPHI en texto clínicoBajaNo — API en la nube

    Enfoque recomendado para air-gapped: Combinar ambos métodos. Usar patrones regex para identificadores estructurados (SSNs, teléfonos, emails, números de registros médicos, fechas). Usar un modelo NER cargado localmente (spaCy o transformer cuantizado) para identificadores no estructurados (nombres, organizaciones, ubicaciones en texto libre).

    Para datos regulados por HIPAA específicamente, la des-identificación debe satisfacer el método Safe Harbor (eliminación de 18 categorías específicas de identificadores) o el método de Determinación de Experto. Regex captura la mayoría de identificadores estructurados. NER captura los no estructurados. Una etapa de revisión humana después de la des-identificación automatizada es práctica estándar para cumplimiento de HIPAA.

    Normalización de datos: Los entornos air-gapped frecuentemente procesan documentos acumulados durante décadas — diferentes esquemas de codificación, formatos de fecha inconsistentes, conjuntos de caracteres legacy. La normalización los convierte a codificación UTF-8 consistente, formatos de fecha estandarizados y manejo consistente de espacios en blanco. Esto es computacionalmente barato y no tiene requisitos de conectividad.

    Requisitos de hardware para limpieza

    Carga de trabajoCPURAMGPUNotas
    Detección de PII solo regex4+ núcleos8 GBNo requeridaRápido, maneja millones de registros
    Modelos NER spaCy4+ núcleos16 GBNo requerida (inferencia CPU)Más lento que regex, más exhaustivo
    NER Transformer (cuantizado)8+ núcleos16 GB8+ GB VRAM recomendadaMejor precisión, requiere GPU para velocidad razonable
    Pipeline combinado8+ núcleos32 GB16+ GB VRAMPrimer pase regex, segundo pase NER, pase final revisión humana

    Etapa 3: Etiquetado y Anotación

    El etiquetado es donde los expertos de dominio asignan categorías, entidades, bounding boxes o puntuaciones de calidad a los datos procesados. En entornos air-gapped, la interfaz de etiquetado debe servirse completamente desde localhost — sin assets de CDN externos, sin proyectos sincronizados en la nube, sin herramientas basadas en navegador que carguen scripts de servidores remotos.

    Decisiones de arquitectura

    Selección de herramienta de anotación: La mayoría de las herramientas de anotación modernas son aplicaciones web que asumen conectividad a internet. Incluso las versiones auto-hospedadas frecuentemente cargan bibliotecas JavaScript desde CDNs, scripts de análisis o archivos de fuentes desde servidores externos.

    Herramienta de anotaciónCompatible con air-gappedModalidadesNativa de escritorioAccesible para expertos de dominio
    Prodigy (Explosion AI)Sí — completamente local, licencia perpetuaNLP, CV, audioBasada en Python (se ejecuta localmente)Moderada (requiere terminal)
    Label Studio (auto-hospedado)Parcial — verificar carga de assets externosNLP, CV, audio, videoNo (aplicación web Docker/K8s)Sí (UI de navegador)
    CVAT (auto-hospedado)Parcial — aplicación web con posibles dependencias externasSolo CVNo (aplicación web Docker)Sí (UI de navegador)
    LabelboxNo — SaaS en la nubeNLP, CVNo
    Scale AINo — SaaS en la nubeNLP, CVNo

    La advertencia sobre Label Studio: Label Studio puede ser auto-hospedado, pero la versión auto-hospedada debe ser auditada por llamadas externas. Versiones anteriores cargaban Google Fonts desde CDN externo, incluían scripts de análisis y hacían llamadas para verificar actualizaciones. En un entorno air-gapped, estas llamadas fallan silenciosamente o causan errores. Necesitas verificar — inspeccionando el tráfico de red — que tu instancia auto-hospedada de Label Studio haga cero solicitudes HTTP externas.

    Recomendación para air-gapped: Para anotación NLP, Prodigy es la opción más confiablemente air-gapped — es una biblioteca Python sin dependencias web, sirviendo su UI completamente desde localhost. La compensación es que requiere un entorno Python, lo que limita la accesibilidad para expertos de dominio no técnicos.

    Para organizaciones donde los expertos de dominio (doctores, abogados, ingenieros) necesitan acceso directo a la interfaz de etiquetado, una herramienta de anotación de escritorio nativa que no requiera terminal, ni Python, ni conectividad de navegador es la mejor opción. Este es el enfoque que toma Ertas Data Suite — una aplicación de escritorio nativa donde toda la interfaz de anotación se ejecuta localmente con cero dependencias de red.

    Requisitos de hardware para etiquetado

    El etiquetado es la etapa menos intensiva en cómputo. Es principalmente una actividad humana con asistencia de software.

    Carga de trabajoCPURAMGPUNotas
    Anotación de texto (NER, clasificación)2+ núcleos8 GBNo requeridaPrincipalmente limitada por UI, no por cómputo
    Anotación de imagen (bounding boxes, segmentación)4+ núcleos16 GBOpcional (acelera renderizado)Imágenes grandes necesitan más RAM
    Etiquetado asistido por IA (sugerencias del modelo)8+ núcleos16 GB8+ GB VRAMEl modelo local proporciona sugerencias de etiquetas para revisión humana

    Etapa 4: Augmentación de Datos Sintéticos

    La augmentación de datos sintéticos usa LLMs para generar ejemplos de entrenamiento adicionales a partir de datos etiquetados existentes. En un entorno air-gapped, esto requiere ejecutar inferencia de LLM localmente — sin APIs en la nube, sin endpoints de modelo externos.

    Decisiones de arquitectura

    Selección de runtime de LLM local:

    RuntimeCompatible con air-gappedFormato de modeloSoporte GPUServicio multi-modelo
    OllamaSí — instalación offline disponibleGGUFNVIDIA, AMD, Apple Silicon
    llama.cppSí — compilar desde fuente, sin dependenciasGGUFNVIDIA, AMD, Apple Silicon, VulkanNo (modelo único)
    vLLMSí — pero instalación compleja de dependencias offlineSafeTensors, GPTQNVIDIA (principalmente)
    Microsoft Foundry LocalSí — diseñado para operación desconectadaONNXNVIDIA, AMD, Intel, Qualcomm, Apple Silicon
    Hugging Face Inference APINo — endpoint en la nubeN/AN/AN/A

    Recomendado para air-gapped: Ollama para augmentación de propósito general. Soporta una amplia gama de modelos GGUF, tiene instalación offline sencilla (copiar el binario + archivos del modelo) y sirve una API compatible con OpenAI en localhost. Para entornos donde se prefiere el ecosistema de Microsoft, Foundry Local es la alternativa — con la compensación de una selección de modelos más reducida.

    Selección de modelo para augmentación:

    ModeloParámetrosVRAM requerida (Q4 cuantizado)Calidad de augmentaciónComplejidad de instalación air-gapped
    Phi-4-mini3.8B~4 GBBuena para tareas simplesBaja (descarga pequeña, transferencia rápida)
    Llama 3.1 8B8B~6 GBBuena para augmentación generalBaja
    Mistral 7B7B~6 GBBuena para salida estructuradaBaja
    Qwen 2.5 14B14B~10 GBMuy buenaModerada (transferencia mayor)
    Llama 3.1 70B70B~40 GBExcelenteAlta (descarga grande, requiere GPU de alta VRAM)

    Para la mayoría de tareas de augmentación empresarial — generar paráfrasis, crear variantes de clasificación, expandir ejemplos de entidades — un modelo cuantizado de 8B-14B es el punto óptimo práctico. La calidad es suficiente, los requisitos de hardware son manejables, y los archivos del modelo (4-10 GB) son factibles de transferir vía medios removibles.

    Requisitos de hardware para augmentación

    Carga de trabajoCPURAMGPUThroughput
    Augmentación con modelo 7-8B8+ núcleos32 GB16 GB VRAM (RTX 4080 o equivalente)~30-50 tokens/seg
    Augmentación con modelo 14B8+ núcleos32 GB24 GB VRAM (RTX 4090 o equivalente)~20-35 tokens/seg
    Augmentación con modelo 70B16+ núcleos64 GB48+ GB VRAM (A6000 o 2x RTX 4090)~10-20 tokens/seg
    Augmentación solo CPU (7B)16+ núcleos64 GBNinguna~3-8 tokens/seg (lento pero funcional)

    Se recomienda fuertemente GPU para augmentación. La inferencia solo con CPU en modelos 7B funciona pero genera datos 5-10x más lento, lo cual importa cuando necesitas producir miles de ejemplos de entrenamiento sintéticos.


    Etapa 5: Exportación

    La exportación convierte datos procesados, etiquetados y augmentados en formatos consumibles por sistemas downstream de entrenamiento y despliegue. En un entorno air-gapped, la exportación apunta a almacenamiento local — nunca almacenamiento de objetos en la nube.

    Decisiones de arquitectura

    La selección de formato de exportación depende del caso de uso downstream:

    Caso de usoFormato de exportaciónEstructura de archivos
    Fine-tuning de LLMJSONL (instrucción, entrada, salida)Un objeto JSON por línea
    RAG / recuperaciónTexto chunkeado con metadatosJSONL o JSON estructurado
    Visión por computadora (detección de objetos)Formato YOLO o COCOImágenes + archivos de anotación
    Visión por computadora (clasificación)Estructura de directorios con carpetas por claseimage/nombre_clase/archivo.jpg
    ML clásicoCSV con features y etiquetasFormato tabular estándar
    Fine-tuning DPOJSONL con pares elegidos/rechazadosPares de preferencia por línea

    Exportación de pista de auditoría: En entornos regulados, los datos de entrenamiento solos no son suficientes. También debes exportar:

    • Linaje de datos (qué documento fuente produjo qué ejemplo de entrenamiento)
    • Log de transformación (cada operación de limpieza, redacción y modificación con marcas de tiempo)
    • Log de operadores (quién etiquetó qué, cuándo y qué cambió)
    • Métricas de calidad (acuerdo inter-anotador, puntuaciones de confianza)

    Para cumplimiento del Artículo 30 del EU AI Act, esta documentación de auditoría debe acompañar los datos de entrenamiento y estar disponible para inspección. Para HIPAA, la pista de auditoría de des-identificación debe demostrar que la PHI fue debidamente eliminada antes de que los datos fueran usados para entrenamiento.

    Requisitos de hardware para exportación

    Carga de trabajoCPURAMGPUNotas
    Exportación JSONL/CSV2+ núcleos8 GBNo requeridaLimitada por I/O, no por cómputo
    Exportación a gran escala (100K+ registros)4+ núcleos16 GBNo requeridaLa velocidad del disco importa más que la CPU
    Exportación con generación de pista de auditoría4+ núcleos16 GBNo requeridaLa pista de auditoría puede ser más grande que los datos mismos

    Mecanismos de Transferencia: Introducir Software y Modelos en Entornos Air-Gapped

    El aspecto más pasado por alto de la IA air-gapped es la configuración inicial. No puedes instalar software desde internet. No puedes descargar pesos de modelos. Todo debe transferirse a través de canales físicos aprobados.

    Transferencia por medios físicos

    El enfoque estándar para entornos clasificados y air-gapped:

    1. Preparar en una máquina conectada: Descargar todos los instaladores de software, dependencias, pesos de modelos y archivos de configuración en una unidad limpia y formateada
    2. Escaneo de seguridad: Pasar el medio por el proceso de escaneo de malware y revisión de seguridad de tu organización
    3. Cadena de custodia: Documentar quién preparó el medio, qué contiene y cuándo fue transferido
    4. Instalar en la máquina air-gapped: Copiar archivos del medio aprobado al sistema objetivo
    5. Verificar integridad: Comparar checksums (SHA-256) de archivos instalados contra el manifiesto preparado

    Para pesos de modelos específicamente: un modelo GGUF de 7B es aproximadamente 4-6 GB. Un modelo de 70B es 35-45 GB. Unidades USB o SSDs portátiles manejan estos tamaños fácilmente. Datasets más grandes (cientos de GB de documentos fuente) pueden requerir dispositivos NAS portátiles o múltiples unidades.

    Diodos de datos unidireccionales

    Para organizaciones con redes air-gapped más sofisticadas, los diodos de datos de hardware proporcionan un mecanismo de transferencia unidireccional. Los datos fluyen hacia la red air-gapped pero no pueden fluir hacia afuera. Esto se usa en entornos de defensa e infraestructura crítica donde los medios removibles también están restringidos.

    Los diodos de datos permiten transferencias automatizadas y programadas de actualizaciones de modelos y parches de software hacia el entorno air-gapped sin crear ninguna ruta de salida de datos.

    Qué debe ser pre-staged

    Antes de aislar la máquina, transfiere todo lo siguiente:

    CategoríaÍtems específicosTamaño típico
    Instaladores de aplicacionesSoftware de pipeline de IA, herramientas de anotación, runtime de inferencia1-5 GB
    Dependencias de runtimePaquetes Python (archivos wheel), bibliotecas del sistema2-10 GB
    Paquetes de idioma OCRDatos de idioma de Tesseract, modelos PaddleOCR0.5-2 GB
    Modelos NERModelos spaCy, modelos transformer cuantizados para detección de PII1-5 GB
    Pesos de LLMModelos GGUF para augmentación y etiquetado asistido por IA4-45 GB por modelo
    Archivos de configuraciónConfigs del pipeline, plantillas de exportación, esquemas de pista de auditoríaMenos de 100 MB

    Total de pre-staging para un pipeline de IA air-gapped completo: aproximadamente 10-70 GB, dependiendo de cuántos modelos LLM incluyas.


    Mapeo de Cumplimiento: ¿Quién Realmente Requiere Air-Gapped?

    No toda regulación requiere operación air-gapped. Entender qué regulaciones requieren qué modelo de despliegue previene la sobre-ingeniería.

    Regulación / Contexto¿Requiere air-gapped?¿Es suficiente on-premise?Notas
    Sistemas clasificados de EE.UU. (ITAR, datos clasificados)NoAislamiento físico requerido por política
    CMMC Nivel 3+ de EE.UU. (contratistas de DoD)Frecuentemente síDepende del tipo de datosManejo de Información No Clasificada Controlada
    HIPAA (salud)No (pero recomendado para datos de entrenamiento con PHI)HIPAA requiere salvaguardas, no modelos de despliegue específicos
    GDPR (UE)NoFrecuentemente suficienteRequiere residencia de datos + controles de procesamiento; on-premise con pista de auditoría satisface la mayoría de requisitos
    EU AI Act (sistemas de alto riesgo)NoFrecuentemente suficienteRequiere documentación y pista de auditoría; el modelo de despliegue no está prescrito
    India DPDP ActNoPuede ser requerido para fiduciarios de datos significativosLocalización de datos para ciertas categorías
    Arabia Saudita PDPLNoEfectivamente requerido para datos personalesProcesamiento dentro del Reino
    Regulaciones financieras (SOX, PCI-DSS)No (excepto para entornos específicos de alta seguridad)Se requieren controles de acceso fuertes; modelo de despliegue flexible
    Infraestructura crítica (NERC CIP)Frecuentemente sí para redes OTSí para redes ITLa segmentación OT/IT es estándar

    La pauta práctica: Air-gapped es requerido para datos clasificados/defensa y redes OT de infraestructura crítica. On-premise es suficiente para la mayoría de industrias reguladas (salud, finanzas, legal). Nube soberana (proveedor doméstico) es aceptable para datos que requieren control jurisdiccional pero no aislamiento físico.


    Uniendo Todo: Arquitectura de Referencia

    Un pipeline de IA air-gapped completo para una empresa regulada:

    Hardware:

    • Estación de trabajo o servidor: 16+ núcleos, 64 GB RAM, NVIDIA RTX 4090 (24 GB VRAM) o A6000 (48 GB VRAM)
    • Almacenamiento local: 2+ TB NVMe SSD para proyectos activos, más NAS para archivo
    • Estación de medios removibles: para configuración inicial y actualizaciones periódicas de modelos/software

    Stack de software:

    • SO: Linux (Ubuntu/RHEL) o Windows, completamente actualizado antes del aislamiento
    • Ingestión: Docling + PyMuPDF + Tesseract/PaddleOCR
    • Limpieza: spaCy NER + patrones regex + reglas personalizadas
    • Etiquetado: Herramienta de anotación de escritorio nativa (sin Docker, sin dependencias de navegador)
    • Augmentación: Ollama + Llama 3.1 8B (GGUF Q4)
    • Exportación: JSONL + generador de pista de auditoría
    • Runtime de inferencia: Ollama, llama.cpp o Foundry Local

    Costo estimado de hardware: $8,000-$15,000 para una estación de trabajo (clase RTX 4090), o $20,000-$40,000 para un servidor (clase A6000). Compara con costos de GPU en la nube de $2-$4/hora para cómputo equivalente — el hardware on-premise se paga solo en 6-18 meses de uso continuo.

    Esta arquitectura maneja el pipeline completo desde documentos sin procesar hasta datos de entrenamiento listos para IA, completamente dentro de un perímetro air-gapped, con pista de auditoría completa en cada etapa.


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    Lectura Relacionada

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading