Back to blog
    Procesamiento de Documentos Clasificados para NLP en Entornos Air-Gapped
    classifiedair-gappedNLPsecuritydata-pipelinedefenseon-premise

    Procesamiento de Documentos Clasificados para NLP en Entornos Air-Gapped

    Guia de arquitectura y operaciones para preparar documentos clasificados como datos de entrenamiento NLP en entornos completamente air-gapped. Cubre requisitos de seguridad, patrones de flujo de trabajo aprobados, verificacion de air-gap y diseno de pipeline para procesamiento de documentos sensibles.

    EErtas Team·

    Construir modelos NLP a partir de documentos clasificados es un problema que la mayoria de las herramientas de IA nunca fueron disenadas para resolver. Las plataformas comerciales de preparacion de datos asumen conectividad de red — para actualizaciones, para almacenamiento en la nube, para telemetria. Los entornos clasificados asumen lo contrario: la maquina que procesa los datos debe tener cero conectividad de red, verificable y auditable.

    Esto crea una brecha fundamental en las herramientas. Las organizaciones que procesan documentos clasificados para datos de entrenamiento NLP necesitan un pipeline que maneje analisis de documentos, extraccion de texto, limpieza, anotacion y exportacion — todo ejecutandose en una sola maquina sin stack de red, sin conexiones salientes y sin dependencias ocultas que se comuniquen con servidores externos.

    Este manual cubre la arquitectura, los requisitos de seguridad y los patrones de flujo de trabajo para preparar documentos clasificados como datos de entrenamiento NLP en entornos air-gapped.

    Niveles de Clasificacion de Seguridad y Manejo de Datos

    Diferentes niveles de clasificacion imponen diferentes restricciones fisicas y operativas en el entorno de procesamiento de datos.

    ClasificacionRequisitos FisicosPersonalTransferencia de Datos
    CUI (Informacion No Clasificada Controlada)Sala cerrada, estacion de trabajo con acceso controladoPersonal con autorizacion, base de necesidad de conocimientoMedios extraibles cifrados con registro
    SecretSCIF o equivalente, equipo con clasificacion TEMPESTAutorizacion Secret activaSolucion cross-domain (CDS) o revision manual + sneakernet
    Top Secret / SCISCIF, cumplimiento TEMPEST completo, blindaje RFAutorizacion TS/SCI activaCDS con aprobacion multipersona, o medios fisicos bajo escolta

    La plataforma de pipeline de datos debe operar al nivel de clasificacion mas alto de cualquier documento que procese. Si un solo documento Top Secret ingresa al pipeline, toda la estacion de trabajo se trata como un sistema Top Secret.

    Requisitos de Arquitectura Air-Gap

    Un entorno air-gapped no es simplemente una maquina con WiFi desactivado. El verdadero aislamiento air-gap requiere separacion fisica verificada de todas las redes.

    Configuracion de Hardware

    La estacion de trabajo de procesamiento debe cumplir con la siguiente linea base:

    • Sin hardware inalambrico. Las tarjetas WiFi, modulos Bluetooth y modems celulares deben ser fisicamente removidos (no solo deshabilitados por software). La deshabilitacion a nivel de BIOS es insuficiente para niveles de clasificacion superiores.
    • Sin interfaz de red. Los puertos Ethernet deben ser fisicamente desconectados o la NIC removida completamente. Para entornos TEMPEST, el sistema no debe tener hardware de red instalado.
    • Control de puertos USB. Solo dispositivos de medios extraibles autorizados e inventariados pueden conectarse. Los puertos USB no necesarios para perifericos autorizados deben ser fisicamente bloqueados o sellados con epoxi.
    • Aislamiento de audio/video. Los microfonos y camaras deben ser fisicamente removidos. La salida de altavoces debe deshabilitarse a nivel de hardware para entornos TEMPEST.
    • Endurecimiento de BIOS. Orden de arranque bloqueado solo al disco interno. Contrasena de BIOS establecida. Arranque seguro habilitado donde sea compatible.

    Stack de Software

    El entorno de procesamiento debe ser autocontenido con cero dependencias externas en tiempo de ejecucion.

    ComponenteRequisitoPor que
    Sistema OperativoLinux endurecido (SELinux en modo enforcing) o Windows aprobado con STIG aplicadoMinimizar superficie de ataque, aplicar controles de acceso obligatorios
    Herramienta de pipeline de datosAplicacion nativa, sin runtime de contenedores, sin llamadas a gestores de paquetesLos contenedores pueden intentar pulls de registro; los gestores de paquetes necesitan red
    Bibliotecas ML/NLPPre-instaladas, version fija, integridad verificadaSin pip install, sin npm install, sin descargas en tiempo de ejecucion
    Parsers de documentosIncluidos con la aplicacion, sin llamadas a servicios externosEl analisis de PDF no debe llamar a APIs de Adobe ni OCR en la nube
    Modelos de embeddingsArchivos de modelo locales, sin llamadas APILa generacion de embeddings debe ejecutarse completamente en el dispositivo

    Ertas Data Suite cumple con estos requisitos como una aplicacion de escritorio nativa construida sobre Tauri (Rust + React). Incluye todos los parsers, logica de procesamiento e interfaz de usuario en un unico binario instalable. Sin Docker, sin runtime de contenedores, sin servicios de red. En tiempo de ejecucion, no abre puertos de escucha ni realiza conexiones salientes.

    Lista de Verificacion de Air-Gap

    Antes de procesar documentos clasificados, el air-gap debe ser verificado. Esta lista de verificacion debe ser completada por el administrador del sistema y revisada por el oficial de seguridad.

    VerificacionMetodoCriterio de Aprobacion
    Sin hardware de red presenteInspeccion fisica + auditoria lspci/lsusbCero controladores de red listados
    Sin radios inalambricosInspeccion fisica de placa madre, ranuras de expansionTodos los modulos inalambricos fisicamente removidos
    Puertos USB controladosInspeccion fisicaPuertos no autorizados bloqueados; puertos autorizados inventariados
    Sin capacidad de conexion salienteIntentar ping, busqueda DNS, curl desde terminalTodos fallan con "network unreachable" (no timeout)
    Sin servicios de escuchass -tulnp o equivalente netstatCero puertos de escucha
    Integridad de la aplicacionHash SHA-256 de la aplicacion instalada coincide con hash conocidoCoincidencia de hash confirmada
    Endurecimiento de SO aplicadoEscaneo de cumplimiento STIG o equivalenteTodos los controles aplicables aprobados
    Registro de auditoria activoVerificar que syslog/auditd esta ejecutandose y escribiendo en almacenamiento localEntradas de registro siendo generadas

    Esta verificacion debe repetirse despues de cualquier cambio de hardware, actualizacion de software o evento de mantenimiento. Documente cada verificacion con fecha, operador y firma del oficial de seguridad.

    Patrones de Flujo de Trabajo Aprobados

    Patron 1: Pipeline de Documento a Datos de Entrenamiento

    Este es el flujo de trabajo principal — convertir un corpus de documentos clasificados en datos de entrenamiento NLP estructurados.

    Importacion de Medios Autorizados
            |
       File Import (PDF, Word, imagenes escaneadas)
            |
       Analisis de Documentos (extraccion de texto, analisis de diseno)
            |
       Limpieza (deduplicacion, normalizacion de formato)
            |
       Redaccion de PII/Marcas de Clasificacion
            |
       Puntuacion de Calidad
            |
       Anotacion (NER, etiquetas de clasificacion, pares de preguntas y respuestas)
            |
       Division Train/Val/Test
            |
       Exportacion JSONL
            |
       Exportacion de Medios Autorizados (bajo revision)
    

    En Ertas, esto se mapea directamente al grafo de nodos: File Import, PDF Parser (o Word/Image Parser), Deduplicator, Format Normalizer, PII Redactor, Quality Scorer, Train/Val/Test Splitter y JSONL Exporter. Cada nodo produce una salida intermedia observable. Los revisores de seguridad pueden inspeccionar los datos en cualquier etapa antes de que avancen a la siguiente.

    Restriccion clave: El archivo JSONL exportado esta clasificado al mismo nivel que los documentos fuente. Debe manejarse, almacenarse y transferirse segun los requisitos de ese nivel de clasificacion.

    Patron 2: Construccion de Base de Conocimiento (RAG)

    Construir una base de conocimiento buscable a partir de documentos clasificados para uso por sistemas de IA autorizados dentro del mismo enclave de seguridad.

    Importacion de Medios Autorizados
            |
       File Import → Parser → PII Redactor
            |
       RAG Chunker → Embedding (modelo local) → Vector Store Writer
            |
       [Base de conocimiento almacenada localmente en sistema clasificado]
            |
       API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
            |
       [Endpoint de recuperacion accesible solo dentro del enclave air-gapped]
    

    El pipeline RAG de Ertas se ejecuta completamente en local. La generacion de embeddings usa un modelo local (sin llamadas API). El almacen de vectores es un archivo local. El endpoint API de recuperacion escucha solo en localhost — accesible para otras aplicaciones en la misma maquina pero no para ninguna red.

    Patron 3: Degradacion Cross-Domain

    Cuando los datos de entrenamiento NLP preparados a partir de fuentes clasificadas necesitan moverse a un entorno de menor clasificacion (por ejemplo, usar datos de entrenamiento redactados en un cluster de entrenamiento de modelos no clasificado), el pipeline debe incluir una revision formal de degradacion.

    Esto no es un problema de tecnologia — es un problema de proceso. El rol del pipeline es producir una salida limpia y completamente redactada, y proporcionar el rastro de auditoria que los revisores humanos necesitan para autorizar la transferencia cross-domain.

    Ertas soporta esto generando un registro de procesamiento completo: cada documento ingerido, cada transformacion aplicada, cada redaccion realizada, con marcas de tiempo y checksums. Este registro es el artefacto que los revisores examinan durante el proceso de autorizacion de degradacion.

    Tipos de Documentos y Consideraciones de Analisis

    Los corpus de documentos clasificados tipicamente incluyen:

    Tipo de DocumentoDesafio de AnalisisEnfoque Ertas
    Informes mecanografiados (PDF)Marcas de clasificacion en encabezados/pies de pagina, marcas de porcion en lineaPDF Parser extrae texto; PII Redactor configurado para patrones de marcas de clasificacion
    Documentos escaneadosLa precision del OCR varia con la calidad del escaneo; anotaciones manuscritasImage Parser con OCR local; Quality Scorer marca extracciones de baja confianza
    Manuales tecnicosTablas complejas, diagramas con anotaciones, disenos multicolumnaPDF Parser con analisis de diseno; extraccion estructurada preserva formato de tablas
    Archivos de correo electronico (PST/MBOX)Hilos anidados, adjuntos, cadenas reenviadas con clasificacion mixtaFile Import maneja formatos de archivo; Deduplicator resuelve duplicados reenviados
    PresentacionesTexto con vinetas, graficos incrustados, notas del presentadorPowerPoint Parser extrae texto de diapositivas y notas por separado

    Manejo de Marcas de Clasificacion

    Los documentos clasificados contienen marcas de porcion — indicadores de clasificacion en parrafos individuales, como "(S)" para Secret o "(U)" para Unclassified. El pipeline debe:

    1. Detectar y analizar marcas de porcion durante la extraccion de texto
    2. Etiquetar cada segmento de texto con su nivel de clasificacion
    3. Habilitar filtrado por nivel de clasificacion durante la exportacion (por ejemplo, extraer solo porciones "(U)" para un conjunto de entrenamiento de menor clasificacion)

    El nodo PII Redactor puede configurarse para reconocer patrones estandar de marcas de porcion y preservarlos como metadatos o redactarlos dependiendo del caso de uso posterior.

    Consideraciones de Seguridad Operativa

    Manejo de medios. Todos los medios extraibles utilizados para transferir datos dentro o fuera del entorno air-gapped deben inventariarse, rastrearse y desmagnetizarse o destruirse despues del uso. Nunca reutilice medios entre niveles de clasificacion.

    Captura de pantalla y fotografia. La estacion de trabajo no debe tener capacidad de captura de pantalla. La fotografia de la pantalla esta prohibida. Ertas no incluye ninguna funcionalidad de grabacion de pantalla o captura de pantalla.

    Mantenimiento y actualizaciones. Las actualizaciones de software en la estacion de trabajo air-gapped requieren los mismos protocolos de transferencia de medios que los datos clasificados. Obtenga el paquete de actualizacion de Ertas en medios limpios, verifique su hash contra un valor conocido publicado a traves de un canal separado, e instale sin conectividad de red.

    Acceso de personal. Solo personal con autorizacion y necesidad de conocimiento debe tener acceso fisico a la estacion de trabajo de procesamiento. Registre todo acceso con registros de entrada/salida con credencial.

    Observabilidad del Pipeline Sin Red

    El monitoreo tradicional de pipelines asume un dashboard accesible a traves de la red. En un entorno air-gapped, la observabilidad es local.

    Ertas proporciona observabilidad del pipeline directamente en su interfaz de escritorio. Cada nodo en el grafo del pipeline muestra su estado de procesamiento, conteos de registros, tasas de error y vistas previas de salida. El registro completo de ejecucion se escribe en un archivo local que puede revisarse en la misma maquina o exportarse en medios autorizados para revision de cumplimiento.

    Sin monitoreo basado en red, sin dashboards en la nube, sin telemetria. Todo permanece en la maquina.

    Primeros Pasos

    El procesamiento de documentos clasificados para NLP esta restringido por requisitos de seguridad que eliminan la mayoria de las herramientas comerciales de consideracion. La herramienta debe ser una aplicacion nativa, completamente autocontenida, con cero dependencias de red y observabilidad local completa.

    Ertas Data Suite fue construido para exactamente este modelo operativo. Un unico binario instalable que se ejecuta en una estacion de trabajo endurecida, procesa documentos a traves de un pipeline visual y produce datos de entrenamiento listos para IA — todo sin abrir una sola conexion de red. Cada transformacion se registra localmente, cada salida intermedia es inspeccionable, y todo el pipeline es auditable por su oficial de seguridad.

    Los documentos clasificados contienen el conocimiento de dominio que sus modelos NLP necesitan. Ertas proporciona el pipeline para extraerlo de forma segura.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading