Procesamiento de Documentos Clasificados para NLP en Entornos Air-Gapped

Construir modelos NLP a partir de documentos clasificados es un problema que la mayoria de las herramientas de IA nunca fueron disenadas para resolver. Las plataformas comerciales de preparacion de datos asumen conectividad de red — para actualizaciones, para almacenamiento en la nube, para telemetria. Los entornos clasificados asumen lo contrario: la maquina que procesa los datos debe tener cero conectividad de red, verificable y auditable.

Esto crea una brecha fundamental en las herramientas. Las organizaciones que procesan documentos clasificados para datos de entrenamiento NLP necesitan un pipeline que maneje analisis de documentos, extraccion de texto, limpieza, anotacion y exportacion — todo ejecutandose en una sola maquina sin stack de red, sin conexiones salientes y sin dependencias ocultas que se comuniquen con servidores externos.

Este manual cubre la arquitectura, los requisitos de seguridad y los patrones de flujo de trabajo para preparar documentos clasificados como datos de entrenamiento NLP en entornos air-gapped.

Niveles de Clasificacion de Seguridad y Manejo de Datos

Diferentes niveles de clasificacion imponen diferentes restricciones fisicas y operativas en el entorno de procesamiento de datos.

Clasificacion	Requisitos Fisicos	Personal	Transferencia de Datos
CUI (Informacion No Clasificada Controlada)	Sala cerrada, estacion de trabajo con acceso controlado	Personal con autorizacion, base de necesidad de conocimiento	Medios extraibles cifrados con registro
Secret	SCIF o equivalente, equipo con clasificacion TEMPEST	Autorizacion Secret activa	Solucion cross-domain (CDS) o revision manual + sneakernet
Top Secret / SCI	SCIF, cumplimiento TEMPEST completo, blindaje RF	Autorizacion TS/SCI activa	CDS con aprobacion multipersona, o medios fisicos bajo escolta

La plataforma de pipeline de datos debe operar al nivel de clasificacion mas alto de cualquier documento que procese. Si un solo documento Top Secret ingresa al pipeline, toda la estacion de trabajo se trata como un sistema Top Secret.

Requisitos de Arquitectura Air-Gap

Un entorno air-gapped no es simplemente una maquina con WiFi desactivado. El verdadero aislamiento air-gap requiere separacion fisica verificada de todas las redes.

Configuracion de Hardware

La estacion de trabajo de procesamiento debe cumplir con la siguiente linea base:

Sin hardware inalambrico. Las tarjetas WiFi, modulos Bluetooth y modems celulares deben ser fisicamente removidos (no solo deshabilitados por software). La deshabilitacion a nivel de BIOS es insuficiente para niveles de clasificacion superiores.
Sin interfaz de red. Los puertos Ethernet deben ser fisicamente desconectados o la NIC removida completamente. Para entornos TEMPEST, el sistema no debe tener hardware de red instalado.
Control de puertos USB. Solo dispositivos de medios extraibles autorizados e inventariados pueden conectarse. Los puertos USB no necesarios para perifericos autorizados deben ser fisicamente bloqueados o sellados con epoxi.
Aislamiento de audio/video. Los microfonos y camaras deben ser fisicamente removidos. La salida de altavoces debe deshabilitarse a nivel de hardware para entornos TEMPEST.
Endurecimiento de BIOS. Orden de arranque bloqueado solo al disco interno. Contrasena de BIOS establecida. Arranque seguro habilitado donde sea compatible.

Stack de Software

El entorno de procesamiento debe ser autocontenido con cero dependencias externas en tiempo de ejecucion.

Componente	Requisito	Por que
Sistema Operativo	Linux endurecido (SELinux en modo enforcing) o Windows aprobado con STIG aplicado	Minimizar superficie de ataque, aplicar controles de acceso obligatorios
Herramienta de pipeline de datos	Aplicacion nativa, sin runtime de contenedores, sin llamadas a gestores de paquetes	Los contenedores pueden intentar pulls de registro; los gestores de paquetes necesitan red
Bibliotecas ML/NLP	Pre-instaladas, version fija, integridad verificada	Sin pip install, sin npm install, sin descargas en tiempo de ejecucion
Parsers de documentos	Incluidos con la aplicacion, sin llamadas a servicios externos	El analisis de PDF no debe llamar a APIs de Adobe ni OCR en la nube
Modelos de embeddings	Archivos de modelo locales, sin llamadas API	La generacion de embeddings debe ejecutarse completamente en el dispositivo

Ertas Data Suite cumple con estos requisitos como una aplicacion de escritorio nativa construida sobre Tauri (Rust + React). Incluye todos los parsers, logica de procesamiento e interfaz de usuario en un unico binario instalable. Sin Docker, sin runtime de contenedores, sin servicios de red. En tiempo de ejecucion, no abre puertos de escucha ni realiza conexiones salientes.

Lista de Verificacion de Air-Gap

Antes de procesar documentos clasificados, el air-gap debe ser verificado. Esta lista de verificacion debe ser completada por el administrador del sistema y revisada por el oficial de seguridad.

Verificacion	Metodo	Criterio de Aprobacion
Sin hardware de red presente	Inspeccion fisica + auditoria lspci/lsusb	Cero controladores de red listados
Sin radios inalambricos	Inspeccion fisica de placa madre, ranuras de expansion	Todos los modulos inalambricos fisicamente removidos
Puertos USB controlados	Inspeccion fisica	Puertos no autorizados bloqueados; puertos autorizados inventariados
Sin capacidad de conexion saliente	Intentar ping, busqueda DNS, curl desde terminal	Todos fallan con "network unreachable" (no timeout)
Sin servicios de escucha	ss -tulnp o equivalente netstat	Cero puertos de escucha
Integridad de la aplicacion	Hash SHA-256 de la aplicacion instalada coincide con hash conocido	Coincidencia de hash confirmada
Endurecimiento de SO aplicado	Escaneo de cumplimiento STIG o equivalente	Todos los controles aplicables aprobados
Registro de auditoria activo	Verificar que syslog/auditd esta ejecutandose y escribiendo en almacenamiento local	Entradas de registro siendo generadas

Esta verificacion debe repetirse despues de cualquier cambio de hardware, actualizacion de software o evento de mantenimiento. Documente cada verificacion con fecha, operador y firma del oficial de seguridad.

Patrones de Flujo de Trabajo Aprobados

Patron 1: Pipeline de Documento a Datos de Entrenamiento

Este es el flujo de trabajo principal — convertir un corpus de documentos clasificados en datos de entrenamiento NLP estructurados.

Importacion de Medios Autorizados
        |
   File Import (PDF, Word, imagenes escaneadas)
        |
   Analisis de Documentos (extraccion de texto, analisis de diseno)
        |
   Limpieza (deduplicacion, normalizacion de formato)
        |
   Redaccion de PII/Marcas de Clasificacion
        |
   Puntuacion de Calidad
        |
   Anotacion (NER, etiquetas de clasificacion, pares de preguntas y respuestas)
        |
   Division Train/Val/Test
        |
   Exportacion JSONL
        |
   Exportacion de Medios Autorizados (bajo revision)

En Ertas, esto se mapea directamente al grafo de nodos: File Import, PDF Parser (o Word/Image Parser), Deduplicator, Format Normalizer, PII Redactor, Quality Scorer, Train/Val/Test Splitter y JSONL Exporter. Cada nodo produce una salida intermedia observable. Los revisores de seguridad pueden inspeccionar los datos en cualquier etapa antes de que avancen a la siguiente.

Restriccion clave: El archivo JSONL exportado esta clasificado al mismo nivel que los documentos fuente. Debe manejarse, almacenarse y transferirse segun los requisitos de ese nivel de clasificacion.

Patron 2: Construccion de Base de Conocimiento (RAG)

Construir una base de conocimiento buscable a partir de documentos clasificados para uso por sistemas de IA autorizados dentro del mismo enclave de seguridad.

Importacion de Medios Autorizados
        |
   File Import → Parser → PII Redactor
        |
   RAG Chunker → Embedding (modelo local) → Vector Store Writer
        |
   [Base de conocimiento almacenada localmente en sistema clasificado]
        |
   API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
        |
   [Endpoint de recuperacion accesible solo dentro del enclave air-gapped]

El pipeline RAG de Ertas se ejecuta completamente en local. La generacion de embeddings usa un modelo local (sin llamadas API). El almacen de vectores es un archivo local. El endpoint API de recuperacion escucha solo en localhost — accesible para otras aplicaciones en la misma maquina pero no para ninguna red.

Patron 3: Degradacion Cross-Domain

Cuando los datos de entrenamiento NLP preparados a partir de fuentes clasificadas necesitan moverse a un entorno de menor clasificacion (por ejemplo, usar datos de entrenamiento redactados en un cluster de entrenamiento de modelos no clasificado), el pipeline debe incluir una revision formal de degradacion.

Esto no es un problema de tecnologia — es un problema de proceso. El rol del pipeline es producir una salida limpia y completamente redactada, y proporcionar el rastro de auditoria que los revisores humanos necesitan para autorizar la transferencia cross-domain.

Ertas soporta esto generando un registro de procesamiento completo: cada documento ingerido, cada transformacion aplicada, cada redaccion realizada, con marcas de tiempo y checksums. Este registro es el artefacto que los revisores examinan durante el proceso de autorizacion de degradacion.

Tipos de Documentos y Consideraciones de Analisis

Los corpus de documentos clasificados tipicamente incluyen:

Tipo de Documento	Desafio de Analisis	Enfoque Ertas
Informes mecanografiados (PDF)	Marcas de clasificacion en encabezados/pies de pagina, marcas de porcion en linea	PDF Parser extrae texto; PII Redactor configurado para patrones de marcas de clasificacion
Documentos escaneados	La precision del OCR varia con la calidad del escaneo; anotaciones manuscritas	Image Parser con OCR local; Quality Scorer marca extracciones de baja confianza
Manuales tecnicos	Tablas complejas, diagramas con anotaciones, disenos multicolumna	PDF Parser con analisis de diseno; extraccion estructurada preserva formato de tablas
Archivos de correo electronico (PST/MBOX)	Hilos anidados, adjuntos, cadenas reenviadas con clasificacion mixta	File Import maneja formatos de archivo; Deduplicator resuelve duplicados reenviados
Presentaciones	Texto con vinetas, graficos incrustados, notas del presentador	PowerPoint Parser extrae texto de diapositivas y notas por separado

Manejo de Marcas de Clasificacion

Los documentos clasificados contienen marcas de porcion — indicadores de clasificacion en parrafos individuales, como "(S)" para Secret o "(U)" para Unclassified. El pipeline debe:

Detectar y analizar marcas de porcion durante la extraccion de texto
Etiquetar cada segmento de texto con su nivel de clasificacion
Habilitar filtrado por nivel de clasificacion durante la exportacion (por ejemplo, extraer solo porciones "(U)" para un conjunto de entrenamiento de menor clasificacion)

El nodo PII Redactor puede configurarse para reconocer patrones estandar de marcas de porcion y preservarlos como metadatos o redactarlos dependiendo del caso de uso posterior.

Consideraciones de Seguridad Operativa

Manejo de medios. Todos los medios extraibles utilizados para transferir datos dentro o fuera del entorno air-gapped deben inventariarse, rastrearse y desmagnetizarse o destruirse despues del uso. Nunca reutilice medios entre niveles de clasificacion.

Captura de pantalla y fotografia. La estacion de trabajo no debe tener capacidad de captura de pantalla. La fotografia de la pantalla esta prohibida. Ertas no incluye ninguna funcionalidad de grabacion de pantalla o captura de pantalla.

Mantenimiento y actualizaciones. Las actualizaciones de software en la estacion de trabajo air-gapped requieren los mismos protocolos de transferencia de medios que los datos clasificados. Obtenga el paquete de actualizacion de Ertas en medios limpios, verifique su hash contra un valor conocido publicado a traves de un canal separado, e instale sin conectividad de red.

Acceso de personal. Solo personal con autorizacion y necesidad de conocimiento debe tener acceso fisico a la estacion de trabajo de procesamiento. Registre todo acceso con registros de entrada/salida con credencial.

Observabilidad del Pipeline Sin Red

El monitoreo tradicional de pipelines asume un dashboard accesible a traves de la red. En un entorno air-gapped, la observabilidad es local.

Ertas proporciona observabilidad del pipeline directamente en su interfaz de escritorio. Cada nodo en el grafo del pipeline muestra su estado de procesamiento, conteos de registros, tasas de error y vistas previas de salida. El registro completo de ejecucion se escribe en un archivo local que puede revisarse en la misma maquina o exportarse en medios autorizados para revision de cumplimiento.

Sin monitoreo basado en red, sin dashboards en la nube, sin telemetria. Todo permanece en la maquina.

Primeros Pasos

El procesamiento de documentos clasificados para NLP esta restringido por requisitos de seguridad que eliminan la mayoria de las herramientas comerciales de consideracion. La herramienta debe ser una aplicacion nativa, completamente autocontenida, con cero dependencias de red y observabilidad local completa.

Ertas Data Suite fue construido para exactamente este modelo operativo. Un unico binario instalable que se ejecuta en una estacion de trabajo endurecida, procesa documentos a traves de un pipeline visual y produce datos de entrenamiento listos para IA — todo sin abrir una sola conexion de red. Cada transformacion se registra localmente, cada salida intermedia es inspeccionable, y todo el pipeline es auditable por su oficial de seguridad.

Los documentos clasificados contienen el conocimiento de dominio que sus modelos NLP necesitan. Ertas proporciona el pipeline para extraerlo de forma segura.