
Procesamiento de Documentos Clasificados para NLP en Entornos Air-Gapped
Guia de arquitectura y operaciones para preparar documentos clasificados como datos de entrenamiento NLP en entornos completamente air-gapped. Cubre requisitos de seguridad, patrones de flujo de trabajo aprobados, verificacion de air-gap y diseno de pipeline para procesamiento de documentos sensibles.
Construir modelos NLP a partir de documentos clasificados es un problema que la mayoria de las herramientas de IA nunca fueron disenadas para resolver. Las plataformas comerciales de preparacion de datos asumen conectividad de red — para actualizaciones, para almacenamiento en la nube, para telemetria. Los entornos clasificados asumen lo contrario: la maquina que procesa los datos debe tener cero conectividad de red, verificable y auditable.
Esto crea una brecha fundamental en las herramientas. Las organizaciones que procesan documentos clasificados para datos de entrenamiento NLP necesitan un pipeline que maneje analisis de documentos, extraccion de texto, limpieza, anotacion y exportacion — todo ejecutandose en una sola maquina sin stack de red, sin conexiones salientes y sin dependencias ocultas que se comuniquen con servidores externos.
Este manual cubre la arquitectura, los requisitos de seguridad y los patrones de flujo de trabajo para preparar documentos clasificados como datos de entrenamiento NLP en entornos air-gapped.
Niveles de Clasificacion de Seguridad y Manejo de Datos
Diferentes niveles de clasificacion imponen diferentes restricciones fisicas y operativas en el entorno de procesamiento de datos.
| Clasificacion | Requisitos Fisicos | Personal | Transferencia de Datos |
|---|---|---|---|
| CUI (Informacion No Clasificada Controlada) | Sala cerrada, estacion de trabajo con acceso controlado | Personal con autorizacion, base de necesidad de conocimiento | Medios extraibles cifrados con registro |
| Secret | SCIF o equivalente, equipo con clasificacion TEMPEST | Autorizacion Secret activa | Solucion cross-domain (CDS) o revision manual + sneakernet |
| Top Secret / SCI | SCIF, cumplimiento TEMPEST completo, blindaje RF | Autorizacion TS/SCI activa | CDS con aprobacion multipersona, o medios fisicos bajo escolta |
La plataforma de pipeline de datos debe operar al nivel de clasificacion mas alto de cualquier documento que procese. Si un solo documento Top Secret ingresa al pipeline, toda la estacion de trabajo se trata como un sistema Top Secret.
Requisitos de Arquitectura Air-Gap
Un entorno air-gapped no es simplemente una maquina con WiFi desactivado. El verdadero aislamiento air-gap requiere separacion fisica verificada de todas las redes.
Configuracion de Hardware
La estacion de trabajo de procesamiento debe cumplir con la siguiente linea base:
- Sin hardware inalambrico. Las tarjetas WiFi, modulos Bluetooth y modems celulares deben ser fisicamente removidos (no solo deshabilitados por software). La deshabilitacion a nivel de BIOS es insuficiente para niveles de clasificacion superiores.
- Sin interfaz de red. Los puertos Ethernet deben ser fisicamente desconectados o la NIC removida completamente. Para entornos TEMPEST, el sistema no debe tener hardware de red instalado.
- Control de puertos USB. Solo dispositivos de medios extraibles autorizados e inventariados pueden conectarse. Los puertos USB no necesarios para perifericos autorizados deben ser fisicamente bloqueados o sellados con epoxi.
- Aislamiento de audio/video. Los microfonos y camaras deben ser fisicamente removidos. La salida de altavoces debe deshabilitarse a nivel de hardware para entornos TEMPEST.
- Endurecimiento de BIOS. Orden de arranque bloqueado solo al disco interno. Contrasena de BIOS establecida. Arranque seguro habilitado donde sea compatible.
Stack de Software
El entorno de procesamiento debe ser autocontenido con cero dependencias externas en tiempo de ejecucion.
| Componente | Requisito | Por que |
|---|---|---|
| Sistema Operativo | Linux endurecido (SELinux en modo enforcing) o Windows aprobado con STIG aplicado | Minimizar superficie de ataque, aplicar controles de acceso obligatorios |
| Herramienta de pipeline de datos | Aplicacion nativa, sin runtime de contenedores, sin llamadas a gestores de paquetes | Los contenedores pueden intentar pulls de registro; los gestores de paquetes necesitan red |
| Bibliotecas ML/NLP | Pre-instaladas, version fija, integridad verificada | Sin pip install, sin npm install, sin descargas en tiempo de ejecucion |
| Parsers de documentos | Incluidos con la aplicacion, sin llamadas a servicios externos | El analisis de PDF no debe llamar a APIs de Adobe ni OCR en la nube |
| Modelos de embeddings | Archivos de modelo locales, sin llamadas API | La generacion de embeddings debe ejecutarse completamente en el dispositivo |
Ertas Data Suite cumple con estos requisitos como una aplicacion de escritorio nativa construida sobre Tauri (Rust + React). Incluye todos los parsers, logica de procesamiento e interfaz de usuario en un unico binario instalable. Sin Docker, sin runtime de contenedores, sin servicios de red. En tiempo de ejecucion, no abre puertos de escucha ni realiza conexiones salientes.
Lista de Verificacion de Air-Gap
Antes de procesar documentos clasificados, el air-gap debe ser verificado. Esta lista de verificacion debe ser completada por el administrador del sistema y revisada por el oficial de seguridad.
| Verificacion | Metodo | Criterio de Aprobacion |
|---|---|---|
| Sin hardware de red presente | Inspeccion fisica + auditoria lspci/lsusb | Cero controladores de red listados |
| Sin radios inalambricos | Inspeccion fisica de placa madre, ranuras de expansion | Todos los modulos inalambricos fisicamente removidos |
| Puertos USB controlados | Inspeccion fisica | Puertos no autorizados bloqueados; puertos autorizados inventariados |
| Sin capacidad de conexion saliente | Intentar ping, busqueda DNS, curl desde terminal | Todos fallan con "network unreachable" (no timeout) |
| Sin servicios de escucha | ss -tulnp o equivalente netstat | Cero puertos de escucha |
| Integridad de la aplicacion | Hash SHA-256 de la aplicacion instalada coincide con hash conocido | Coincidencia de hash confirmada |
| Endurecimiento de SO aplicado | Escaneo de cumplimiento STIG o equivalente | Todos los controles aplicables aprobados |
| Registro de auditoria activo | Verificar que syslog/auditd esta ejecutandose y escribiendo en almacenamiento local | Entradas de registro siendo generadas |
Esta verificacion debe repetirse despues de cualquier cambio de hardware, actualizacion de software o evento de mantenimiento. Documente cada verificacion con fecha, operador y firma del oficial de seguridad.
Patrones de Flujo de Trabajo Aprobados
Patron 1: Pipeline de Documento a Datos de Entrenamiento
Este es el flujo de trabajo principal — convertir un corpus de documentos clasificados en datos de entrenamiento NLP estructurados.
Importacion de Medios Autorizados
|
File Import (PDF, Word, imagenes escaneadas)
|
Analisis de Documentos (extraccion de texto, analisis de diseno)
|
Limpieza (deduplicacion, normalizacion de formato)
|
Redaccion de PII/Marcas de Clasificacion
|
Puntuacion de Calidad
|
Anotacion (NER, etiquetas de clasificacion, pares de preguntas y respuestas)
|
Division Train/Val/Test
|
Exportacion JSONL
|
Exportacion de Medios Autorizados (bajo revision)
En Ertas, esto se mapea directamente al grafo de nodos: File Import, PDF Parser (o Word/Image Parser), Deduplicator, Format Normalizer, PII Redactor, Quality Scorer, Train/Val/Test Splitter y JSONL Exporter. Cada nodo produce una salida intermedia observable. Los revisores de seguridad pueden inspeccionar los datos en cualquier etapa antes de que avancen a la siguiente.
Restriccion clave: El archivo JSONL exportado esta clasificado al mismo nivel que los documentos fuente. Debe manejarse, almacenarse y transferirse segun los requisitos de ese nivel de clasificacion.
Patron 2: Construccion de Base de Conocimiento (RAG)
Construir una base de conocimiento buscable a partir de documentos clasificados para uso por sistemas de IA autorizados dentro del mismo enclave de seguridad.
Importacion de Medios Autorizados
|
File Import → Parser → PII Redactor
|
RAG Chunker → Embedding (modelo local) → Vector Store Writer
|
[Base de conocimiento almacenada localmente en sistema clasificado]
|
API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
|
[Endpoint de recuperacion accesible solo dentro del enclave air-gapped]
El pipeline RAG de Ertas se ejecuta completamente en local. La generacion de embeddings usa un modelo local (sin llamadas API). El almacen de vectores es un archivo local. El endpoint API de recuperacion escucha solo en localhost — accesible para otras aplicaciones en la misma maquina pero no para ninguna red.
Patron 3: Degradacion Cross-Domain
Cuando los datos de entrenamiento NLP preparados a partir de fuentes clasificadas necesitan moverse a un entorno de menor clasificacion (por ejemplo, usar datos de entrenamiento redactados en un cluster de entrenamiento de modelos no clasificado), el pipeline debe incluir una revision formal de degradacion.
Esto no es un problema de tecnologia — es un problema de proceso. El rol del pipeline es producir una salida limpia y completamente redactada, y proporcionar el rastro de auditoria que los revisores humanos necesitan para autorizar la transferencia cross-domain.
Ertas soporta esto generando un registro de procesamiento completo: cada documento ingerido, cada transformacion aplicada, cada redaccion realizada, con marcas de tiempo y checksums. Este registro es el artefacto que los revisores examinan durante el proceso de autorizacion de degradacion.
Tipos de Documentos y Consideraciones de Analisis
Los corpus de documentos clasificados tipicamente incluyen:
| Tipo de Documento | Desafio de Analisis | Enfoque Ertas |
|---|---|---|
| Informes mecanografiados (PDF) | Marcas de clasificacion en encabezados/pies de pagina, marcas de porcion en linea | PDF Parser extrae texto; PII Redactor configurado para patrones de marcas de clasificacion |
| Documentos escaneados | La precision del OCR varia con la calidad del escaneo; anotaciones manuscritas | Image Parser con OCR local; Quality Scorer marca extracciones de baja confianza |
| Manuales tecnicos | Tablas complejas, diagramas con anotaciones, disenos multicolumna | PDF Parser con analisis de diseno; extraccion estructurada preserva formato de tablas |
| Archivos de correo electronico (PST/MBOX) | Hilos anidados, adjuntos, cadenas reenviadas con clasificacion mixta | File Import maneja formatos de archivo; Deduplicator resuelve duplicados reenviados |
| Presentaciones | Texto con vinetas, graficos incrustados, notas del presentador | PowerPoint Parser extrae texto de diapositivas y notas por separado |
Manejo de Marcas de Clasificacion
Los documentos clasificados contienen marcas de porcion — indicadores de clasificacion en parrafos individuales, como "(S)" para Secret o "(U)" para Unclassified. El pipeline debe:
- Detectar y analizar marcas de porcion durante la extraccion de texto
- Etiquetar cada segmento de texto con su nivel de clasificacion
- Habilitar filtrado por nivel de clasificacion durante la exportacion (por ejemplo, extraer solo porciones "(U)" para un conjunto de entrenamiento de menor clasificacion)
El nodo PII Redactor puede configurarse para reconocer patrones estandar de marcas de porcion y preservarlos como metadatos o redactarlos dependiendo del caso de uso posterior.
Consideraciones de Seguridad Operativa
Manejo de medios. Todos los medios extraibles utilizados para transferir datos dentro o fuera del entorno air-gapped deben inventariarse, rastrearse y desmagnetizarse o destruirse despues del uso. Nunca reutilice medios entre niveles de clasificacion.
Captura de pantalla y fotografia. La estacion de trabajo no debe tener capacidad de captura de pantalla. La fotografia de la pantalla esta prohibida. Ertas no incluye ninguna funcionalidad de grabacion de pantalla o captura de pantalla.
Mantenimiento y actualizaciones. Las actualizaciones de software en la estacion de trabajo air-gapped requieren los mismos protocolos de transferencia de medios que los datos clasificados. Obtenga el paquete de actualizacion de Ertas en medios limpios, verifique su hash contra un valor conocido publicado a traves de un canal separado, e instale sin conectividad de red.
Acceso de personal. Solo personal con autorizacion y necesidad de conocimiento debe tener acceso fisico a la estacion de trabajo de procesamiento. Registre todo acceso con registros de entrada/salida con credencial.
Observabilidad del Pipeline Sin Red
El monitoreo tradicional de pipelines asume un dashboard accesible a traves de la red. En un entorno air-gapped, la observabilidad es local.
Ertas proporciona observabilidad del pipeline directamente en su interfaz de escritorio. Cada nodo en el grafo del pipeline muestra su estado de procesamiento, conteos de registros, tasas de error y vistas previas de salida. El registro completo de ejecucion se escribe en un archivo local que puede revisarse en la misma maquina o exportarse en medios autorizados para revision de cumplimiento.
Sin monitoreo basado en red, sin dashboards en la nube, sin telemetria. Todo permanece en la maquina.
Primeros Pasos
El procesamiento de documentos clasificados para NLP esta restringido por requisitos de seguridad que eliminan la mayoria de las herramientas comerciales de consideracion. La herramienta debe ser una aplicacion nativa, completamente autocontenida, con cero dependencias de red y observabilidad local completa.
Ertas Data Suite fue construido para exactamente este modelo operativo. Un unico binario instalable que se ejecuta en una estacion de trabajo endurecida, procesa documentos a traves de un pipeline visual y produce datos de entrenamiento listos para IA — todo sin abrir una sola conexion de red. Cada transformacion se registra localmente, cada salida intermedia es inspeccionable, y todo el pipeline es auditable por su oficial de seguridad.
Los documentos clasificados contienen el conocimiento de dominio que sus modelos NLP necesitan. Ertas proporciona el pipeline para extraerlo de forma segura.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

ITAR-Compliant AI Training Data Pipelines for Defense Contractors
A compliance-focused guide to building AI training data pipelines that satisfy ITAR export control requirements. Covers the ITAR compliance matrix, pipeline architecture for controlled technical data, audit requirements, and on-premise deployment for defense contractors.

AI Data Preparation for Government Agencies: Security Classifications and Air-Gapped Requirements
How government and defense agencies can prepare classified and sensitive data for AI model training in air-gapped environments — covering CMMC, FedRAMP, ITAR, and security classification handling.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.