
Preparación de datos de IA para agencias gubernamentales: clasificaciones de seguridad y requisitos air-gapped
Cómo las agencias gubernamentales y de defensa pueden preparar datos clasificados y sensibles para entrenamiento de modelos de IA en entornos air-gapped — cubriendo CMMC, FedRAMP, ITAR y manejo de clasificaciones de seguridad.
Las agencias gubernamentales y de defensa están adoptando IA para análisis de documentos, procesamiento de inteligencia, optimización logística y apoyo a la toma de decisiones. Los datos de entrenamiento para estos modelos provienen de archivos de documentos gubernamentales — muchos de ellos clasificados, sensibles o sujetos a requisitos estrictos de manejo que hacen imposible la preparación de datos basada en la nube.
Preparar datos gubernamentales para IA requiere herramientas y procesos que operen dentro de las restricciones de seguridad de entornos clasificados. Esta guía cubre los desafíos y requisitos únicos.
El panorama de datos gubernamentales
Documentos clasificados
- Confidencial, Secreto, Ultra Secreto: Documentos con clasificaciones de seguridad formales que dictan requisitos de manejo, almacenamiento y procesamiento
- Información compartimentada (SCI): Datos de inteligencia restringidos a programas específicos y niveles de autorización
- Programas de acceso especial (SAP): Información restringida que requiere acceso adicional más allá del nivel de autorización
Información controlada no clasificada (CUI)
- Datos gubernamentales que no están clasificados pero requieren salvaguarda: sensibles para fuerzas del orden, protegidos por privacidad, controlados por exportación
- Las categorías CUI cubren más de 20 tipos de datos sensibles pero no clasificados
Datos gubernamentales públicamente disponibles
- Portales de datos abiertos, liberaciones FOIA, informes públicos
- Aún requieren manejo cuidadoso — la agregación de datos públicos puede revelar patrones clasificados
Por qué la preparación de datos gubernamentales es diferente
Manejo de clasificaciones de seguridad
Cada documento, cada punto de datos extraído y cada ejemplo de entrenamiento hereda la clasificación de seguridad de su fuente. Un dataset de entrenamiento derivado de documentos Secretos es en sí mismo Secreto. El pipeline de preparación de datos debe:
- Rastrear niveles de clasificación a través de cada transformación
- Asegurar que el entorno de procesamiento cumpla los requisitos del nivel de clasificación
- Prevenir derrame inadvertido de clasificación (procesar datos Secretos en un sistema No Clasificado)
- Mantener marcas de clasificación derivada
Operación air-gapped
Las redes clasificadas (SIPRNet, JWICS) están físicamente aisladas de internet. Las herramientas de preparación de datos que requieren conectividad a la nube, servidores de licencias, telemetría o verificaciones de actualizaciones quedan descalificadas. La herramienta debe:
- Instalarse y operar con cero conectividad a internet
- Incluir todas las dependencias en el paquete de instalación
- Funcionar sin comunicarse con un servidor de licencias
- Actualizarse a través de medios físicos o transferencia segura, no actualizaciones automáticas
Seguridad del personal
Solo personal autorizado puede acceder a datos clasificados. La herramienta de preparación de datos debe soportar:
- Autenticación de usuarios vinculada a la gestión de identidad de la instalación
- Control de acceso basado en roles (diferentes analistas pueden tener acceso a diferentes compartimentos)
- Registro de auditoría de cada acción del usuario (quién accedió a qué, cuándo)
- Gestión de sesiones (bloqueo automático, protección de pantalla)
Requisitos de instalaciones
El procesamiento de datos clasificados debe ocurrir en instalaciones acreditadas:
- SCIFs (Instalaciones de información compartimentada sensible) para datos SCI
- IS (Sistemas de información) acreditados para procesamiento clasificado
- Controles de seguridad física (control de acceso, vigilancia, blindaje RF)
Marcos de cumplimiento
CMMC (Certificación del modelo de madurez de ciberseguridad)
Requerido para contratistas de la Base Industrial de Defensa (DIB). Los niveles CMMC definen prácticas de ciberseguridad para el manejo de CUI y datos clasificados. Las herramientas de preparación de datos utilizadas por contratistas DIB deben operar dentro de entornos compatibles con CMMC.
FedRAMP
Programa Federal de Gestión de Riesgos y Autorizaciones. Los servicios en la nube utilizados por agencias federales deben estar autorizados por FedRAMP. Sin embargo, para la preparación de datos clasificados, los servicios en la nube generalmente no son una opción — el procesamiento on-premise air-gapped es el estándar.
ITAR (Regulaciones internacionales de tráfico de armas)
Los datos técnicos relacionados con artículos de defensa están controlados por ITAR. Los datos de entrenamiento de IA derivados de documentos controlados por ITAR heredan esas restricciones:
- No pueden compartirse con nacionales extranjeros
- No pueden procesarse en sistemas accesibles a personas no estadounidenses
- La exportación requiere autorización del Departamento de Estado
NIST 800-171/172
Requisitos de seguridad para proteger CUI en sistemas no federales. Define más de 110 controles de seguridad que cubren control de acceso, auditoría, respuesta a incidentes e integridad del sistema.
El pipeline de preparación de datos para gobierno
Etapa 1: Ingestión
- Parseo de documentos en un entorno air-gapped (sin servicios OCR en la nube)
- OCR local con motores aprobados por el gobierno
- Detección y preservación de marcas de clasificación
- Manejo de múltiples formatos (PDFs, emails, imágenes, formatos de inteligencia de señales)
Etapa 2: Limpieza
- Redacción de marcas de clasificación para datos de entrenamiento (evitando que el modelo aprenda a reproducir marcas clasificadas)
- Revisión de transferencia entre dominios (asegurando que los datos no se muevan entre niveles de clasificación sin autorización)
- Puntuación de calidad usando modelos locales (sin llamadas a APIs en la nube)
- Deduplicación dentro de los límites de clasificación
Etapa 3: Etiquetado
- Analistas autorizados etiquetan datos dentro de su nivel de acceso autorizado
- Flujos de etiquetado multinivel (diferentes analistas etiquetan diferentes porciones según su autorización)
- Rastro de auditoría para cada decisión de etiquetado (quién, cuándo, qué nivel de autorización)
- Revisión de calidad por analistas senior
Etapa 4: Exportación
- Datasets de entrenamiento con marcas de clasificación heredadas
- Formatos JSONL/estructurados para modelos NLP
- Paquete de documentación para revisión de ATO (Autorización para Operar)
- Exportación de rastro de auditoría para revisión de seguridad
Criterios de selección de herramientas para gobierno
Al evaluar herramientas de preparación de datos para uso gubernamental:
- Operación verdaderamente air-gapped: ¿Funciona con cero conectividad de red? ¿Sin servidores de licencias, sin telemetría, sin verificaciones de actualizaciones?
- Aplicación de escritorio nativa: Los contenedores Docker en entornos clasificados agregan complejidad. Una app nativa se instala como cualquier otro software aprobado.
- Rastro de auditoría completo: Cada acción registrada con identidad del usuario, marca de tiempo y detalles de la acción — requerido para revisiones de seguridad.
- Capacidades de IA local: El etiquetado asistido por IA y la puntuación de calidad deben usar modelos locales (Ollama/llama.cpp), no APIs en la nube.
- Soporte de documentación ATO: ¿Puede la herramienta producir la documentación de seguridad necesaria para la aprobación de Autorización para Operar?
Ertas Data Suite cumple estos criterios como una aplicación de escritorio nativa construida con Tauri (Rust + React) que opera completamente air-gapped. La inferencia LLM local vía Ollama/llama.cpp proporciona funciones asistidas por IA sin egreso de datos. El rastro de auditoría completo soporta los requisitos de documentación ATO.
Para las agencias gubernamentales, la preparación de datos no es solo un desafío técnico — es un desafío de seguridad. Las herramientas deben ser tan seguras como los datos que procesan.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

FedRAMP, ITAR, and Air-Gapped AI: Data Prep Without Cloud Exposure
How FedRAMP authorization, ITAR restrictions, and air-gapped requirements shape AI data preparation for government and defense — and why native desktop apps solve the compliance problem.

On-Premise AI for Government: Meeting National Security Data Requirements
A vertical guide for government and defense buyers evaluating on-premise AI infrastructure — covering FedRAMP, ITAR, NIST 800-171, classified network compatibility, air-gapped operations, and the data preparation challenge most vendors ignore.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.