Preparación de datos de IA para agencias gubernamentales: clasificaciones de seguridad y requisitos air-gapped

Las agencias gubernamentales y de defensa están adoptando IA para análisis de documentos, procesamiento de inteligencia, optimización logística y apoyo a la toma de decisiones. Los datos de entrenamiento para estos modelos provienen de archivos de documentos gubernamentales — muchos de ellos clasificados, sensibles o sujetos a requisitos estrictos de manejo que hacen imposible la preparación de datos basada en la nube.

Preparar datos gubernamentales para IA requiere herramientas y procesos que operen dentro de las restricciones de seguridad de entornos clasificados. Esta guía cubre los desafíos y requisitos únicos.

El panorama de datos gubernamentales

Documentos clasificados

Confidencial, Secreto, Ultra Secreto: Documentos con clasificaciones de seguridad formales que dictan requisitos de manejo, almacenamiento y procesamiento
Información compartimentada (SCI): Datos de inteligencia restringidos a programas específicos y niveles de autorización
Programas de acceso especial (SAP): Información restringida que requiere acceso adicional más allá del nivel de autorización

Información controlada no clasificada (CUI)

Datos gubernamentales que no están clasificados pero requieren salvaguarda: sensibles para fuerzas del orden, protegidos por privacidad, controlados por exportación
Las categorías CUI cubren más de 20 tipos de datos sensibles pero no clasificados

Datos gubernamentales públicamente disponibles

Portales de datos abiertos, liberaciones FOIA, informes públicos
Aún requieren manejo cuidadoso — la agregación de datos públicos puede revelar patrones clasificados

Por qué la preparación de datos gubernamentales es diferente

Manejo de clasificaciones de seguridad

Cada documento, cada punto de datos extraído y cada ejemplo de entrenamiento hereda la clasificación de seguridad de su fuente. Un dataset de entrenamiento derivado de documentos Secretos es en sí mismo Secreto. El pipeline de preparación de datos debe:

Rastrear niveles de clasificación a través de cada transformación
Asegurar que el entorno de procesamiento cumpla los requisitos del nivel de clasificación
Prevenir derrame inadvertido de clasificación (procesar datos Secretos en un sistema No Clasificado)
Mantener marcas de clasificación derivada

Operación air-gapped

Las redes clasificadas (SIPRNet, JWICS) están físicamente aisladas de internet. Las herramientas de preparación de datos que requieren conectividad a la nube, servidores de licencias, telemetría o verificaciones de actualizaciones quedan descalificadas. La herramienta debe:

Instalarse y operar con cero conectividad a internet
Incluir todas las dependencias en el paquete de instalación
Funcionar sin comunicarse con un servidor de licencias
Actualizarse a través de medios físicos o transferencia segura, no actualizaciones automáticas

Seguridad del personal

Solo personal autorizado puede acceder a datos clasificados. La herramienta de preparación de datos debe soportar:

Autenticación de usuarios vinculada a la gestión de identidad de la instalación
Control de acceso basado en roles (diferentes analistas pueden tener acceso a diferentes compartimentos)
Registro de auditoría de cada acción del usuario (quién accedió a qué, cuándo)
Gestión de sesiones (bloqueo automático, protección de pantalla)

Requisitos de instalaciones

El procesamiento de datos clasificados debe ocurrir en instalaciones acreditadas:

SCIFs (Instalaciones de información compartimentada sensible) para datos SCI
IS (Sistemas de información) acreditados para procesamiento clasificado
Controles de seguridad física (control de acceso, vigilancia, blindaje RF)

Marcos de cumplimiento

CMMC (Certificación del modelo de madurez de ciberseguridad)

Requerido para contratistas de la Base Industrial de Defensa (DIB). Los niveles CMMC definen prácticas de ciberseguridad para el manejo de CUI y datos clasificados. Las herramientas de preparación de datos utilizadas por contratistas DIB deben operar dentro de entornos compatibles con CMMC.

FedRAMP

Programa Federal de Gestión de Riesgos y Autorizaciones. Los servicios en la nube utilizados por agencias federales deben estar autorizados por FedRAMP. Sin embargo, para la preparación de datos clasificados, los servicios en la nube generalmente no son una opción — el procesamiento on-premise air-gapped es el estándar.

ITAR (Regulaciones internacionales de tráfico de armas)

Los datos técnicos relacionados con artículos de defensa están controlados por ITAR. Los datos de entrenamiento de IA derivados de documentos controlados por ITAR heredan esas restricciones:

No pueden compartirse con nacionales extranjeros
No pueden procesarse en sistemas accesibles a personas no estadounidenses
La exportación requiere autorización del Departamento de Estado

NIST 800-171/172

Requisitos de seguridad para proteger CUI en sistemas no federales. Define más de 110 controles de seguridad que cubren control de acceso, auditoría, respuesta a incidentes e integridad del sistema.

El pipeline de preparación de datos para gobierno

Etapa 1: Ingestión

Parseo de documentos en un entorno air-gapped (sin servicios OCR en la nube)
OCR local con motores aprobados por el gobierno
Detección y preservación de marcas de clasificación
Manejo de múltiples formatos (PDFs, emails, imágenes, formatos de inteligencia de señales)

Etapa 2: Limpieza

Redacción de marcas de clasificación para datos de entrenamiento (evitando que el modelo aprenda a reproducir marcas clasificadas)
Revisión de transferencia entre dominios (asegurando que los datos no se muevan entre niveles de clasificación sin autorización)
Puntuación de calidad usando modelos locales (sin llamadas a APIs en la nube)
Deduplicación dentro de los límites de clasificación

Etapa 3: Etiquetado

Analistas autorizados etiquetan datos dentro de su nivel de acceso autorizado
Flujos de etiquetado multinivel (diferentes analistas etiquetan diferentes porciones según su autorización)
Rastro de auditoría para cada decisión de etiquetado (quién, cuándo, qué nivel de autorización)
Revisión de calidad por analistas senior

Etapa 4: Exportación

Datasets de entrenamiento con marcas de clasificación heredadas
Formatos JSONL/estructurados para modelos NLP
Paquete de documentación para revisión de ATO (Autorización para Operar)
Exportación de rastro de auditoría para revisión de seguridad

Criterios de selección de herramientas para gobierno

Al evaluar herramientas de preparación de datos para uso gubernamental:

Operación verdaderamente air-gapped: ¿Funciona con cero conectividad de red? ¿Sin servidores de licencias, sin telemetría, sin verificaciones de actualizaciones?
Aplicación de escritorio nativa: Los contenedores Docker en entornos clasificados agregan complejidad. Una app nativa se instala como cualquier otro software aprobado.
Rastro de auditoría completo: Cada acción registrada con identidad del usuario, marca de tiempo y detalles de la acción — requerido para revisiones de seguridad.
Capacidades de IA local: El etiquetado asistido por IA y la puntuación de calidad deben usar modelos locales (Ollama/llama.cpp), no APIs en la nube.
Soporte de documentación ATO: ¿Puede la herramienta producir la documentación de seguridad necesaria para la aprobación de Autorización para Operar?

Ertas Data Suite cumple estos criterios como una aplicación de escritorio nativa construida con Tauri (Rust + React) que opera completamente air-gapped. La inferencia LLM local vía Ollama/llama.cpp proporciona funciones asistidas por IA sin egreso de datos. El rastro de auditoría completo soporta los requisitos de documentación ATO.

Para las agencias gubernamentales, la preparación de datos no es solo un desafío técnico — es un desafío de seguridad. Las herramientas deben ser tan seguras como los datos que procesan.