Back to blog
    Preparación de datos de IA para agencias gubernamentales: clasificaciones de seguridad y requisitos air-gapped
    governmentdefensedata-preparationair-gappedsecurity-classificationon-premisesegment:enterprise

    Preparación de datos de IA para agencias gubernamentales: clasificaciones de seguridad y requisitos air-gapped

    Cómo las agencias gubernamentales y de defensa pueden preparar datos clasificados y sensibles para entrenamiento de modelos de IA en entornos air-gapped — cubriendo CMMC, FedRAMP, ITAR y manejo de clasificaciones de seguridad.

    EErtas Team·

    Las agencias gubernamentales y de defensa están adoptando IA para análisis de documentos, procesamiento de inteligencia, optimización logística y apoyo a la toma de decisiones. Los datos de entrenamiento para estos modelos provienen de archivos de documentos gubernamentales — muchos de ellos clasificados, sensibles o sujetos a requisitos estrictos de manejo que hacen imposible la preparación de datos basada en la nube.

    Preparar datos gubernamentales para IA requiere herramientas y procesos que operen dentro de las restricciones de seguridad de entornos clasificados. Esta guía cubre los desafíos y requisitos únicos.

    El panorama de datos gubernamentales

    Documentos clasificados

    • Confidencial, Secreto, Ultra Secreto: Documentos con clasificaciones de seguridad formales que dictan requisitos de manejo, almacenamiento y procesamiento
    • Información compartimentada (SCI): Datos de inteligencia restringidos a programas específicos y niveles de autorización
    • Programas de acceso especial (SAP): Información restringida que requiere acceso adicional más allá del nivel de autorización

    Información controlada no clasificada (CUI)

    • Datos gubernamentales que no están clasificados pero requieren salvaguarda: sensibles para fuerzas del orden, protegidos por privacidad, controlados por exportación
    • Las categorías CUI cubren más de 20 tipos de datos sensibles pero no clasificados

    Datos gubernamentales públicamente disponibles

    • Portales de datos abiertos, liberaciones FOIA, informes públicos
    • Aún requieren manejo cuidadoso — la agregación de datos públicos puede revelar patrones clasificados

    Por qué la preparación de datos gubernamentales es diferente

    Manejo de clasificaciones de seguridad

    Cada documento, cada punto de datos extraído y cada ejemplo de entrenamiento hereda la clasificación de seguridad de su fuente. Un dataset de entrenamiento derivado de documentos Secretos es en sí mismo Secreto. El pipeline de preparación de datos debe:

    • Rastrear niveles de clasificación a través de cada transformación
    • Asegurar que el entorno de procesamiento cumpla los requisitos del nivel de clasificación
    • Prevenir derrame inadvertido de clasificación (procesar datos Secretos en un sistema No Clasificado)
    • Mantener marcas de clasificación derivada

    Operación air-gapped

    Las redes clasificadas (SIPRNet, JWICS) están físicamente aisladas de internet. Las herramientas de preparación de datos que requieren conectividad a la nube, servidores de licencias, telemetría o verificaciones de actualizaciones quedan descalificadas. La herramienta debe:

    • Instalarse y operar con cero conectividad a internet
    • Incluir todas las dependencias en el paquete de instalación
    • Funcionar sin comunicarse con un servidor de licencias
    • Actualizarse a través de medios físicos o transferencia segura, no actualizaciones automáticas

    Seguridad del personal

    Solo personal autorizado puede acceder a datos clasificados. La herramienta de preparación de datos debe soportar:

    • Autenticación de usuarios vinculada a la gestión de identidad de la instalación
    • Control de acceso basado en roles (diferentes analistas pueden tener acceso a diferentes compartimentos)
    • Registro de auditoría de cada acción del usuario (quién accedió a qué, cuándo)
    • Gestión de sesiones (bloqueo automático, protección de pantalla)

    Requisitos de instalaciones

    El procesamiento de datos clasificados debe ocurrir en instalaciones acreditadas:

    • SCIFs (Instalaciones de información compartimentada sensible) para datos SCI
    • IS (Sistemas de información) acreditados para procesamiento clasificado
    • Controles de seguridad física (control de acceso, vigilancia, blindaje RF)

    Marcos de cumplimiento

    CMMC (Certificación del modelo de madurez de ciberseguridad)

    Requerido para contratistas de la Base Industrial de Defensa (DIB). Los niveles CMMC definen prácticas de ciberseguridad para el manejo de CUI y datos clasificados. Las herramientas de preparación de datos utilizadas por contratistas DIB deben operar dentro de entornos compatibles con CMMC.

    FedRAMP

    Programa Federal de Gestión de Riesgos y Autorizaciones. Los servicios en la nube utilizados por agencias federales deben estar autorizados por FedRAMP. Sin embargo, para la preparación de datos clasificados, los servicios en la nube generalmente no son una opción — el procesamiento on-premise air-gapped es el estándar.

    ITAR (Regulaciones internacionales de tráfico de armas)

    Los datos técnicos relacionados con artículos de defensa están controlados por ITAR. Los datos de entrenamiento de IA derivados de documentos controlados por ITAR heredan esas restricciones:

    • No pueden compartirse con nacionales extranjeros
    • No pueden procesarse en sistemas accesibles a personas no estadounidenses
    • La exportación requiere autorización del Departamento de Estado

    NIST 800-171/172

    Requisitos de seguridad para proteger CUI en sistemas no federales. Define más de 110 controles de seguridad que cubren control de acceso, auditoría, respuesta a incidentes e integridad del sistema.

    El pipeline de preparación de datos para gobierno

    Etapa 1: Ingestión

    • Parseo de documentos en un entorno air-gapped (sin servicios OCR en la nube)
    • OCR local con motores aprobados por el gobierno
    • Detección y preservación de marcas de clasificación
    • Manejo de múltiples formatos (PDFs, emails, imágenes, formatos de inteligencia de señales)

    Etapa 2: Limpieza

    • Redacción de marcas de clasificación para datos de entrenamiento (evitando que el modelo aprenda a reproducir marcas clasificadas)
    • Revisión de transferencia entre dominios (asegurando que los datos no se muevan entre niveles de clasificación sin autorización)
    • Puntuación de calidad usando modelos locales (sin llamadas a APIs en la nube)
    • Deduplicación dentro de los límites de clasificación

    Etapa 3: Etiquetado

    • Analistas autorizados etiquetan datos dentro de su nivel de acceso autorizado
    • Flujos de etiquetado multinivel (diferentes analistas etiquetan diferentes porciones según su autorización)
    • Rastro de auditoría para cada decisión de etiquetado (quién, cuándo, qué nivel de autorización)
    • Revisión de calidad por analistas senior

    Etapa 4: Exportación

    • Datasets de entrenamiento con marcas de clasificación heredadas
    • Formatos JSONL/estructurados para modelos NLP
    • Paquete de documentación para revisión de ATO (Autorización para Operar)
    • Exportación de rastro de auditoría para revisión de seguridad

    Criterios de selección de herramientas para gobierno

    Al evaluar herramientas de preparación de datos para uso gubernamental:

    1. Operación verdaderamente air-gapped: ¿Funciona con cero conectividad de red? ¿Sin servidores de licencias, sin telemetría, sin verificaciones de actualizaciones?
    2. Aplicación de escritorio nativa: Los contenedores Docker en entornos clasificados agregan complejidad. Una app nativa se instala como cualquier otro software aprobado.
    3. Rastro de auditoría completo: Cada acción registrada con identidad del usuario, marca de tiempo y detalles de la acción — requerido para revisiones de seguridad.
    4. Capacidades de IA local: El etiquetado asistido por IA y la puntuación de calidad deben usar modelos locales (Ollama/llama.cpp), no APIs en la nube.
    5. Soporte de documentación ATO: ¿Puede la herramienta producir la documentación de seguridad necesaria para la aprobación de Autorización para Operar?

    Ertas Data Suite cumple estos criterios como una aplicación de escritorio nativa construida con Tauri (Rust + React) que opera completamente air-gapped. La inferencia LLM local vía Ollama/llama.cpp proporciona funciones asistidas por IA sin egreso de datos. El rastro de auditoría completo soporta los requisitos de documentación ATO.

    Para las agencias gubernamentales, la preparación de datos no es solo un desafío técnico — es un desafío de seguridad. Las herramientas deben ser tan seguras como los datos que procesan.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading