Back to blog
    Pipelines de Datos de Entrenamiento de IA Conformes con ITAR para Contratistas de Defensa
    ITARdefensecomplianceexport-controldata-pipelineAIon-premiseair-gapped

    Pipelines de Datos de Entrenamiento de IA Conformes con ITAR para Contratistas de Defensa

    Una guia centrada en el cumplimiento para construir pipelines de datos de entrenamiento de IA que satisfagan los requisitos de control de exportaciones ITAR. Cubre la matriz de cumplimiento ITAR, la arquitectura de pipelines para datos tecnicos controlados, requisitos de auditoria y despliegue local para contratistas de defensa.

    EErtas Team·

    Las Regulaciones sobre Trafico Internacional de Armas (ITAR) crean un limite estricto sobre como los contratistas de defensa pueden procesar datos tecnicos. Cuando esos datos tecnicos se convierten en datos de entrenamiento para modelos de IA, cada paso del pipeline — desde la ingesta de documentos hasta la exportacion del modelo — queda bajo escrutinio de control de exportaciones.

    La mayoria de las herramientas de preparacion de datos de IA no fueron disenadas para esto. Asumen conectividad en la nube, entrega SaaS, equipos de ingenieria multinacionales y datos que pueden moverse libremente entre entornos. ITAR asume lo contrario: acceso controlado, manejo exclusivo por personas estadounidenses, sin acceso extranjero y trazabilidad auditable de los datos desde el documento fuente hasta la salida de entrenamiento.

    Este manual cubre como disenar un pipeline de datos de entrenamiento de IA que satisfaga los requisitos de ITAR de extremo a extremo.

    Fundamentos de ITAR para Equipos de IA

    Lo que ITAR Controla

    ITAR (22 CFR Partes 120-130) regula la exportacion e importacion temporal de articulos de defensa y servicios de defensa. Para los pipelines de datos de entrenamiento de IA, los controles relevantes son:

    • Datos tecnicos (22 CFR 120.33): Informacion requerida para el diseno, desarrollo, produccion, manufactura, ensamblaje, operacion, reparacion, pruebas, mantenimiento o modificacion de articulos de defensa. Esto incluye dibujos de ingenieria, especificaciones, procedimientos de prueba y manuales operativos.
    • Servicios de defensa (22 CFR 120.32): Proporcionar asistencia (incluyendo capacitacion) a personas extranjeras en el diseno, desarrollo, ingenieria, manufactura, produccion, ensamblaje, pruebas, reparacion, mantenimiento, modificacion, operacion, desmantelamiento, destruccion, procesamiento o uso de articulos de defensa.

    La implicacion critica para la IA: Si sus datos de entrenamiento contienen datos tecnicos controlados por ITAR, y su modelo de IA es entrenado con ellos, el modelo mismo puede ser considerado un articulo de defensa o contener datos tecnicos controlados. El pipeline de entrenamiento, los datos en cada etapa intermedia y la salida del modelo estan todos potencialmente sujetos a ITAR.

    Quien Puede Acceder a Datos ITAR

    Solo personas estadounidenses (ciudadanos de EE.UU., residentes permanentes legales o individuos protegidos segun la definicion de 8 U.S.C. 1324b(a)(3)) pueden acceder a datos tecnicos controlados por ITAR sin una licencia de exportacion. Esto aplica a:

    • Personal que opera el pipeline de datos
    • Administradores de sistemas que mantienen el entorno de procesamiento
    • Empleados de proveedores de servicios en la nube que teoricamente podrian acceder a datos almacenados (esta es la razon por la cual el procesamiento en la nube es problematico)
    • Personal de soporte de proveedores de software que pueda acceder al sistema de forma remota

    Matriz de Requisitos de Cumplimiento ITAR

    La siguiente matriz mapea los requisitos de ITAR a controles especificos del pipeline de datos.

    Requisito ITARRegulacionControl del PipelineMetodo de Verificacion
    Acceso solo para personas estadounidenses22 CFR 120.16, 120.32Control de acceso a nivel de SO; sin acceso remoto; sin procesamiento en la nubeRegistro de personal con verificacion de ciudadania; logs de acceso
    Sin acceso extranjero a datos tecnicos22 CFR 120.17Red aislada o air-gapped; sin herramientas SaaS; sin servicios alojados en el extranjeroVerificacion de aislamiento de red; auditoria de inventario de software
    Marcado y seguimiento de datos22 CFR 125.4Marcados ITAR preservados a traves del pipeline; metadatos de clasificacion en todas las salidasInspeccion de salida; verificacion de marcado en revision de exportacion
    Control de exportacion sobre datos derivados22 CFR 120.33, 125.1Datos de entrenamiento, artefactos intermedios y salidas del modelo clasificados como controlados por ITARInventario de datos; auditoria de ubicacion de almacenamiento
    Mantenimiento de registros22 CFR 122.5Pista de auditoria completa de todo el procesamiento de datos; retencion de registros de 5 anosRevision de log de auditoria; documentacion de politica de retencion
    Registro y licencias22 CFR 122.1Contratista registrado ante DDTC; no se requiere licencia de exportacion para procesamiento domesticoConfirmacion de registro; revision legal

    Arquitectura del Pipeline para Datos Tecnicos Controlados por ITAR

    Requisitos de Infraestructura

    El entorno de procesamiento debe satisfacer tanto los controles de acceso ITAR como las necesidades practicas de ingenieria de datos.

    ComponenteRequisitoJustificacion
    Estacion de procesamientoLocal, ubicada en EE.UU., en instalacion con acceso controladoLos datos ITAR no pueden salir del territorio de EE.UU. ni ser accesibles para personas no estadounidenses
    Conectividad de redAir-gapped o VLAN aislada sin acceso a internetElimina el riesgo de exportacion inadvertida a traves de servicios en la nube o telemetria
    SoftwareAplicacion nativa sin dependencias en la nubeLas herramientas SaaS enrutan datos a traves de servidores que pueden ser accedidos por personas no estadounidenses
    AlmacenamientoCifrado en reposo, con acceso controlado, ubicado en EE.UU.Los datos tecnicos en reposo deben estar protegidos contra acceso no autorizado
    RespaldoCifrado, almacenado en la misma instalacion con acceso controladoLos medios de respaldo estan sujetos a los mismos controles ITAR que el almacenamiento principal
    Medios removiblesInventariados, rastreados, almacenados en contenedor aprobado cuando no estan en usoLos medios que contienen datos ITAR son un elemento controlado

    Etapas del Pipeline de Datos

    [Documentos Fuente con Marcado ITAR]
            |
       Importacion Autorizada (medios inventariados, cadena de custodia)
            |
       Importacion de Archivos + Analisis de Documentos
            |
       Preservacion de Marcado ITAR (etiquetado de metadatos)
            |
       Limpieza (deduplicacion, normalizacion)
            |
       Redaccion de Datos Controlados (si se crean derivados no controlados)
            |
       Puntuacion de Calidad + Validacion
            |
       Division Train/Val/Test
            |
       Exportacion (JSONL, CSV — marcados como controlados por ITAR)
            |
       Exportacion Autorizada (medios inventariados, cadena de custodia)
    

    Cada etapa en Ertas se mapea a nodos especificos en el lienzo visual del pipeline. La ventaja clave de un pipeline visual para el cumplimiento de ITAR es que los auditores y los oficiales de control de exportaciones pueden ver cada transformacion aplicada a los datos, en orden, sin leer codigo.

    Implementacion Etapa por Etapa

    Ingesta. Los documentos fuente llegan en medios removibles inventariados con documentacion de cadena de custodia. El nodo de Importacion de Archivos lee documentos desde el punto de montaje del medio autorizado. Los formatos soportados incluyen PDF (manuales tecnicos, dibujos de ingenieria), Word (especificaciones, procedimientos de prueba), Excel (listas de piezas, matrices de datos de prueba), PowerPoint (revisiones de diseno, informes de programa) e imagenes (documentos escaneados, fotografias tecnicas).

    Preservacion de marcado ITAR. Los documentos controlados por ITAR llevan marcados — tipicamente "ITAR Controlled" o "This document contains technical data controlled under ITAR" en encabezados, pies de pagina o portadas. El pipeline debe detectar estos marcados y propagarlos como metadatos a traves de cada etapa de procesamiento.

    Configure el nodo PII Redactor (reutilizado para la deteccion de marcados) para identificar declaraciones de distribucion ITAR y marcados de clasificacion. En lugar de redactarlos, configure el nodo para etiquetar el registro con el marcado como metadatos. Esto asegura que cada registro derivado lleve su procedencia ITAR.

    Limpieza. El nodo Deduplicator elimina documentos duplicados — comun cuando los paquetes de datos tecnicos incluyen la misma especificacion en multiples entregas. El Format Normalizer estandariza la codificacion de texto, formatos de fecha y unidades de medida entre documentos de diferentes programas o periodos de tiempo.

    Redaccion de datos controlados. Si el objetivo es crear derivados no controlados (por ejemplo, extraer contenido de libre divulgacion de documentos que tambien contienen datos tecnicos controlados), el nodo PII Redactor puede configurarse para eliminar parrafos controlados por ITAR mientras preserva el contenido no controlado. Esto requiere una configuracion cuidadosa con revision legal de las reglas de redaccion.

    Importante: la redaccion no cambia automaticamente el estado ITAR de un documento. Se requiere una revision formal de control de exportaciones antes de que cualquier derivado sea tratado como no controlado.

    Puntuacion de calidad. El nodo Quality Scorer valida que los ejemplos de entrenamiento cumplan con umbrales minimos de calidad: completitud del texto, consistencia estructural e integridad de metadatos (incluyendo metadatos de marcado ITAR). Los registros que no pasan las verificaciones de calidad se marcan para revision manual, no se eliminan — en entornos ITAR, los datos descartados tambien deben ser rastreados.

    Division y exportacion. El Train/Val/Test Splitter y el JSONL Exporter producen archivos de salida listos para IA. Cada archivo de salida debe estar marcado como controlado por ITAR. Los metadatos de exportacion deben incluir las referencias a los documentos fuente, la version del pipeline que los produjo y una marca de tiempo.

    Requisitos de Pista de Auditoria

    El cumplimiento de ITAR exige un minimo de 5 anos de retencion de registros (22 CFR 122.5). Para los pipelines de datos de entrenamiento de IA, la pista de auditoria debe capturar:

    Registro de AuditoriaContenidoRetencion
    Log de importacion de datosID del medio fuente, lista de documentos, marca de tiempo de importacion, ID del operador5 anos desde la fecha de importacion
    Log de procesamientoCada ejecucion del nodo del pipeline: registros de entrada, registros de salida, transformaciones aplicadas, errores5 anos desde la fecha de procesamiento
    Log de accesoCada persona que accedio a la estacion de procesamiento: identidad, marca de tiempo, duracion5 anos desde la fecha de acceso
    Log de exportacionLista de archivos de salida, ID del medio de destino, marca de tiempo de exportacion, ID del operador, aprobacion de revision de control de exportacion5 anos desde la fecha de exportacion
    Configuracion del pipelineDefinicion del grafo de nodos, configuracion de parametros, version del software5 anos desde el ultimo uso

    Ertas genera logs de procesamiento automaticamente en cada nodo del pipeline. Estos logs incluyen marcas de tiempo, conteos de registros, detalles de transformacion e informes de errores. Los logs se almacenan localmente en la estacion de procesamiento y pueden exportarse en medios autorizados para archivo en el sistema de gestion de registros del contratista.

    Errores Comunes de ITAR en Pipelines de IA

    Error 1: Herramientas Basadas en la Nube

    Usar una herramienta de preparacion de datos SaaS — incluso una que afirme cumplimiento SOC 2 — introduce riesgo ITAR. Los proveedores de nube emplean fuerzas laborales multinacionales. Incluso si los datos estan cifrados en reposo, el personal operativo del proveedor puede tener acceso a sistemas que procesan datos ITAR. Esto constituye una "exportacion presunta" bajo ITAR si cualquier persona no estadounidense pudiera acceder a los datos.

    Solucion: usar una aplicacion local nativa sin dependencias en la nube. Ertas se ejecuta completamente de forma local sin llamadas de red salientes.

    Error 2: Dependencias de Codigo Abierto con Colaboradores Extranjeros

    Las cadenas de herramientas de IA/ML a menudo dependen de bibliotecas de codigo abierto mantenidas por colaboradores internacionales. Aunque usar software de codigo abierto en si mismo no es una violacion de ITAR (el software esta disponible publicamente), recibir asistencia tecnica de personas extranjeras para configurar u operar el software para trabajo controlado por ITAR podria constituir un servicio de defensa.

    Solucion: usar una aplicacion autocontenida que agrupe todas las dependencias y no requiera soporte externo para su operacion.

    Error 3: Exportacion del Modelo

    Si un modelo es entrenado con datos tecnicos controlados por ITAR, los pesos del modelo pueden estar controlados por ITAR. Compartir el modelo — incluso internamente dentro de una empresa — requiere verificar que todos los destinatarios son personas estadounidenses con acceso autorizado por necesidad de conocer.

    Solucion: tratar las salidas del modelo con los mismos controles ITAR que los datos fuente. Documentar la procedencia de los datos de entrenamiento para que los oficiales de control de exportaciones puedan evaluar el estado ITAR del modelo.

    Error 4: Acceso Remoto del Proveedor

    Los proveedores de software que ofrecen soporte remoto, comparticion de pantalla o recopilacion de telemetria en sistemas que procesan datos ITAR deben verificar que todo el personal participante son personas estadounidenses. Muchos proveedores no pueden hacer esta garantia.

    Solucion: usar software que opere sin conectividad de soporte del proveedor. Ertas no requiere acceso remoto, no envia telemetria y no tiene ninguna capacidad de comunicacion con servidores externos.

    RAG para Conocimiento Controlado por ITAR

    Los contratistas de defensa pueden construir bases de conocimiento internas a partir de documentos tecnicos controlados por ITAR utilizando el pipeline RAG de Ertas — completamente de forma local.

    El pipeline de indexacion (File Import, PDF Parser, Deduplicator, RAG Chunker, Embedding con modelo local, Vector Store Writer) procesa manuales tecnicos, especificaciones y documentos de ingenieria en un almacen vectorial consultable. El pipeline de recuperacion (API Endpoint solo en localhost, Query Embedder, Vector Search, Context Assembler, API Response) permite que los sistemas de IA autorizados dentro del mismo enclave consulten la base de conocimiento.

    Caso de uso: un asistente de IA de ingenieria que puede responder preguntas sobre especificaciones del sistema, procedimientos de mantenimiento y restricciones de diseno — extrayendo solo de datos tecnicos aprobados, ejecutandose solo en infraestructura aprobada, accesible solo para personas estadounidenses con autorizacion de seguridad.

    Ruta de Implementacion

    Fase 1: Revision de cumplimiento (2-4 semanas). Involucre a su oficial de control de exportaciones y al equipo de cumplimiento ITAR. Defina el alcance de los datos tecnicos que ingresaran al pipeline. Confirme que el procesamiento de datos local no requiere una licencia de exportacion. Documente el plan de control de acceso.

    Fase 2: Configuracion del entorno (1-2 semanas). Configure la estacion de trabajo air-gapped o aislada. Instale Ertas desde medios verificados. Complete la lista de verificacion de air-gap. Establezca procedimientos de cadena de custodia para medios removibles.

    Fase 3: Desarrollo del pipeline (2-3 semanas). Construya el pipeline con un dataset de prueba no controlado primero. Valide cada etapa. Luego introduzca datos controlados por ITAR bajo los controles de acceso aprobados. Verifique la preservacion de marcado ITAR a traves del pipeline.

    Fase 4: Validacion de pista de auditoria (1 semana). Genere la pista de auditoria completa para una ejecucion de prueba. Haga que el oficial de control de exportaciones la revise para verificar su completitud. Confirme que todos los requisitos de retencion de 5 anos se cumplen.

    Resumen

    El cumplimiento de ITAR no es una caracteristica que se agrega a un pipeline de IA — es una restriccion que da forma a toda la arquitectura. El entorno de procesamiento debe ser local, air-gapped y accesible solo para personas estadounidenses. Las herramientas deben ser autocontenidas sin dependencias en la nube. La pista de auditoria debe ser completa y retenida por un minimo de cinco anos.

    Ertas Data Suite fue disenado exactamente para estas restricciones. Una aplicacion de escritorio nativa que procesa datos tecnicos controlados por ITAR a traves de un pipeline visual y auditable — local, sin conexion, con cero exposicion de red. Cada transformacion queda registrada, cada salida intermedia es inspeccionable y la trazabilidad completa de los datos satisface los requisitos de revision del oficial de control de exportaciones.

    Sus datos tecnicos ya estan controlados. Su pipeline de IA deberia estarlo tambien.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading