
Pipelines de Datos de Entrenamiento de IA Conformes con ITAR para Contratistas de Defensa
Una guia centrada en el cumplimiento para construir pipelines de datos de entrenamiento de IA que satisfagan los requisitos de control de exportaciones ITAR. Cubre la matriz de cumplimiento ITAR, la arquitectura de pipelines para datos tecnicos controlados, requisitos de auditoria y despliegue local para contratistas de defensa.
Las Regulaciones sobre Trafico Internacional de Armas (ITAR) crean un limite estricto sobre como los contratistas de defensa pueden procesar datos tecnicos. Cuando esos datos tecnicos se convierten en datos de entrenamiento para modelos de IA, cada paso del pipeline — desde la ingesta de documentos hasta la exportacion del modelo — queda bajo escrutinio de control de exportaciones.
La mayoria de las herramientas de preparacion de datos de IA no fueron disenadas para esto. Asumen conectividad en la nube, entrega SaaS, equipos de ingenieria multinacionales y datos que pueden moverse libremente entre entornos. ITAR asume lo contrario: acceso controlado, manejo exclusivo por personas estadounidenses, sin acceso extranjero y trazabilidad auditable de los datos desde el documento fuente hasta la salida de entrenamiento.
Este manual cubre como disenar un pipeline de datos de entrenamiento de IA que satisfaga los requisitos de ITAR de extremo a extremo.
Fundamentos de ITAR para Equipos de IA
Lo que ITAR Controla
ITAR (22 CFR Partes 120-130) regula la exportacion e importacion temporal de articulos de defensa y servicios de defensa. Para los pipelines de datos de entrenamiento de IA, los controles relevantes son:
- Datos tecnicos (22 CFR 120.33): Informacion requerida para el diseno, desarrollo, produccion, manufactura, ensamblaje, operacion, reparacion, pruebas, mantenimiento o modificacion de articulos de defensa. Esto incluye dibujos de ingenieria, especificaciones, procedimientos de prueba y manuales operativos.
- Servicios de defensa (22 CFR 120.32): Proporcionar asistencia (incluyendo capacitacion) a personas extranjeras en el diseno, desarrollo, ingenieria, manufactura, produccion, ensamblaje, pruebas, reparacion, mantenimiento, modificacion, operacion, desmantelamiento, destruccion, procesamiento o uso de articulos de defensa.
La implicacion critica para la IA: Si sus datos de entrenamiento contienen datos tecnicos controlados por ITAR, y su modelo de IA es entrenado con ellos, el modelo mismo puede ser considerado un articulo de defensa o contener datos tecnicos controlados. El pipeline de entrenamiento, los datos en cada etapa intermedia y la salida del modelo estan todos potencialmente sujetos a ITAR.
Quien Puede Acceder a Datos ITAR
Solo personas estadounidenses (ciudadanos de EE.UU., residentes permanentes legales o individuos protegidos segun la definicion de 8 U.S.C. 1324b(a)(3)) pueden acceder a datos tecnicos controlados por ITAR sin una licencia de exportacion. Esto aplica a:
- Personal que opera el pipeline de datos
- Administradores de sistemas que mantienen el entorno de procesamiento
- Empleados de proveedores de servicios en la nube que teoricamente podrian acceder a datos almacenados (esta es la razon por la cual el procesamiento en la nube es problematico)
- Personal de soporte de proveedores de software que pueda acceder al sistema de forma remota
Matriz de Requisitos de Cumplimiento ITAR
La siguiente matriz mapea los requisitos de ITAR a controles especificos del pipeline de datos.
| Requisito ITAR | Regulacion | Control del Pipeline | Metodo de Verificacion |
|---|---|---|---|
| Acceso solo para personas estadounidenses | 22 CFR 120.16, 120.32 | Control de acceso a nivel de SO; sin acceso remoto; sin procesamiento en la nube | Registro de personal con verificacion de ciudadania; logs de acceso |
| Sin acceso extranjero a datos tecnicos | 22 CFR 120.17 | Red aislada o air-gapped; sin herramientas SaaS; sin servicios alojados en el extranjero | Verificacion de aislamiento de red; auditoria de inventario de software |
| Marcado y seguimiento de datos | 22 CFR 125.4 | Marcados ITAR preservados a traves del pipeline; metadatos de clasificacion en todas las salidas | Inspeccion de salida; verificacion de marcado en revision de exportacion |
| Control de exportacion sobre datos derivados | 22 CFR 120.33, 125.1 | Datos de entrenamiento, artefactos intermedios y salidas del modelo clasificados como controlados por ITAR | Inventario de datos; auditoria de ubicacion de almacenamiento |
| Mantenimiento de registros | 22 CFR 122.5 | Pista de auditoria completa de todo el procesamiento de datos; retencion de registros de 5 anos | Revision de log de auditoria; documentacion de politica de retencion |
| Registro y licencias | 22 CFR 122.1 | Contratista registrado ante DDTC; no se requiere licencia de exportacion para procesamiento domestico | Confirmacion de registro; revision legal |
Arquitectura del Pipeline para Datos Tecnicos Controlados por ITAR
Requisitos de Infraestructura
El entorno de procesamiento debe satisfacer tanto los controles de acceso ITAR como las necesidades practicas de ingenieria de datos.
| Componente | Requisito | Justificacion |
|---|---|---|
| Estacion de procesamiento | Local, ubicada en EE.UU., en instalacion con acceso controlado | Los datos ITAR no pueden salir del territorio de EE.UU. ni ser accesibles para personas no estadounidenses |
| Conectividad de red | Air-gapped o VLAN aislada sin acceso a internet | Elimina el riesgo de exportacion inadvertida a traves de servicios en la nube o telemetria |
| Software | Aplicacion nativa sin dependencias en la nube | Las herramientas SaaS enrutan datos a traves de servidores que pueden ser accedidos por personas no estadounidenses |
| Almacenamiento | Cifrado en reposo, con acceso controlado, ubicado en EE.UU. | Los datos tecnicos en reposo deben estar protegidos contra acceso no autorizado |
| Respaldo | Cifrado, almacenado en la misma instalacion con acceso controlado | Los medios de respaldo estan sujetos a los mismos controles ITAR que el almacenamiento principal |
| Medios removibles | Inventariados, rastreados, almacenados en contenedor aprobado cuando no estan en uso | Los medios que contienen datos ITAR son un elemento controlado |
Etapas del Pipeline de Datos
[Documentos Fuente con Marcado ITAR]
|
Importacion Autorizada (medios inventariados, cadena de custodia)
|
Importacion de Archivos + Analisis de Documentos
|
Preservacion de Marcado ITAR (etiquetado de metadatos)
|
Limpieza (deduplicacion, normalizacion)
|
Redaccion de Datos Controlados (si se crean derivados no controlados)
|
Puntuacion de Calidad + Validacion
|
Division Train/Val/Test
|
Exportacion (JSONL, CSV — marcados como controlados por ITAR)
|
Exportacion Autorizada (medios inventariados, cadena de custodia)
Cada etapa en Ertas se mapea a nodos especificos en el lienzo visual del pipeline. La ventaja clave de un pipeline visual para el cumplimiento de ITAR es que los auditores y los oficiales de control de exportaciones pueden ver cada transformacion aplicada a los datos, en orden, sin leer codigo.
Implementacion Etapa por Etapa
Ingesta. Los documentos fuente llegan en medios removibles inventariados con documentacion de cadena de custodia. El nodo de Importacion de Archivos lee documentos desde el punto de montaje del medio autorizado. Los formatos soportados incluyen PDF (manuales tecnicos, dibujos de ingenieria), Word (especificaciones, procedimientos de prueba), Excel (listas de piezas, matrices de datos de prueba), PowerPoint (revisiones de diseno, informes de programa) e imagenes (documentos escaneados, fotografias tecnicas).
Preservacion de marcado ITAR. Los documentos controlados por ITAR llevan marcados — tipicamente "ITAR Controlled" o "This document contains technical data controlled under ITAR" en encabezados, pies de pagina o portadas. El pipeline debe detectar estos marcados y propagarlos como metadatos a traves de cada etapa de procesamiento.
Configure el nodo PII Redactor (reutilizado para la deteccion de marcados) para identificar declaraciones de distribucion ITAR y marcados de clasificacion. En lugar de redactarlos, configure el nodo para etiquetar el registro con el marcado como metadatos. Esto asegura que cada registro derivado lleve su procedencia ITAR.
Limpieza. El nodo Deduplicator elimina documentos duplicados — comun cuando los paquetes de datos tecnicos incluyen la misma especificacion en multiples entregas. El Format Normalizer estandariza la codificacion de texto, formatos de fecha y unidades de medida entre documentos de diferentes programas o periodos de tiempo.
Redaccion de datos controlados. Si el objetivo es crear derivados no controlados (por ejemplo, extraer contenido de libre divulgacion de documentos que tambien contienen datos tecnicos controlados), el nodo PII Redactor puede configurarse para eliminar parrafos controlados por ITAR mientras preserva el contenido no controlado. Esto requiere una configuracion cuidadosa con revision legal de las reglas de redaccion.
Importante: la redaccion no cambia automaticamente el estado ITAR de un documento. Se requiere una revision formal de control de exportaciones antes de que cualquier derivado sea tratado como no controlado.
Puntuacion de calidad. El nodo Quality Scorer valida que los ejemplos de entrenamiento cumplan con umbrales minimos de calidad: completitud del texto, consistencia estructural e integridad de metadatos (incluyendo metadatos de marcado ITAR). Los registros que no pasan las verificaciones de calidad se marcan para revision manual, no se eliminan — en entornos ITAR, los datos descartados tambien deben ser rastreados.
Division y exportacion. El Train/Val/Test Splitter y el JSONL Exporter producen archivos de salida listos para IA. Cada archivo de salida debe estar marcado como controlado por ITAR. Los metadatos de exportacion deben incluir las referencias a los documentos fuente, la version del pipeline que los produjo y una marca de tiempo.
Requisitos de Pista de Auditoria
El cumplimiento de ITAR exige un minimo de 5 anos de retencion de registros (22 CFR 122.5). Para los pipelines de datos de entrenamiento de IA, la pista de auditoria debe capturar:
| Registro de Auditoria | Contenido | Retencion |
|---|---|---|
| Log de importacion de datos | ID del medio fuente, lista de documentos, marca de tiempo de importacion, ID del operador | 5 anos desde la fecha de importacion |
| Log de procesamiento | Cada ejecucion del nodo del pipeline: registros de entrada, registros de salida, transformaciones aplicadas, errores | 5 anos desde la fecha de procesamiento |
| Log de acceso | Cada persona que accedio a la estacion de procesamiento: identidad, marca de tiempo, duracion | 5 anos desde la fecha de acceso |
| Log de exportacion | Lista de archivos de salida, ID del medio de destino, marca de tiempo de exportacion, ID del operador, aprobacion de revision de control de exportacion | 5 anos desde la fecha de exportacion |
| Configuracion del pipeline | Definicion del grafo de nodos, configuracion de parametros, version del software | 5 anos desde el ultimo uso |
Ertas genera logs de procesamiento automaticamente en cada nodo del pipeline. Estos logs incluyen marcas de tiempo, conteos de registros, detalles de transformacion e informes de errores. Los logs se almacenan localmente en la estacion de procesamiento y pueden exportarse en medios autorizados para archivo en el sistema de gestion de registros del contratista.
Errores Comunes de ITAR en Pipelines de IA
Error 1: Herramientas Basadas en la Nube
Usar una herramienta de preparacion de datos SaaS — incluso una que afirme cumplimiento SOC 2 — introduce riesgo ITAR. Los proveedores de nube emplean fuerzas laborales multinacionales. Incluso si los datos estan cifrados en reposo, el personal operativo del proveedor puede tener acceso a sistemas que procesan datos ITAR. Esto constituye una "exportacion presunta" bajo ITAR si cualquier persona no estadounidense pudiera acceder a los datos.
Solucion: usar una aplicacion local nativa sin dependencias en la nube. Ertas se ejecuta completamente de forma local sin llamadas de red salientes.
Error 2: Dependencias de Codigo Abierto con Colaboradores Extranjeros
Las cadenas de herramientas de IA/ML a menudo dependen de bibliotecas de codigo abierto mantenidas por colaboradores internacionales. Aunque usar software de codigo abierto en si mismo no es una violacion de ITAR (el software esta disponible publicamente), recibir asistencia tecnica de personas extranjeras para configurar u operar el software para trabajo controlado por ITAR podria constituir un servicio de defensa.
Solucion: usar una aplicacion autocontenida que agrupe todas las dependencias y no requiera soporte externo para su operacion.
Error 3: Exportacion del Modelo
Si un modelo es entrenado con datos tecnicos controlados por ITAR, los pesos del modelo pueden estar controlados por ITAR. Compartir el modelo — incluso internamente dentro de una empresa — requiere verificar que todos los destinatarios son personas estadounidenses con acceso autorizado por necesidad de conocer.
Solucion: tratar las salidas del modelo con los mismos controles ITAR que los datos fuente. Documentar la procedencia de los datos de entrenamiento para que los oficiales de control de exportaciones puedan evaluar el estado ITAR del modelo.
Error 4: Acceso Remoto del Proveedor
Los proveedores de software que ofrecen soporte remoto, comparticion de pantalla o recopilacion de telemetria en sistemas que procesan datos ITAR deben verificar que todo el personal participante son personas estadounidenses. Muchos proveedores no pueden hacer esta garantia.
Solucion: usar software que opere sin conectividad de soporte del proveedor. Ertas no requiere acceso remoto, no envia telemetria y no tiene ninguna capacidad de comunicacion con servidores externos.
RAG para Conocimiento Controlado por ITAR
Los contratistas de defensa pueden construir bases de conocimiento internas a partir de documentos tecnicos controlados por ITAR utilizando el pipeline RAG de Ertas — completamente de forma local.
El pipeline de indexacion (File Import, PDF Parser, Deduplicator, RAG Chunker, Embedding con modelo local, Vector Store Writer) procesa manuales tecnicos, especificaciones y documentos de ingenieria en un almacen vectorial consultable. El pipeline de recuperacion (API Endpoint solo en localhost, Query Embedder, Vector Search, Context Assembler, API Response) permite que los sistemas de IA autorizados dentro del mismo enclave consulten la base de conocimiento.
Caso de uso: un asistente de IA de ingenieria que puede responder preguntas sobre especificaciones del sistema, procedimientos de mantenimiento y restricciones de diseno — extrayendo solo de datos tecnicos aprobados, ejecutandose solo en infraestructura aprobada, accesible solo para personas estadounidenses con autorizacion de seguridad.
Ruta de Implementacion
Fase 1: Revision de cumplimiento (2-4 semanas). Involucre a su oficial de control de exportaciones y al equipo de cumplimiento ITAR. Defina el alcance de los datos tecnicos que ingresaran al pipeline. Confirme que el procesamiento de datos local no requiere una licencia de exportacion. Documente el plan de control de acceso.
Fase 2: Configuracion del entorno (1-2 semanas). Configure la estacion de trabajo air-gapped o aislada. Instale Ertas desde medios verificados. Complete la lista de verificacion de air-gap. Establezca procedimientos de cadena de custodia para medios removibles.
Fase 3: Desarrollo del pipeline (2-3 semanas). Construya el pipeline con un dataset de prueba no controlado primero. Valide cada etapa. Luego introduzca datos controlados por ITAR bajo los controles de acceso aprobados. Verifique la preservacion de marcado ITAR a traves del pipeline.
Fase 4: Validacion de pista de auditoria (1 semana). Genere la pista de auditoria completa para una ejecucion de prueba. Haga que el oficial de control de exportaciones la revise para verificar su completitud. Confirme que todos los requisitos de retencion de 5 anos se cumplen.
Resumen
El cumplimiento de ITAR no es una caracteristica que se agrega a un pipeline de IA — es una restriccion que da forma a toda la arquitectura. El entorno de procesamiento debe ser local, air-gapped y accesible solo para personas estadounidenses. Las herramientas deben ser autocontenidas sin dependencias en la nube. La pista de auditoria debe ser completa y retenida por un minimo de cinco anos.
Ertas Data Suite fue disenado exactamente para estas restricciones. Una aplicacion de escritorio nativa que procesa datos tecnicos controlados por ITAR a traves de un pipeline visual y auditable — local, sin conexion, con cero exposicion de red. Cada transformacion queda registrada, cada salida intermedia es inspeccionable y la trazabilidad completa de los datos satisface los requisitos de revision del oficial de control de exportaciones.
Sus datos tecnicos ya estan controlados. Su pipeline de IA deberia estarlo tambien.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Processing Classified Documents for NLP in Air-Gapped Environments
Architecture and operational guide for preparing classified documents as NLP training data in completely air-gapped environments. Covers security requirements, approved workflow patterns, air-gap verification, and pipeline design for sensitive document processing.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.

Energy and Utilities Predictive Maintenance: Building an AI-Ready Data Pipeline
A practical playbook for preparing SCADA data, equipment logs, and maintenance records for predictive maintenance AI in energy and utilities. Covers data pipeline stages, weather correlation, and on-premise architecture for critical infrastructure.