
面向国防承包商的ITAR合规AI训练数据管道
一份以合规为核心的指南,介绍如何构建满足ITAR出口管制要求的AI训练数据管道。涵盖ITAR合规矩阵、受控技术数据的管道架构、审计要求以及面向国防承包商的本地部署方案。
国际武器贸易条例(ITAR)为国防承包商处理技术数据设定了严格的边界。当这些技术数据成为AI模型的训练数据时,管道中的每一步——从文档摄取到模型 导出——都处于出口管制的审查之下。
大多数AI数据准备工具并非为此设计。它们假设具有云连接性、SaaS交付、跨国工程团队,以及可以在环境之间自由移动的数据。ITAR的假设恰恰相反:受控访问、仅限美国公民处理、禁止外国访问,以及从源文档到训练输出的可审计数据血统。
本手册介绍如何架构一个端到端满足ITAR要求的AI训练数据管道。
AI团队的ITAR基础知识
ITAR管控的内容
ITAR(22 CFR 第120-130部分)规范国防物品和国防服务的出口和临时进口。对于AI训练数据管道,相关管控包括:
- 技术数据(22 CFR 120.33):国防物品的设计、开发、生产、制造、组装、操作、维修、测试、维护或修改所需的信息。包括工程图纸、规格说明、测试程序和操作手册。
- 国防服务(22 CFR 120.32):向外国人员提供国防物品的设计、开发、工程、制造、生产、组装、测试、维修、维护、修改、操 作、拆除、销毁、加工或使用方面的协助(包括培训)。
对AI的关键影响: 如果您的训练数据包含ITAR管控的技术数据,并且您的AI模型基于这些数据训练,那么模型本身可能被视为国防物品或包含受控技术数据。训练管道、每个中间阶段的数据以及模型输出都可能受ITAR约束。
谁可以访问ITAR数据
只有美国公民(美国公民、合法永久居民或8 U.S.C. 1324b(a)(3)定义的受保护个人)才能在没有出口许可证的情况下访问ITAR管控的技术数据。这适用于:
- 操作数据管道的人员
- 维护处理环境的系统管理员
- 理论上可以访问存储数据的云服务提供商员工(这就是云处理存在问题的原因)
- 可能远程访问系统的软件供应商支持人员
ITAR合规要求矩阵
以下矩阵将ITAR要求映射到具体的数据管道控制措施。
| ITAR要求 | 法规 | 管道控制 | 验证方法 |
|---|---|---|---|
| 仅限美国公民访问 | 22 CFR 120.16, 120.32 | 操作系统级访问控制;无远程访问;无云处理 | 带有公民身份验证的人员名册;访问日志 |
| 禁止外国人访问技术数据 | 22 CFR 120.17 | 气隙隔离或独立网络;无SaaS工具;无外国托管服务 | 网络隔离验证;软件清单审计 |
| 数据标记和追踪 | 22 CFR 125.4 | 管道中保留ITAR标记;所有输出上的分类元数据 | 输出检查;出口审查中的标记验证 |
| 派生数据的出口管控 | 22 CFR 120.33, 125.1 | 训练数据、中间产物和模型输出归类为ITAR管控 | 数据清单;存储位置审计 |
| 记录保存 | 22 CFR 122.5 | 所有数据处理的完整审计跟踪;5年记录保留 | 审计日志审查;保留政策文档 |
| 注册和许可 | 22 CFR 122.1 | 承包商已在DDTC注册;国内处理不需要出口许可证 | 注册确认;法律审查 |
ITAR管控技术数据的管道架构
基础设施要求
处理环境必须同时满足ITAR访问控制和实际的数据工程需求。
| 组件 | 要求 | 理由 |
|---|---|---|
| 处理工作站 | 本地部署,位于美国境内,在受控设施内 | ITAR数据不得离开美国领土或被非美国公民访问 |
| 网络连接 | 气隙隔离或无互联网访问的独立VLAN | 消除通过云服务或遥测的意外出口风险 |
| 软件 | 无云依赖的本地应用程序 | SaaS工具通过可能被非美国公民访问的服务器路由数据 |
| 存储 | 静态加密,受控访问,位于美国境内 | 静态技术数据必须防止未授权访问 |
| 备份 | 加密,存储在同一受控设施内 | 备份介质受与主存储相同的ITAR管控 |
| 可移动介质 | 登记、追踪,不使用时存放在批准的容器中 | 包含ITAR数据的介质是受控物品 |
数据管道阶段
[带有ITAR标记的源文档]
|
授权导入(登记介质,监管链)
|
文件导入 + 文档解析
|
ITAR标记保留(元数据标记)
|
清洗(去重、标准化)
|
受控数据编辑(如果创建非受控衍生品)
|
质量评分 + 验证
|
训练/验证/测试拆分
|
导出(JSONL、CSV——标记为ITAR管控)
|
授权导出(登记介质,监管链)
Ertas中的每个阶段映射到可视化管道画布上的特定节点。可视化管道对于ITAR合规的关键优势在于,审计人员和出口管制官员可以按顺序查看应用于数据的每项转换,而无需阅读代码。
逐阶段实施
摄取。 源文档通过带有监管链文档的登记可移动介质到达。File Import节点从授权介质挂载点读取文档。支持的格式包括PDF(技术手册、工程图 纸)、Word(规格说明、测试程序)、Excel(零件清单、测试数据矩阵)、PowerPoint(设计评审、项目简报)和图像(扫描文档、技术照片)。
ITAR标记保留。 ITAR管控文档带有标记——通常在页眉、页脚或封面中标有"ITAR Controlled"或"This document contains technical data controlled under ITAR"。管道必须检测这些标记并在每个处理阶段将其作为元数据传播。
配置PII Redactor节点(重新用于标记检测)以识别ITAR分发声明和分类标记。不是编辑它们,而是配置节点将标记作为元数据标记到记录上。这确保每个衍生记录都带有其ITAR来源。
清洗。 Deduplicator节点删除重复文档——当技术数据包在多次提交中包含相同规格时很常见。Format Normalizer标准化来自不同项目或时间段的文档的文本编码、日期格式和度量单位。
受控数据编辑。 如果目标是创建非受控衍生品(例如,从同时包含受控技术数据的文档中提取可公开发布的内容),PII Redactor节点可以配置为删除ITAR管控的段落同时保留非受控内容。这需要仔细配置并对编辑规则进行法律审查。
重要提示:编辑不会自动更改文档的ITAR状态。在任何衍生品被视为非受控之前,需要进行正式的出口管制审查。
质量评分。 Quality Scorer节点验证训练示例是否满足最低质量阈值:文本完整性、结构一致性和元数据完整性 (包括ITAR标记元数据)。未通过质量检查的记录被标记为需要人工审查,而不是丢弃——在ITAR环境中,被丢弃的数据仍然必须被追踪。
拆分和导出。 Train/Val/Test Splitter和JSONL Exporter生成AI就绪的输出文件。每个输出文件必须标记为ITAR管控。导出元数据应包括源文档引用、生成它的管道版本和时间戳。
审计跟踪要求
ITAR合规要求最低5年的记录保留(22 CFR 122.5)。对于AI训练数据管道,审计跟踪必须捕获:
| 审计记录 | 内容 | 保留期限 |
|---|---|---|
| 数据导入日志 | 源介质ID、文档列表、导入时间戳、操作员ID | 自导入日期起5年 |
| 处理日志 | 每个管道节点执行:输入记录、输出记录、应用的转换、错误 | 自处理日期起5年 |
| 访问日志 | 每个访问处理工作站的人员:身份、时间戳、持续时间 | 自访问日期起5年 |
| 导出日志 | 输出文件列表、目标介质ID、导出时间戳、操作员ID、出口管制审查签批 | 自导出日期起5年 |
| 管道配置 | 节点图定义、参数设置、软件版本 | 自上次使用起5年 |
Ertas在每个管道节点自动生成处理日志。这些日志包括时间戳、记录计数、转换详情和错误报告。日志存储在处理工作站本地,可以通过授权介质导出以存档到承包商的记录管理系统中。
AI管道中常见的ITAR陷阱
陷阱1:基于云的工具
使用SaaS数据准备工具——即使声称符合SOC 2——也会引入ITAR风险。云提供商雇用跨国员工。即使数据在静态时加密,提供商的运营人员也可能有权访问处理ITAR数据的系统。如果任何非美国公民可以访问数据,这在ITAR下构成"视同出口"。
解决方案:使用无云依赖的本地原生应用程序。Ertas完全在本地运行,没有出站网络调用。
陷阱2:有外国贡献者的开源依赖
AI/ML工具链通常依赖由国际贡献者维护的开源库。虽然使用开源软件本身不违反ITAR(该软件是公开可用的),但接受外国人员在配置或操作软件用于ITAR管控工作方面的技术援助可能构成国防服务。
解决方案:使用捆绑所有依赖项且不需要外部支持即可运行的自包含应用程序。
陷阱3:模型导出
如果模型基于ITAR管控的技术数据训练,模型权重本身可能受ITAR管控。共享模型——即使在公司内部——也需要验证所有接收者都 是具有知情需要访问权的美国公民。
解决方案:对模型输出实施与源数据相同的ITAR管控。记录训练数据来源,以便出口管制官员可以评估模型的ITAR状态。
陷阱4:供应商远程访问
在处理ITAR数据的系统上提供远程支持、屏幕共享或遥测收集的软件供应商必须验证所有参与人员都是美国公民。许多供应商无法提供这一保证。
解决方案:使用无需供应商支持连接即可运行的软件。Ertas不需要远程访问,不发送遥测数据,也没有任何与外部服务器通信的功能。
面向ITAR管控知识的RAG
国防承包商可以使用Ertas RAG管道从ITAR管控的技术文档构建内部知识库——完全在本地进行。
索引管道(File Import、PDF Parser、Deduplicator、RAG Chunker、使用本地模型的Embedding、Vector Store Writer)将技术手册、规格说明和工程文档处理为可搜索的向量存储。检索管道(仅限localhost的API Endpoint、Query Embedder、Vector Search、Context Assembler、API Response)使同一安全区域内的授权AI系统能够查询知识库。
用例:一个工程AI助手,可以回答关于系统规格、维护程序和设计约束的问题——仅从批准的技术数据中提取,仅在批准的基础设施上运行,仅对经过安全审查的美国公民开放访问。
实施路径
第一阶段:合规审查(2-4周)。 与您的出口管制官员和ITAR合规团队合作。定义将进入管道的技术数据范围。确认本地数据处理不需要出口许可证。记录访问控制计划。
第二阶段:环境搭建(1-2周)。 配置气隙隔离或独立的工作站。从经过验证的介质安装Ertas。完成气隙验证清单。建立可移动介质的监管链程序。
第三阶段:管道开发(2-3周)。 首先使用非受控测试数据集构建管道。验证每个阶段。然后在批准的访问控制下引入ITAR管控数据。验证管道中的ITAR标记保留。
第四阶段:审计跟踪验证(1周)。 为测试运行生成完整的审计跟踪。让出口管制官员审查其完整性。确认满足所有5年保留要求。
总结
ITAR合规不是附加到AI管道上的功能——它是塑造整个架构的约束。处理环境必须本地部署、气隙隔离,且仅对美国公民开放。工具必须是无云依赖的自包含应用。审计跟踪必须完整且至少保留五年。
Ertas Data Suite正是为这些约束而设计的。一款本地桌面应用程序,通过可视化、可审计的管道处理ITAR管控的技术数据——本地运行、离线操作、零网络暴露。每项转换都被记录,每个中间输出都可检查,完整的数据血统满足出口管制官员的审查要求。
您的技术数据已经受到管控。您的AI管道也应当如此。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Processing Classified Documents for NLP in Air-Gapped Environments
Architecture and operational guide for preparing classified documents as NLP training data in completely air-gapped environments. Covers security requirements, approved workflow patterns, air-gap verification, and pipeline design for sensitive document processing.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.

Energy and Utilities Predictive Maintenance: Building an AI-Ready Data Pipeline
A practical playbook for preparing SCADA data, equipment logs, and maintenance records for predictive maintenance AI in energy and utilities. Covers data pipeline stages, weather correlation, and on-premise architecture for critical infrastructure.