
面向國防承包商的ITAR合規AI訓練資料管道
一份以合規為核心的指南,介紹如何建構滿足ITAR出口管制要求的AI訓練資料管道。涵蓋ITAR合規矩陣、受控技術資料的管道架構、稽核要求以及面向國防承包商的本地部署方案。
國際武器貿易條例(ITAR)為國防承包商處理技術資料設定了嚴格的界限。當這些技術資料成為AI模型的訓練資料時,管道中的每 一步——從文件擷取到模型匯出——都處於出口管制的審查之下。
大多數AI資料準備工具並非為此設計。它們假設具有雲端連線性、SaaS交付、跨國工程團隊,以及可以在環境之間自由移動的資料。ITAR的假設恰恰相反:受控存取、僅限美國公民處理、禁止外國存取,以及從來源文件到訓練輸出的可稽核資料血統。
本手冊介紹如何架構一個端到端滿足ITAR要求的AI訓練資料管道。
AI團隊的ITAR基礎知識
ITAR管控的內容
ITAR(22 CFR 第120-130部分)規範國防物品和國防服務的出口和臨時進口。對於AI訓練資料管道,相關管控包括:
- 技術資料(22 CFR 120.33):國防物品的設計、開發、生產、製造、組裝、操作、維修、測試、維護或修改所需的資訊。包括工程圖紙、規格說明、測試程序和操作手冊。
- 國防服務(22 CFR 120.32):向外國人員提供國防物品的設計、開發、工程、製造、生產、組裝 、測試、維修、維護、修改、操作、拆除、銷毀、加工或使用方面的協助(包括培訓)。
對AI的關鍵影響: 如果您的訓練資料包含ITAR管控的技術資料,並且您的AI模型基於這些資料訓練,那麼模型本身可能被視為國防物品或包含受控技術資料。訓練管道、每個中間階段的資料以及模型輸出都可能受ITAR約束。
誰可以存取ITAR資料
只有美國公民(美國公民、合法永久居民或8 U.S.C. 1324b(a)(3)定義的受保護個人)才能在沒有出口許可證的情況下存取ITAR管控的技術資料。這適用於:
- 操作資料管道的人員
- 維護處理環境的系統管理員
- 理論上可以存取儲存資料的雲端服務供應商員工(這就是雲端處理存在問題的原因)
- 可能遠端存取系統的軟體供應商支援人員
ITAR合規要求矩陣
以下矩陣將ITAR要求對應到具體的資料管道控制措施。
| ITAR要求 | 法規 | 管道控制 | 驗證方法 |
|---|---|---|---|
| 僅限美國公民存取 | 22 CFR 120.16, 120.32 | 作業系統級存取控制;無遠端存取;無雲端處理 | 附公民身份驗證的人員名冊;存取日誌 |
| 禁止外國人存取技術資料 | 22 CFR 120.17 | 氣隙隔離或獨立網路;無SaaS工具;無外國託管服務 | 網路隔離驗證;軟體清單稽核 |
| 資料標記和追蹤 | 22 CFR 125.4 | 管道中保留ITAR標記;所有輸出上的分類中繼資料 | 輸出檢查;出口審查中的標記驗證 |
| 衍生資料的出口管控 | 22 CFR 120.33, 125.1 | 訓練資料、中間產物和模型輸出歸類為ITAR管控 | 資料清單;儲存位置稽核 |
| 記錄保存 | 22 CFR 122.5 | 所有資料處理的完整稽核軌跡;5年記錄保留 | 稽核日誌審查;保留政策文件 |
| 註冊和許可 | 22 CFR 122.1 | 承包商已在DDTC註冊;國內處理不需要出口許可證 | 註冊確認;法律審查 |
ITAR管控技術資料的管道架構
基礎設施要求
處理環境必須同時滿足ITAR存取控制和實際的資料工程需求。
| 元件 | 要求 | 理由 |
|---|---|---|
| 處理工作站 | 本地部署,位於美國境內,在受控設施內 | ITAR資料不得離開美國領土或被非美國公民存取 |
| 網路連線 | 氣隙隔離或無網際網路存取的獨立VLAN | 消除透過雲端服務或遙測的意外出口風險 |
| 軟體 | 無雲端依賴的本地應用程式 | SaaS工具透過可能被非美國公民存取的伺服器路由資料 |
| 儲存 | 靜態加密,受控存取,位於美國境內 | 靜態技術資料必須防止未授權存取 |
| 備份 | 加密,儲存在同一受控設施內 | 備份媒體受與主儲存相同的ITAR管控 |
| 可移除媒體 | 登記、追蹤,不使用時存放在核准的容器中 | 包含ITAR資料的媒體是受控物品 |
資料管道階段
[帶有ITAR標記的來源文件]
|
授權匯入(登記媒體,監管鏈)
|
檔案匯入 + 文件解析
|
ITAR標記保留(中繼資料標記)
|
清洗(去重、標準化)
|
受控資料編輯(如果建立非受控衍生品)
|
品質評分 + 驗證
|
訓練/驗證/測試拆分
|
匯出(JSONL、CSV——標記為ITAR管控)
|
授權匯出(登記媒體,監管鏈)
Ertas中的每個階段對應到視覺化管道畫布上的特定節點。視覺化管道對於ITAR合規的關鍵優勢在於,稽核人員和出口管制官員可以按順序查看應用於資料的每項轉換,而無需閱讀程式碼。
逐階段實施
擷取。 來源文件透過帶有監管鏈文件的登記可移除媒體到達。File Import節點從授權媒體掛 載點讀取文件。支援的格式包括PDF(技術手冊、工程圖紙)、Word(規格說明、測試程序)、Excel(零件清單、測試資料矩陣)、PowerPoint(設計評審、專案簡報)和影像(掃描文件、技術照片)。
ITAR標記保留。 ITAR管控文件帶有標記——通常在頁首、頁尾或封面中標有「ITAR Controlled」或「This document contains technical data controlled under ITAR」。管道必須偵測這些標記並在每個處理階段將其作為中繼資料傳播。
設定PII Redactor節點(重新用於標記偵測)以識別ITAR分發聲明和分類標記。不是編輯它們,而是設定節點將標記作為中繼資料標記到記錄上。這確保每個衍生記錄都帶有其ITAR來源。
清洗。 Deduplicator節點刪除重複文件——當技術資料包在多次提交中包含相同規格時很常見。Format Normalizer標準化來自不同專案或時間段的文件的文字編碼、日期格式和度量單位。
受控資料編輯。 如果目標是建立非受控衍生品(例如,從同時包含受控技術資料的文件中擷取可公開發布的內容),PII Redactor節點可以設定為刪除ITAR管控的段落同時保留非受控內容。這需要仔細設定並對編輯規則進行法律審查。
重要提示:編輯不會自動變更文件的ITAR狀態。在任何衍生品被視為非受控之前,需要進行正式的出口管制審查。
品質評分。 Quality Scorer節點驗證訓練範例是否滿足最低品 質門檻:文字完整性、結構一致性和中繼資料完整性(包括ITAR標記中繼資料)。未通過品質檢查的記錄被標記為需要人工審查,而不是丟棄——在ITAR環境中,被丟棄的資料仍然必須被追蹤。
拆分和匯出。 Train/Val/Test Splitter和JSONL Exporter產生AI就緒的輸出檔案。每個輸出檔案必須標記為ITAR管控。匯出中繼資料應包括來源文件參考、產生它的管道版本和時間戳記。
稽核軌跡要求
ITAR合規要求最低5年的記錄保留(22 CFR 122.5)。對於AI訓練資料管道,稽核軌跡必須擷取:
| 稽核記錄 | 內容 | 保留期限 |
|---|---|---|
| 資料匯入日誌 | 來源媒體ID、文件清單、匯入時間戳記、操作員ID | 自匯入日期起5年 |
| 處理日誌 | 每個管道節點執行:輸入記錄、輸出記錄、應用的轉換、錯誤 | 自處理日期起5年 |
| 存取日誌 | 每個存取處理工作站的人員:身份、時間戳記、持續時間 | 自存取日期起5年 |
| 匯出日誌 | 輸出檔案清單、目標媒體ID、匯出時間戳記、操作員ID、出口管制審查簽核 | 自匯出日期起5年 |
| 管道設定 | 節點圖定義、參數設定、軟體版本 | 自上次使用起5年 |
Ertas在每個管道節點自動產生處理日誌。這些日誌包括時間戳記、記錄計數、轉換詳情和錯誤報告。日誌儲存在處理工作站本地,可以透過授權媒體匯出以存檔到承包商的記錄管理系統中。
AI管道中常見的ITAR陷阱
陷阱1:基於雲端的工具
使用SaaS資料準備工具——即使聲稱符合SOC 2——也會引入ITAR風險。雲端供應商僱用跨國員工。即使資料在靜態時加密,供應商的營運人員也可能有權存取處理ITAR資料的系統。如果任何非美國公民可以存取資料,這在ITAR下構成「視同出口」。
解決方案:使用無雲端依賴的本地原生應用程式。Ertas完全在本地執行,沒有出站網路呼叫。
陷阱2:有外國貢獻者的開源依賴
AI/ML工具鏈通常依賴由國際貢獻者維護的開源程式庫。雖然使用開源軟體本身不違反ITAR(該軟體是公開可用的),但接受外國人員在設定或操作軟體用於ITAR管控工作方面的技術援助可能構成國防服務。
解決方案:使用捆綁所有依賴項且不需要外部支援即可執行的自包含應用程式。
陷阱3:模型匯出
如果模型基於ITAR管控的技術資料訓練,模型 權重本身可能受ITAR管控。共享模型——即使在公司內部——也需要驗證所有接收者都是具有知情需要存取權的美國公民。
解決方案:對模型輸出實施與來源資料相同的ITAR管控。記錄訓練資料來源,以便出口管制官員可以評估模型的ITAR狀態。
陷阱4:供應商遠端存取
在處理ITAR資料的系統上提供遠端支援、螢幕分享或遙測收集的軟體供應商必須驗證所有參與人員都是美國公民。許多供應商無法提供這一保證。
解決方案:使用無需供應商支援連線即可執行的軟體。Ertas不需要遠端存取,不傳送遙測資料,也沒有任何與外部伺服器通訊的功能。
面向ITAR管控知識的RAG
國防承包商可以使用Ertas RAG管道從ITAR管控的技術文件建構內部知識庫——完全在本地進行。
索引管道(File Import、PDF Parser、Deduplicator、RAG Chunker、使用本地模型的Embedding、Vector Store Writer)將技術手冊、規格說明和工程文件處理為可搜尋的向量儲存。擷取管道(僅限localhost的API Endpoint、Query Embedder 、Vector Search、Context Assembler、API Response)使同一安全區域內的授權AI系統能夠查詢知識庫。
使用案例:一個工程AI助手,可以回答關於系統規格、維護程序和設計約束的問題——僅從核准的技術資料中擷取,僅在核准的基礎設施上執行,僅對經過安全審查的美國公民開放存取。
實施路徑
第一階段:合規審查(2-4週)。 與您的出口管制官員和ITAR合規團隊合作。定義將進入管道的技術資料範圍。確認本地資料處理不需要出口許可證。記錄存取控制計畫。
第二階段:環境搭建(1-2週)。 設定氣隙隔離或獨立的工作站。從經過驗證的媒體安裝Ertas。完成氣隙驗證清單。建立可移除媒體的監管鏈程序。
第三階段:管道開發(2-3週)。 首先使用非受控測試資料集建構管道。驗證每個階段。然後在核准的存取控制下引入ITAR管控資料。驗證管道中的ITAR標記保留。
第四階段:稽核軌跡驗證(1週)。 為測試執行產生完整的稽核軌跡。讓出口管制官員審查其完整性。確認滿足所有5年保留要求。
總結
ITAR合規不是附加到AI管道上的功能——它是塑造整個架構的約束。處理環境必須本地部署、氣隙隔離,且僅對美國公民開放。工具必須是無雲端依賴的自包含應用。稽核軌跡必須完整且至少保留五年。
Ertas Data Suite正是為這些約束而設計的。一款本地桌面應用程式,透過視覺化、可稽核的管道處理ITAR管控的技術資料——本地執行、離線操作、零網路暴露。每項轉換都被記錄,每個中間輸出都可檢查,完整的資料血統滿足出口管制官員的審查要求。
您的技術資料已經受到管控。您的AI管道也應當如此。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Processing Classified Documents for NLP in Air-Gapped Environments
Architecture and operational guide for preparing classified documents as NLP training data in completely air-gapped environments. Covers security requirements, approved workflow patterns, air-gap verification, and pipeline design for sensitive document processing.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.

Energy and Utilities Predictive Maintenance: Building an AI-Ready Data Pipeline
A practical playbook for preparing SCADA data, equipment logs, and maintenance records for predictive maintenance AI in energy and utilities. Covers data pipeline stages, weather correlation, and on-premise architecture for critical infrastructure.