
在氣隙隔離環境中處理機密文件用於NLP
在完全氣隙隔離環境中將機密文件準備為NLP訓練資料的架構和操作指南。涵蓋安全要求、核准的工作流模式、氣隙驗證以及敏感文件處理的管道設計。
從機密文件建構NLP模型是大多數AI工具從未被設計來解決的問題。商業資料準備平台假設網路連線——用於更新、雲端儲存和遙測。機密環境假設相反:處理資料的機器必須具有零網路連線,可驗證且可稽核。
這造成了根本性的工具缺口。處理機密文件以取得NLP訓練資料的組織需要一個能夠處理文件解析、文字擷取、清洗、標註和匯出的管道——全部在一台沒有網路堆疊、沒有出站連線、沒有隱藏依賴向外通訊的單一機器上運行。
本手冊涵蓋在氣隙隔離環境中將機密文件準備為NLP訓練資料的架構、安全要求和工作流模式。
安全分類等級與資料處理
不同的分類等級對資料處理環境施加不同的物理和操作約束。
| 分類等級 | 物理要求 | 人員 | 資料傳輸 |
|---|---|---|---|
| CUI(受控非機密資訊) | 上鎖房間、受控存取工作站 | 已獲授權人員,按需知悉原則 | 加密可移動媒體並記錄 |
| Secret(機密) | SCIF或同等設施、TEMPEST級設備 | 有效Secret許可 | 跨域解決方案(CDS)或人工審查 + 人工傳遞 |
| Top Secret / SCI(極機密/SCI) | SCIF、完全TEMPEST合規、RF遮蔽 | 有效TS/SCI許可 | 多人核准的CDS,或護送下的實體媒體 |
資料管道平台必須以其處理的任何文件的最高分類等級運作。如果一份Top Secret文件進入管道,整個工作站將被視為Top Secret系統。
氣隙架構要求
氣隙隔離環境不僅僅是一台關閉了WiFi的機器。真正的氣隙隔離需要經過驗證的與所有網路的物理隔離。
硬體設定
處理工作站必須滿足以下基線要求:
- 無無線硬體。 WiFi網卡、藍牙模組和行動數據機必須被物理移除(不僅僅是在軟體中停用)。對於更高分類等級,BIOS級別的停用是不夠的。
- 無網路介面。 乙太網路埠應物理斷開或完全移除網卡。對於TEMPEST環境,系統不應安裝任何網路硬體。
- USB埠控制。 只有授權的、已登記的可移動儲存裝置可以連接。非授權周邊設備所需的USB埠應被物理封堵或用環氧樹脂密封。
- 音訊/視訊隔離。 麥克風和攝影機必須被物理移除。對於TEMPEST環境,喇叭輸出應在硬體級別停用。
- BIOS加固。 開機順序鎖定為僅內部硬碟。設定BIOS密碼。在支援的情況下啟用安全開機。
軟體堆疊
處理環境必須是自包含的,在執行時零外部依賴。
| 元件 | 要求 | 原因 |
|---|---|---|
| 作業系統 | 加固的Linux(SELinux強制模式)或已套用STIG的核准Windows | 最小化攻擊面,強制執行強制存取控制 |
| 資料管道工具 | 原生應用,無容器執行時期,無套件管理器呼叫 | 容器可能嘗試拉取登錄檔;套件管理器需要網路 |
| ML/NLP函式庫 | 預裝、版本鎖定、完整性已驗證 | 無pip install、無npm install、無執行時期下載 |
| 文件解析器 | 與應用程式捆綁,無外部服務呼叫 | PDF解析不得呼叫Adobe API或雲端OCR |
| 嵌入模型 | 本地模型檔案,無API呼叫 | 嵌入產生必須完全在裝置上運行 |
Ertas Data Suite作為基於Tauri(Rust + React)建構的原生桌面應用滿足這些要求。它將所有解析器、處理邏輯和使用者介面捆綁在一個可安裝的二進位檔案中。無Docker、無容器執行時期、無網路服務。在執行時期,它不開啟監聽埠, 不進行出站連線。
氣隙驗證清單
在處理機密文件之前,必須驗證氣隙。此清單應由系統管理員完成並由安全官員審查。
| 檢查項 | 方法 | 通過標準 |
|---|---|---|
| 無網路硬體存在 | 物理檢查 + lspci/lsusb稽核 | 列出的網路控制器為零 |
| 無無線電裝置 | 物理檢查主機板、擴充槽 | 所有無線模組已物理移除 |
| USB埠受控 | 物理檢查 | 未授權埠已封堵;授權埠已登記 |
| 無出站連線能力 | 從終端機嘗試ping、DNS查詢、curl | 全部失敗並顯示「network unreachable」(不是逾時) |
| 無監聽服務 | ss -tulnp或同等netstat | 監聽埠為零 |
| 應用程式完整性 | 已安裝應用程式的SHA-256雜湊與已知良好雜湊相符 | 確認雜湊相符 |
| 作業系統加固已套用 | STIG合規掃描或同等檢查 | 所有適用控制項通過 |
| 稽核日誌已啟用 | 驗證syslog/auditd正在運行並寫入本地儲存 | 正在產生日誌條目 |
此驗證必須在任何硬體變更、軟體更新或維護事件後重複進行。記錄每次驗證的日期、操作員和安全官員簽核。
核准的工作流模式
模式1:文件到訓練資料管道
這是主要工作流——將機密文件語料庫轉換為結構化NLP訓練資料。
授權媒體匯入
|
File Import(PDF、Word、掃描圖片)
|
文件解析(文字擷取、版面分析)
|
清洗(去重、格式標準化)
|
PII/分類標記脫敏
|
品質評分
|
標註(NER、分類標籤、問答對)
|
Train/Val/Test拆分
|
JSONL匯出
|
授權媒體匯出(經審查)
在Ertas中,這直接對映到節點圖:File Import、PDF Parser(或Word/Image Parser)、Deduplicator、Format Normalizer、PII Redactor、Quality Scorer、Train/Val/Test Splitter和JSONL Exporter。每個節點產生可觀察的中間輸出。安全審查人員可以在資料進入下一階段之前檢查任何階段的資料。
關鍵約束: 匯出的JSONL檔案與來源文件具有相同的分類等級。它必須按該分類等級的要求進行處理、儲存和傳輸。
模式2:知識庫建構 (RAG)
從機密文件建構可搜尋的知識庫,供同一安全域內的授權AI系統使用。
授權媒體匯入
|
File Import → Parser → PII Redactor
|
RAG Chunker → Embedding(本地模型)→ Vector Store Writer
|
[知識庫儲存在機密系統本地]
|
API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
|
[檢索端點僅在氣隙隔離域內可存取]
Ertas RAG管道完全在本地運行。嵌入產生使用本地模型(無API呼叫)。向量儲存是本地檔案。檢索API端點僅在localhost上監聽——可被同一機器上的其他應用程式存取,但不可被任何網路存取。
模式3:跨域降級
當從機密來源準備的NLP訓練資料需要移動到較低分類等級的環境時(例如,在非機密模型訓練叢集上使用脫敏後的訓練資料),管道必須包含正式的降級審查。
這不是技術問題——而是流程問題。管道的角色是產生乾淨的、完全脫敏的輸出,並提供人工審查人員授權跨域傳輸所需的稽核追蹤。
Ertas透過產生完整的處理日誌來支援這一點:每個擷取的文件、每個套用的轉換、每個執行的脫敏,附帶時間戳和校驗和。此日誌是審查人員在降級授權過程中 審查的工件。
文件類型和解析考量
機密文件語料庫通常包括:
| 文件類型 | 解析挑戰 | Ertas方法 |
|---|---|---|
| 打字報告 (PDF) | 頁首/頁尾中的分類標記,正文中的部分標記 | PDF Parser擷取文字;PII Redactor設定為識別分類標記模式 |
| 掃描文件 | OCR準確度因掃描品質而異;手寫註解 | Image Parser搭配本地OCR;Quality Scorer標記低信心度擷取 |
| 技術手冊 | 複雜表格、帶標註的圖表、多欄版面 | PDF Parser搭配版面分析 ;結構化擷取保留表格格式 |
| 電子郵件檔案 (PST/MBOX) | 巢狀討論串、附件、混合分類的轉寄鏈 | File Import處理歸檔格式;Deduplicator解決轉寄重複 |
| 簡報 | 項目符號文字、嵌入圖表、講者備註 | PowerPoint Parser分別從投影片和備註中擷取文字 |
處理分類標記
機密文件包含部分標記——各段落上的分類指示符,如「(S)」表示Secret或「(U)」表示Unclassified。管道應:
- 在文字擷取過程中偵測和解析部分標記
- 為每個文字段標記其分類等級
- 在匯出時啟用按分類等級篩選(例如,僅擷取「(U)」部分用於較低分類等級的訓練集)
PII Redactor節點可設定為識別標準部分標記模式,並根據下游用例將其保留為中繼資料或進行脫敏。
操作安全考量
媒體處理。 用於在氣隙隔離環境內外傳輸資料的所有可移動媒體必須登記、追蹤,並在使用後消磁或銷毀。切勿在不同分類等級之間重複使用媒體。
螢幕擷取和攝影。 工作站不應具有螢幕擷取功能。禁止拍攝螢幕。Ertas不包含任何螢幕錄製或截圖功能。
維護和更新。 氣隙隔離工作站的軟體更新需要與機密資料相同的媒體傳輸協定。在乾淨媒體上取得Ertas更新套件,將其雜湊值與透過獨立管道發布的已知良好值進行驗證,然後在無網路連線的情況下安裝。
人員存取。 只有經過授權且有需知權限的人員才應有權物理存取處理工作站。使用刷卡進出記錄記錄所有存取。
無網路的管道可觀察性
傳統的管道監控假設透過網路可存取的儀表板。在氣隙隔離環境中,可觀察性是本地的。
Ertas直接在其桌面介面中提供管道可觀察性。管道圖中的每個節點顯示其處理狀態、記錄計數、錯誤率和輸出預覽。完整的執行日誌寫入本地 檔案,可以在同一台機器上審查,或透過授權媒體匯出以供合規審查。
無基於網路的監控、無雲端儀表板、無遙測。一切都留在機器上。
入門指南
為NLP處理機密文件受到安全要求的約束,這些要求將大多數商業工具排除在考量之外。工具必須是原生應用、完全自包含、零網路依賴且具有完整的本地可觀察性。
Ertas Data Suite正是為這種營運模式而建構的。一個可安裝的二進位檔案在加固工作站上運行,透過視覺化管道處理文件,並產生AI就緒的訓練資料——全部無需開啟任何網路連線。每次轉換都在本地記錄,每個中間輸出都可檢查,整個管道可由您的安全官員稽核。
機密文件包含您的NLP模型所需的領域知識。Ertas提供安全擷取它的管道。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

ITAR-Compliant AI Training Data Pipelines for Defense Contractors
A compliance-focused guide to building AI training data pipelines that satisfy ITAR export control requirements. Covers the ITAR compliance matrix, pipeline architecture for controlled technical data, audit requirements, and on-premise deployment for defense contractors.

AI Data Preparation for Government Agencies: Security Classifications and Air-Gapped Requirements
How government and defense agencies can prepare classified and sensitive data for AI model training in air-gapped environments — covering CMMC, FedRAMP, ITAR, and security classification handling.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.