在氣隙隔離環境中處理機密文件用於NLP

從機密文件建構NLP模型是大多數AI工具從未被設計來解決的問題。商業資料準備平台假設網路連線——用於更新、雲端儲存和遙測。機密環境假設相反：處理資料的機器必須具有零網路連線，可驗證且可稽核。

這造成了根本性的工具缺口。處理機密文件以取得NLP訓練資料的組織需要一個能夠處理文件解析、文字擷取、清洗、標註和匯出的管道——全部在一台沒有網路堆疊、沒有出站連線、沒有隱藏依賴向外通訊的單一機器上運行。

本手冊涵蓋在氣隙隔離環境中將機密文件準備為NLP訓練資料的架構、安全要求和工作流模式。

安全分類等級與資料處理

不同的分類等級對資料處理環境施加不同的物理和操作約束。

分類等級	物理要求	人員	資料傳輸
CUI（受控非機密資訊）	上鎖房間、受控存取工作站	已獲授權人員，按需知悉原則	加密可移動媒體並記錄
Secret（機密）	SCIF或同等設施、TEMPEST級設備	有效Secret許可	跨域解決方案（CDS）或人工審查 + 人工傳遞
Top Secret / SCI（極機密/SCI）	SCIF、完全TEMPEST合規、RF遮蔽	有效TS/SCI許可	多人核准的CDS，或護送下的實體媒體

資料管道平台必須以其處理的任何文件的最高分類等級運作。如果一份Top Secret文件進入管道，整個工作站將被視為Top Secret系統。

氣隙架構要求

氣隙隔離環境不僅僅是一台關閉了WiFi的機器。真正的氣隙隔離需要經過驗證的與所有網路的物理隔離。

硬體設定

處理工作站必須滿足以下基線要求：

無無線硬體。 WiFi網卡、藍牙模組和行動數據機必須被物理移除（不僅僅是在軟體中停用）。對於更高分類等級，BIOS級別的停用是不夠的。
無網路介面。 乙太網路埠應物理斷開或完全移除網卡。對於TEMPEST環境，系統不應安裝任何網路硬體。
USB埠控制。 只有授權的、已登記的可移動儲存裝置可以連接。非授權周邊設備所需的USB埠應被物理封堵或用環氧樹脂密封。
音訊/視訊隔離。 麥克風和攝影機必須被物理移除。對於TEMPEST環境，喇叭輸出應在硬體級別停用。
BIOS加固。 開機順序鎖定為僅內部硬碟。設定BIOS密碼。在支援的情況下啟用安全開機。

軟體堆疊

處理環境必須是自包含的，在執行時零外部依賴。

元件	要求	原因
作業系統	加固的Linux（SELinux強制模式）或已套用STIG的核准Windows	最小化攻擊面，強制執行強制存取控制
資料管道工具	原生應用，無容器執行時期，無套件管理器呼叫	容器可能嘗試拉取登錄檔；套件管理器需要網路
ML/NLP函式庫	預裝、版本鎖定、完整性已驗證	無pip install、無npm install、無執行時期下載
文件解析器	與應用程式捆綁，無外部服務呼叫	PDF解析不得呼叫Adobe API或雲端OCR
嵌入模型	本地模型檔案，無API呼叫	嵌入產生必須完全在裝置上運行

Ertas Data Suite作為基於Tauri（Rust + React）建構的原生桌面應用滿足這些要求。它將所有解析器、處理邏輯和使用者介面捆綁在一個可安裝的二進位檔案中。無Docker、無容器執行時期、無網路服務。在執行時期，它不開啟監聽埠，不進行出站連線。

氣隙驗證清單

在處理機密文件之前，必須驗證氣隙。此清單應由系統管理員完成並由安全官員審查。

檢查項	方法	通過標準
無網路硬體存在	物理檢查 + lspci/lsusb稽核	列出的網路控制器為零
無無線電裝置	物理檢查主機板、擴充槽	所有無線模組已物理移除
USB埠受控	物理檢查	未授權埠已封堵；授權埠已登記
無出站連線能力	從終端機嘗試ping、DNS查詢、curl	全部失敗並顯示「network unreachable」（不是逾時）
無監聽服務	ss -tulnp或同等netstat	監聽埠為零
應用程式完整性	已安裝應用程式的SHA-256雜湊與已知良好雜湊相符	確認雜湊相符
作業系統加固已套用	STIG合規掃描或同等檢查	所有適用控制項通過
稽核日誌已啟用	驗證syslog/auditd正在運行並寫入本地儲存	正在產生日誌條目

此驗證必須在任何硬體變更、軟體更新或維護事件後重複進行。記錄每次驗證的日期、操作員和安全官員簽核。

核准的工作流模式

模式1：文件到訓練資料管道

這是主要工作流——將機密文件語料庫轉換為結構化NLP訓練資料。

授權媒體匯入
        |
   File Import（PDF、Word、掃描圖片）
        |
   文件解析（文字擷取、版面分析）
        |
   清洗（去重、格式標準化）
        |
   PII/分類標記脫敏
        |
   品質評分
        |
   標註（NER、分類標籤、問答對）
        |
   Train/Val/Test拆分
        |
   JSONL匯出
        |
   授權媒體匯出（經審查）

在Ertas中，這直接對映到節點圖：File Import、PDF Parser（或Word/Image Parser）、Deduplicator、Format Normalizer、PII Redactor、Quality Scorer、Train/Val/Test Splitter和JSONL Exporter。每個節點產生可觀察的中間輸出。安全審查人員可以在資料進入下一階段之前檢查任何階段的資料。

關鍵約束： 匯出的JSONL檔案與來源文件具有相同的分類等級。它必須按該分類等級的要求進行處理、儲存和傳輸。

模式2：知識庫建構（RAG）

從機密文件建構可搜尋的知識庫，供同一安全域內的授權AI系統使用。

授權媒體匯入
        |
   File Import → Parser → PII Redactor
        |
   RAG Chunker → Embedding（本地模型）→ Vector Store Writer
        |
   [知識庫儲存在機密系統本地]
        |
   API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
        |
   [檢索端點僅在氣隙隔離域內可存取]

Ertas RAG管道完全在本地運行。嵌入產生使用本地模型（無API呼叫）。向量儲存是本地檔案。檢索API端點僅在localhost上監聽——可被同一機器上的其他應用程式存取，但不可被任何網路存取。

模式3：跨域降級

當從機密來源準備的NLP訓練資料需要移動到較低分類等級的環境時（例如，在非機密模型訓練叢集上使用脫敏後的訓練資料），管道必須包含正式的降級審查。

這不是技術問題——而是流程問題。管道的角色是產生乾淨的、完全脫敏的輸出，並提供人工審查人員授權跨域傳輸所需的稽核追蹤。

Ertas透過產生完整的處理日誌來支援這一點：每個擷取的文件、每個套用的轉換、每個執行的脫敏，附帶時間戳和校驗和。此日誌是審查人員在降級授權過程中審查的工件。

文件類型和解析考量

機密文件語料庫通常包括：

文件類型	解析挑戰	Ertas方法
打字報告 (PDF)	頁首/頁尾中的分類標記，正文中的部分標記	PDF Parser擷取文字；PII Redactor設定為識別分類標記模式
掃描文件	OCR準確度因掃描品質而異；手寫註解	Image Parser搭配本地OCR；Quality Scorer標記低信心度擷取
技術手冊	複雜表格、帶標註的圖表、多欄版面	PDF Parser搭配版面分析；結構化擷取保留表格格式
電子郵件檔案 (PST/MBOX)	巢狀討論串、附件、混合分類的轉寄鏈	File Import處理歸檔格式；Deduplicator解決轉寄重複
簡報	項目符號文字、嵌入圖表、講者備註	PowerPoint Parser分別從投影片和備註中擷取文字

處理分類標記

機密文件包含部分標記——各段落上的分類指示符，如「(S)」表示Secret或「(U)」表示Unclassified。管道應：

在文字擷取過程中偵測和解析部分標記
為每個文字段標記其分類等級
在匯出時啟用按分類等級篩選（例如，僅擷取「(U)」部分用於較低分類等級的訓練集）

PII Redactor節點可設定為識別標準部分標記模式，並根據下游用例將其保留為中繼資料或進行脫敏。

操作安全考量

媒體處理。 用於在氣隙隔離環境內外傳輸資料的所有可移動媒體必須登記、追蹤，並在使用後消磁或銷毀。切勿在不同分類等級之間重複使用媒體。

螢幕擷取和攝影。 工作站不應具有螢幕擷取功能。禁止拍攝螢幕。Ertas不包含任何螢幕錄製或截圖功能。

維護和更新。 氣隙隔離工作站的軟體更新需要與機密資料相同的媒體傳輸協定。在乾淨媒體上取得Ertas更新套件，將其雜湊值與透過獨立管道發布的已知良好值進行驗證，然後在無網路連線的情況下安裝。

人員存取。 只有經過授權且有需知權限的人員才應有權物理存取處理工作站。使用刷卡進出記錄記錄所有存取。

無網路的管道可觀察性

傳統的管道監控假設透過網路可存取的儀表板。在氣隙隔離環境中，可觀察性是本地的。

Ertas直接在其桌面介面中提供管道可觀察性。管道圖中的每個節點顯示其處理狀態、記錄計數、錯誤率和輸出預覽。完整的執行日誌寫入本地檔案，可以在同一台機器上審查，或透過授權媒體匯出以供合規審查。

無基於網路的監控、無雲端儀表板、無遙測。一切都留在機器上。

入門指南

為NLP處理機密文件受到安全要求的約束，這些要求將大多數商業工具排除在考量之外。工具必須是原生應用、完全自包含、零網路依賴且具有完整的本地可觀察性。

Ertas Data Suite正是為這種營運模式而建構的。一個可安裝的二進位檔案在加固工作站上運行，透過視覺化管道處理文件，並產生AI就緒的訓練資料——全部無需開啟任何網路連線。每次轉換都在本地記錄，每個中間輸出都可檢查，整個管道可由您的安全官員稽核。

機密文件包含您的NLP模型所需的領域知識。Ertas提供安全擷取它的管道。