Back to blog
    在氣隙隔離環境中處理機密文件用於NLP
    classifiedair-gappedNLPsecuritydata-pipelinedefenseon-premise

    在氣隙隔離環境中處理機密文件用於NLP

    在完全氣隙隔離環境中將機密文件準備為NLP訓練資料的架構和操作指南。涵蓋安全要求、核准的工作流模式、氣隙驗證以及敏感文件處理的管道設計。

    EErtas Team·

    從機密文件建構NLP模型是大多數AI工具從未被設計來解決的問題。商業資料準備平台假設網路連線——用於更新、雲端儲存和遙測。機密環境假設相反:處理資料的機器必須具有零網路連線,可驗證且可稽核。

    這造成了根本性的工具缺口。處理機密文件以取得NLP訓練資料的組織需要一個能夠處理文件解析、文字擷取、清洗、標註和匯出的管道——全部在一台沒有網路堆疊、沒有出站連線、沒有隱藏依賴向外通訊的單一機器上運行。

    本手冊涵蓋在氣隙隔離環境中將機密文件準備為NLP訓練資料的架構、安全要求和工作流模式。

    安全分類等級與資料處理

    不同的分類等級對資料處理環境施加不同的物理和操作約束。

    分類等級物理要求人員資料傳輸
    CUI(受控非機密資訊)上鎖房間、受控存取工作站已獲授權人員,按需知悉原則加密可移動媒體並記錄
    Secret(機密)SCIF或同等設施、TEMPEST級設備有效Secret許可跨域解決方案(CDS)或人工審查 + 人工傳遞
    Top Secret / SCI(極機密/SCI)SCIF、完全TEMPEST合規、RF遮蔽有效TS/SCI許可多人核准的CDS,或護送下的實體媒體

    資料管道平台必須以其處理的任何文件的最高分類等級運作。如果一份Top Secret文件進入管道,整個工作站將被視為Top Secret系統。

    氣隙架構要求

    氣隙隔離環境不僅僅是一台關閉了WiFi的機器。真正的氣隙隔離需要經過驗證的與所有網路的物理隔離。

    硬體設定

    處理工作站必須滿足以下基線要求:

    • 無無線硬體。 WiFi網卡、藍牙模組和行動數據機必須被物理移除(不僅僅是在軟體中停用)。對於更高分類等級,BIOS級別的停用是不夠的。
    • 無網路介面。 乙太網路埠應物理斷開或完全移除網卡。對於TEMPEST環境,系統不應安裝任何網路硬體。
    • USB埠控制。 只有授權的、已登記的可移動儲存裝置可以連接。非授權周邊設備所需的USB埠應被物理封堵或用環氧樹脂密封。
    • 音訊/視訊隔離。 麥克風和攝影機必須被物理移除。對於TEMPEST環境,喇叭輸出應在硬體級別停用。
    • BIOS加固。 開機順序鎖定為僅內部硬碟。設定BIOS密碼。在支援的情況下啟用安全開機。

    軟體堆疊

    處理環境必須是自包含的,在執行時零外部依賴。

    元件要求原因
    作業系統加固的Linux(SELinux強制模式)或已套用STIG的核准Windows最小化攻擊面,強制執行強制存取控制
    資料管道工具原生應用,無容器執行時期,無套件管理器呼叫容器可能嘗試拉取登錄檔;套件管理器需要網路
    ML/NLP函式庫預裝、版本鎖定、完整性已驗證無pip install、無npm install、無執行時期下載
    文件解析器與應用程式捆綁,無外部服務呼叫PDF解析不得呼叫Adobe API或雲端OCR
    嵌入模型本地模型檔案,無API呼叫嵌入產生必須完全在裝置上運行

    Ertas Data Suite作為基於Tauri(Rust + React)建構的原生桌面應用滿足這些要求。它將所有解析器、處理邏輯和使用者介面捆綁在一個可安裝的二進位檔案中。無Docker、無容器執行時期、無網路服務。在執行時期,它不開啟監聽埠,不進行出站連線。

    氣隙驗證清單

    在處理機密文件之前,必須驗證氣隙。此清單應由系統管理員完成並由安全官員審查。

    檢查項方法通過標準
    無網路硬體存在物理檢查 + lspci/lsusb稽核列出的網路控制器為零
    無無線電裝置物理檢查主機板、擴充槽所有無線模組已物理移除
    USB埠受控物理檢查未授權埠已封堵;授權埠已登記
    無出站連線能力從終端機嘗試ping、DNS查詢、curl全部失敗並顯示「network unreachable」(不是逾時)
    無監聽服務ss -tulnp或同等netstat監聽埠為零
    應用程式完整性已安裝應用程式的SHA-256雜湊與已知良好雜湊相符確認雜湊相符
    作業系統加固已套用STIG合規掃描或同等檢查所有適用控制項通過
    稽核日誌已啟用驗證syslog/auditd正在運行並寫入本地儲存正在產生日誌條目

    此驗證必須在任何硬體變更、軟體更新或維護事件後重複進行。記錄每次驗證的日期、操作員和安全官員簽核。

    核准的工作流模式

    模式1:文件到訓練資料管道

    這是主要工作流——將機密文件語料庫轉換為結構化NLP訓練資料。

    授權媒體匯入
            |
       File Import(PDF、Word、掃描圖片)
            |
       文件解析(文字擷取、版面分析)
            |
       清洗(去重、格式標準化)
            |
       PII/分類標記脫敏
            |
       品質評分
            |
       標註(NER、分類標籤、問答對)
            |
       Train/Val/Test拆分
            |
       JSONL匯出
            |
       授權媒體匯出(經審查)
    

    在Ertas中,這直接對映到節點圖:File Import、PDF Parser(或Word/Image Parser)、Deduplicator、Format Normalizer、PII Redactor、Quality Scorer、Train/Val/Test Splitter和JSONL Exporter。每個節點產生可觀察的中間輸出。安全審查人員可以在資料進入下一階段之前檢查任何階段的資料。

    關鍵約束: 匯出的JSONL檔案與來源文件具有相同的分類等級。它必須按該分類等級的要求進行處理、儲存和傳輸。

    模式2:知識庫建構(RAG)

    從機密文件建構可搜尋的知識庫,供同一安全域內的授權AI系統使用。

    授權媒體匯入
            |
       File Import → Parser → PII Redactor
            |
       RAG Chunker → Embedding(本地模型)→ Vector Store Writer
            |
       [知識庫儲存在機密系統本地]
            |
       API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
            |
       [檢索端點僅在氣隙隔離域內可存取]
    

    Ertas RAG管道完全在本地運行。嵌入產生使用本地模型(無API呼叫)。向量儲存是本地檔案。檢索API端點僅在localhost上監聽——可被同一機器上的其他應用程式存取,但不可被任何網路存取。

    模式3:跨域降級

    當從機密來源準備的NLP訓練資料需要移動到較低分類等級的環境時(例如,在非機密模型訓練叢集上使用脫敏後的訓練資料),管道必須包含正式的降級審查。

    這不是技術問題——而是流程問題。管道的角色是產生乾淨的、完全脫敏的輸出,並提供人工審查人員授權跨域傳輸所需的稽核追蹤。

    Ertas透過產生完整的處理日誌來支援這一點:每個擷取的文件、每個套用的轉換、每個執行的脫敏,附帶時間戳和校驗和。此日誌是審查人員在降級授權過程中審查的工件。

    文件類型和解析考量

    機密文件語料庫通常包括:

    文件類型解析挑戰Ertas方法
    打字報告 (PDF)頁首/頁尾中的分類標記,正文中的部分標記PDF Parser擷取文字;PII Redactor設定為識別分類標記模式
    掃描文件OCR準確度因掃描品質而異;手寫註解Image Parser搭配本地OCR;Quality Scorer標記低信心度擷取
    技術手冊複雜表格、帶標註的圖表、多欄版面PDF Parser搭配版面分析;結構化擷取保留表格格式
    電子郵件檔案 (PST/MBOX)巢狀討論串、附件、混合分類的轉寄鏈File Import處理歸檔格式;Deduplicator解決轉寄重複
    簡報項目符號文字、嵌入圖表、講者備註PowerPoint Parser分別從投影片和備註中擷取文字

    處理分類標記

    機密文件包含部分標記——各段落上的分類指示符,如「(S)」表示Secret或「(U)」表示Unclassified。管道應:

    1. 在文字擷取過程中偵測和解析部分標記
    2. 為每個文字段標記其分類等級
    3. 在匯出時啟用按分類等級篩選(例如,僅擷取「(U)」部分用於較低分類等級的訓練集)

    PII Redactor節點可設定為識別標準部分標記模式,並根據下游用例將其保留為中繼資料或進行脫敏。

    操作安全考量

    媒體處理。 用於在氣隙隔離環境內外傳輸資料的所有可移動媒體必須登記、追蹤,並在使用後消磁或銷毀。切勿在不同分類等級之間重複使用媒體。

    螢幕擷取和攝影。 工作站不應具有螢幕擷取功能。禁止拍攝螢幕。Ertas不包含任何螢幕錄製或截圖功能。

    維護和更新。 氣隙隔離工作站的軟體更新需要與機密資料相同的媒體傳輸協定。在乾淨媒體上取得Ertas更新套件,將其雜湊值與透過獨立管道發布的已知良好值進行驗證,然後在無網路連線的情況下安裝。

    人員存取。 只有經過授權且有需知權限的人員才應有權物理存取處理工作站。使用刷卡進出記錄記錄所有存取。

    無網路的管道可觀察性

    傳統的管道監控假設透過網路可存取的儀表板。在氣隙隔離環境中,可觀察性是本地的。

    Ertas直接在其桌面介面中提供管道可觀察性。管道圖中的每個節點顯示其處理狀態、記錄計數、錯誤率和輸出預覽。完整的執行日誌寫入本地檔案,可以在同一台機器上審查,或透過授權媒體匯出以供合規審查。

    無基於網路的監控、無雲端儀表板、無遙測。一切都留在機器上。

    入門指南

    為NLP處理機密文件受到安全要求的約束,這些要求將大多數商業工具排除在考量之外。工具必須是原生應用、完全自包含、零網路依賴且具有完整的本地可觀察性。

    Ertas Data Suite正是為這種營運模式而建構的。一個可安裝的二進位檔案在加固工作站上運行,透過視覺化管道處理文件,並產生AI就緒的訓練資料——全部無需開啟任何網路連線。每次轉換都在本地記錄,每個中間輸出都可檢查,整個管道可由您的安全官員稽核。

    機密文件包含您的NLP模型所需的領域知識。Ertas提供安全擷取它的管道。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading