Back to blog
    政府和國防 AI 承包商的氣隙數據準備
    air-gappedgovernment-aidefensedata-preparationnistfedrampon-premisesegment:service-provider

    政府和國防 AI 承包商的氣隙數據準備

    在無互聯網連接的真實氣隙政府和國防環境中運行 AI 數據準備管線的技術指南。

    EErtas Team·

    政府和國防 AI 合約在大多數商業 AI 團隊從未遇到的限制下運作。最重要的一點:真正的氣隙操作。不是「私有雲」。不是「VPN 隔離」。沒有互聯網。完全沒有外部網路連接。您準備訓練數據的工作站可能位於 SCIF、機密網路,或者通往外部世界的以太網線根本不存在的設施。

    這改變了您數據準備管線的一切。大多數現代 AI 工具在某些時候都假設有互聯網連接——用於許可驗證、模型權重下載、OCR API 調用、自動更新或遙測。在氣隙環境中,任何回撥的工具都是無法運行的工具。

    本指南涵蓋在氣隙政府和國防環境中運行 AI 數據準備的技術要求、什麼會出問題,以及如何架構在零互聯網依賴下運行的管線。


    政府和國防中「氣隙」的含義

    氣隙系統與任何外部網路沒有連接。這不是配置選項——它是設施強制執行的物理網路架構。

    分類級別和網路影響

    網路分類互聯網訪問描述
    NIPRNet非機密(CUI)是,已過濾美國國防部非機密網路
    SIPRNet秘密秘密級機密網路
    JWICS絕密/SCI聯合全球情報通信系統
    獨立不同物理隔離工作站

    對於秘密及以上級別,工作環境根據定義是氣隙的。但即使在 CUI(受控非機密信息)級別,許多政府設施也選擇將氣隙環境作為安全立場,特別是對於涉及敏感數據集的數據準備。

    安全許可影響

    在機密環境中工作的人員必須持有適當的許可。這影響您的人員配置模型:您不能將任何可用的數據工程師分配給機密項目。注釋員、工程師和 QA 人員必須都獲得適當級別的許可。

    對於服務提供商,這意味著您的政府 AI 工作團隊是您全體員工的一個子集,您無法輕易擴展它。


    氣隙環境中什麼會出問題

    許可驗證

    許多商業和開源工具在啟動時或定期使用期間通過聯繫外部服務器來驗證許可。在氣隙環境中,此驗證失敗,工具要麼拒絕啟動,要麼在降級模式下運行。

    受影響的工具:商業標注平台、一些 IDE 擴展、雲端鏈接訂閱、帶本地安裝程序的 SaaS 工具。

    解決方法:在部署前與供應商協商離線許可密鑰。一些供應商提供硬體鎖定許可或 USB 加密狗。其他供應商根本不支持離線使用。

    自動更新

    在啟動時檢查更新的工具要麼靜默失敗(消耗超時延遲),要麼大聲失敗(阻止啟動)。無論哪種方式,在氣隙環境中,您部署的版本就是您運行的版本,直到您手動更新。

    影響:版本管理成為您的責任。固定每個依賴,記錄每個版本,並在部署到氣隙環境之前測試完整堆疊。

    雲端 OCR 和解析 API

    許多文件解析工具——包括 Unstructured.io 的某些配置和大多數商業 OCR 平台——將文件發送到雲端 API 進行處理。在氣隙環境中,這些調用失敗。

    受影響的工具:Unstructured.io(雲端模式)、Azure Document Intelligence、Google Document AI、Amazon Textract。

    替代方案:使用完全在本地運行的解析工具。Docling、Unstructured.io 本地模式(帶預加載的本地模型權重)、Tesseract OCR(本地),或用於佈局偵測的 surya-ocr。

    模型權重下載

    用於數據擴增或 PII 偵測的 NER 模型、嵌入模型和語言模型通常在首次使用時從 Hugging Face、PyPI 或自定義存儲庫下載權重。在氣隙環境中,此下載失敗。

    解決方法:在有連接的系統上預先下載所有模型權重,驗證其完整性(校驗和),通過批准的媒體將其傳輸到氣隙環境,並配置工具從本地路徑加載。

    包管理器和依賴解析

    pip installnpm installcargo build——所有這些都會聯繫外部注冊表。在氣隙環境中,它們失敗。

    解決方法:在有連接的系統上構建和測試完整環境,然後將其作為預構建包(Docker 鏡像、虛擬環境存檔或安裝程序包)傳輸。在氣隙系統上,從本地包安裝。


    部署前檢查清單

    在將任何數據準備管線部署到氣隙環境之前,驗證以下內容:

    軟體包

    • 所有應用程序二進制文件已包含並測試
    • 所有模型權重已預加載(NER、OCR、嵌入、LLM(如果使用))
    • 所有 Python/Node/Rust 依賴已捆綁(不需要網路解析)
    • 許可密鑰配置為離線操作
    • 自動更新機制已禁用
    • 遙測和分析已禁用
    • 所有配置文件預設為僅本地操作

    基礎設施

    • 運行時不需要 Docker 注冊表拉取(鏡像已預加載或不使用 Docker)
    • 不需要 Kubernetes 集群(除非設施提供)
    • 數據庫在本地運行(SQLite、本地 PostgreSQL 或嵌入式)
    • 任何代碼路徑中沒有外部 API 調用(包括錯誤報告、崩潰分析)
    • 文件路徑配置為目標系統(沒有硬編碼的雲端存儲路徑)

    驗證

    • 物理斷開網路電纜後,完整管線端到端測試
    • 所有文件導入/導出僅使用本地文件系統測試
    • 所有模型推理使用預加載權重測試
    • 稽核日誌記錄已驗證寫入本地存儲
    • 匯出功能已驗證生成本地文件(無雲端上傳路徑)

    原生桌面優勢

    在機密和氣隙環境中,基礎設施受限。您可能無法訪問 Kubernetes 集群、Docker 運行時,甚至無法獲得安裝系統包的管理員權限。工作站可能是帶有標準政府鏡像的鎖定 Windows 機器。

    這就是應用程序架構很重要的地方。需要 Docker、Kubernetes 或複雜服務器基礎設施的工具很難在這些環境中部署。以原生桌面應用程序運行的工具——從單個二進制文件安裝,沒有外部依賴——則容易得多。

    實際差異:

    要求Web 應用(Docker/K8s)原生桌面應用
    安裝複雜性高(容器運行時、編排、網路)低(單個安裝程序)
    需要管理員權限通常是通常否
    基礎設施依賴Docker 守護進程、編排器、負載均衡器
    端口/網路配置需要(即使對於本地)不需要
    在鎖定工作站上部署困難直接
    離線操作需要預拉取的鏡像內建

    對於政府和國防工作,原生桌面應用程序消除了整類部署問題。


    數據傳輸:數據進出

    在氣隙環境中,數據通過批准的物理媒體移動。具體情況取決於設施的安全程序,但常見機制包括:

    可移動媒體

    已獲得設施安全辦公室批准的 USB 驅動器、外置硬盤或光學媒體。傳輸到氣隙系統的數據必須經過掃描和批准。傳輸出的數據必須經過審查過程。

    跨域解決方案(CDS)

    介導不同分類級別網路之間數據傳輸的硬體設備。這些強制執行內容檢查、數據格式限制和安全策略。通過 CDS 的傳輸被記錄和可稽核。

    Sneakernet 對您管線的影響

    您的管線必須支持通過文件系統路徑進行導入和匯出,而不是網路端點。「從 URL 上傳」功能是無用的。「連接到 S3 存儲桶」無關緊要。管線必須從本地目錄讀取和寫入,具有清晰的文件命名和清單文件,以便數據傳輸過程可以被稽核。

    匯出格式必須是自包含的。引用外部文件、需要網路解析或依賴於運行服務器的訓練數據集匯出在此環境中無法使用。


    NIST 和 FedRAMP 考量

    NIST SP 800-171

    對於 CUI(受控非機密信息),NIST SP 800-171 在 14 個族中規定了 110 個安全要求。與數據準備相關:

    • 訪問控制(AC):限制系統訪問授權用戶。強制執行最小權限。記錄訪問事件。
    • 稽核和問責(AU):創建、保護和保留稽核記錄。確保個人問責制。
    • 配置管理(CM):建立和強制執行安全配置設置。追蹤變更。
    • 系統和信息完整性(SI):監控系統並對偵測到的缺陷採取行動。

    您的數據準備工具必須支持這些要求:用戶身份驗證、稽核日誌記錄、配置管理和完整性驗證。

    FedRAMP

    如果您的工具是基於雲端的並用於聯邦工作,它們必須獲得 FedRAMP 授權。在氣隙環境中,FedRAMP 不太相關,因為您不使用雲端服務。但如果您管線的任何部分在政府雲(GovCloud、milCloud)上運行,則適用 FedRAMP 授權。

    CMMC(網路安全成熟度模型認證)

    對於國防承包商,可能需要 CMMC 認證。CMMC 第 2 級與 NIST SP 800-171 一致。您的數據準備過程必須被記錄並可稽核,以支持 CMMC 評估。


    氣隙數據準備的實際架構

    推薦堆疊

    1. 文件解析:Docling(本地)或 Tesseract + 佈局偵測模型(預加載)
    2. 文本清洗:帶有所有依賴捆綁在虛擬環境中的 Python 腳本
    3. PII/PHI 編輯:本地 NER 模型(spaCy 或微調 BERT,預加載權重)+ 正規表達式模式
    4. 標注:帶本地數據庫和稽核日誌的原生桌面應用程序
    5. 擴增:本地 LLM(Llama 3.1 8B 或類似,預加載權重)或基於規則的方法
    6. 匯出:帶清單和沿襲文件的本地文件輸出

    要避免的事情

    • 在其操作的任何時刻需要網路調用的任何工具
    • 基於 Docker 的部署(除非設施明確支持 Docker)
    • 在運行時從 Hugging Face 延遲加載模型權重的 Python 包
    • 帶有嵌入分析或遙測的工具
    • 尚未經過徹底測試的「離線模式」雲端優先平台

    Ertas Data Suite 使用 Tauri 2.0(Rust + React)構建為原生桌面應用程序。它完全離線運行,在任何階段都沒有互聯網依賴。所有五個模塊(攝入 → 清洗 → 標注 → 擴增 → 匯出)使用預捆綁依賴在本地運行。沒有許可回撥、沒有遙測、沒有雲端 API 調用。它從單個二進制文件安裝,不需要 Docker 或 Kubernetes 即可運行,並將可匯出的稽核追蹤和訓練數據集生成為本地文件——使其無需基礎設施修改即可在氣隙政府環境中部署。


    結論

    氣隙數據準備不是雲端數據準備的修改版本。它是一個根本不同的操作環境,具有消除大多數現代 AI 工具鏈的限制。在政府和國防 AI 工作中取得成功的服務提供商,是那些從一開始就為這些限制做計劃的人——預捆綁依賴、離線測試、部署原生應用程序,並構建生成自包含可交付成果的匯出工作流程。

    市場機會是巨大且不斷增長的。政府 AI 支出正在增加,合規門檻是一道護城河,將那些沒有投入基礎設施來滿足它的提供商阻擋在外。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading