
網路安全團隊如何在氣隙環境中構建 AI
網路安全團隊處理組織中最敏感的資料。以下說明如何構建完全不接觸網路的 AI 資料準備和訓練管道——包括使用本地 LLM 生成合成資料。
大多數 AI 工具的部署方式有一個特殊的諷刺:它們將資料發送到雲端來處理。對於普通企業而言,這是一個值得進行的隱私權衡。對於網路安全團隊而言,這根本不是權衡——而是失格條件。
「大多數 AI 工具通過雲端處理推理,從本質上使資料成為公開的。」這句話來自我們在探索電話中交談的一家網路安全公司。它準確地捕捉了問題。網路安全團隊處理的資料——威脅情報、事件報告、內部網絡拓撲、漏洞詳情、行為分析和安全事件日誌——是大多數組織中最敏感的資料類別。即使在資料處理協議下,將這些資料發送到第三方雲端服務進行處理,也違背了首先保護它的目的。
本指南涵蓋網路安全團隊如何在資料留在應屬之地的環境中構建 AI。
網路安全團隊需要 AI 做什麼
在解決基礎設施限制之前,先說明具體推動安全運營需求的 AI 用例:
告警分類和分類:安全運營中心每天處理數千個告警。絕大多數是誤報。一個經過良好訓練的分類模型——在組織自己的歷史告警資料上訓練——可以按真陽性概率對告警進行分類,大幅減少分析師疲勞和平均響應時間。
日誌異常檢測:網絡流資料、身份驗證日誌、端點遙測和應用程式日誌包含橫向移動、特權升級和資料外洩的信號。基於規則的傳統檢測會遺漏新型模式。在基準行為上訓練的 ML 模型可以發現規則永遠無法發現的統計異常。
威脅情報提取:非結構化的威脅報告、事件事後分析和供應商通報包含有價值的入侵指標、攻擊者技術和受影響系統 。訓練用於將這些實體提取為結構化格式的 NER 模型,可以顯著加速威脅情報攝取。
漏洞分類:當一個新的 CVE 出現時,安全團隊需要評估哪些系統受到影響、在其環境中的利用概率是多少,以及如何確定補救優先級。在組織資產清單和歷史漏洞資料上訓練的模型可以自動化初始分類層。
事件報告生成:安全分析師花費大量時間撰寫事件報告、事後分析和高管摘要。在歷史事件上微調的模型可以從結構化事件資料生成初稿,由分析師在最終確定前審查。
所有這些用例都需要從組織自己的運營資料中衍生的訓練資料。這些資料都不能離開環境。
實踐中的氣隙約束
「氣隙」意味著在運行時沒有網絡連接。不是「在您自己的雲端帳戶中自主托管」。不是「在您的資料中心伺服器上使用 Docker 加防火牆規則」。從物理上與外部網絡斷開,或嚴格的網絡隔離,沒有出站網路連接。
這對 AI 資料準備管道的每個組件都創造了特定要求:
文件解析:必須完全在本地運行。不能使用雲端 OCR API(Google Document AI、Azure Document Intelligence、AWS Textract 都會連接外部服務)。需要在本地硬體上運行的嵌入式 OCR——Tesseract、Surya 或類似工具。
AI 輔助功能:任何 ML 輔助標記、實體識別或品質評分都必須使用本地托管的模型。這意味著在部署前下載到本地存儲的 GGUF 模型文件,在推理時通過 Ollama 或 llama.cpp 運行,無需互聯網訪問。
品質評分:基於嵌入的去重複和語義品質評分需要本地嵌入模型。sentence-transformers 在 CPU 上對大多數嵌入任務運行良好。模型文件必須預先下載。
匯出和傳輸:資料通過安全文件傳輸(加密磁碟、內部網絡傳輸)在系統之間移動,不通過外部服務。
更新:軟體更新不能自動推送。更新必須在審查後手動應用,這創造了額外的維護要求,但也減少了攻擊面。
在構建氣隙 AI 管道時,最常見的失敗模式是在項目中途發現某個組件回電。許多開源工具在不明確說明的情況下發送遙測、檢查更新或從外部 API 加載模型。在氣隙管道中使用的任何工具,在部署前都必須審計外部網絡調用。
資料類型及其準備要求
安全事件日誌
大多數安全環境中數量最多的資料類型。格式通常是結構化的(CEF、LEEF、syslog、JSON),這使解析變得簡單。準備挑戰是:
- 數量:安全日誌量巨大。一個中型企業每天生成數百 GB 的日誌資料。訓練資料需要被抽樣、篩選和標記——而非完整處理。
- 標籤不平衡:真陽性告警很罕見(通常少於 0.1% 的事件)。訓練分類模型需要刻意的抽樣策略來獲得足夠的陽性示例,結合合成資料生成來增強稀有類別訓練集。
- 時間背景:許多安全事件只有在序列中才有意義(一系列登錄失敗嘗試,然後從新位置成功登錄)。訓練資料準備必須保留時間順序和事件周圍的上下文視窗。
威脅情報文件
PDF、Word 或 HTML 格式的非結構化報告。準備要求:
- 帶有實體感知解析的文件攝取(IOC,如 IP 地址、哈希、域名、CVE 標識符必須精確保留,不被 OCR 標準化損壞)
- NER 標注以按類型標記實體(IP 地址 vs 域 vs 文件哈希 vs 威脅行為者名稱 vs 受影響產品)
- 更高級用例的關係提取標注(X 利用 Y;A 與 B 關聯)
事件報告和事後分析
包含過去事件詳細技術描述的內部文件。這些是環境中最敏感的文件(它們描述了攻擊者如何成功入侵系統),也是最有訓練價值的(它們包含關於攻擊者在組織特定環境中行為的真實情況)。
準備要求:
- 仔細的 PII 和敏感系統去識別化(事件報告中出現的主機名、內部 IP 地址和系統名稱,在訓練資料共享超出原始事件團隊範圍之前,可能需要匿名化)
- 事件屬性的結構化提取(MITRE ATT&CK 技術、受影響系統、時間線、補救步驟)
- 微調事件摘要模型的一致格式
漏洞資料
來自漏洞掃描器(Nessus、Qualys、Rapid7)的結構化資料,結合資產清單資料。準備要求:
- 在訓練前連接資產資料與漏洞資料,同時刪除 資產識別資訊(主機名、IP)
- 用實際利用結果標記歷史漏洞(在環境中被利用 vs 未被利用)
逐階段構建管道
攝取
所有文件通過本地解析管道。對於結構化日誌資料,這是簡單的格式轉換。對於非結構化文件(PDF、Word、HTML 威脅報告),這需要完全在本地運行的嵌入式 OCR 和版面分析。
解析器必須處理安全環境中常見的特定格式:複雜版面的 PDF 威脅報告、CSV/JSON 日誌匯出、XML 漏洞掃描輸出和 Word 事件報告。
清理
對於日誌衍生的訓練資料,去重複很重要,因為相同的事件類型出現數千次。語義去重複識別接近相同的事件,這些事件會創建多樣性非常低的訓練資料。
PII 和敏感標識符去識別化:預先決定哪些標識符應該刪除(內部 IP 地址?主機名?用戶名?)vs 保留(這些可能是模型需要學習的特徵 )。這是領域專家的判斷,ML 工程師不應該單獨做出。
標記
安全領域專業知識對標注品質至關重要。對數千個告警進行過分類的安全分析師,比讀過標記指南的 ML 工程師標記示例的準確性高得多。工具必須對分析師可訪問——不需要 Docker 設置、命令列界面或 Python 環境。
安全 AI 的標注類型:
- 告警分類(真陽性/誤報/需要調查)
- 事件和報告的 MITRE ATT&CK 戰術和技術標記
- 威脅情報 NER 的實體標記
- 事件的嚴重性評級
增強
合成資料生成解決最罕見也最有價值的類別:實際確認的真陽性告警。使用本地托管的 LLM(Llama、Qwen、Gemma 通過 Ollama 從預下載的 GGUF 文件運行),增強模塊生成歷史資料中未充分代表的攻擊模式的合理合成示例。
LLM 完全在本地運行——不調用 API,不進行資料外流。溫度和多樣性控制確保合成示例足夠多樣,以改善模型的泛化能力。
匯出
最終訓練資料以下游模型訓練作業所需的格式匯出:微調語言模型的 JSONL、傳統 ML 分類器的 CSV,或代理工具調用資料集的結構化 JSON。
氣隙安全環境的工具要求
在氣隙安全 AI 管道中使用的任何工具都必須滿足:
- 無遙測:不向外發送使用資料,不向外部服務報告錯誤
- 無自動更新:更新應需要明確的手動操作
- 可預先下載的模型:所有 AI 模型文件(用於解析、NER、品質評分、增強)必須在部署前可下載,並可在運行時無互聯網使用
- 無雲端回退:沒有在本地模型不可用時靜默回退到雲端 API 的功能
- 可審計的依賴項:所有第三方庫都應可審計意外的網絡調用
Ertas Data Suite 正是為此用例構建的:原生桌面應用程式,通過 Ollama 和 llama.cpp 本地托管 LLM 進行所有 AI 推理,沒有 遙測,沒有運行時更新檢查,以及可預先下載的 GGUF 模型文件。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相關閱讀
- 氣隙機器學習:如何在沒有互聯網訪問的情況下構建 AI 資料管道 — 完整的氣隙部署指南
- 金融服務 AI 的 PII 去識 別化:以合規為先的指南 — 相鄰受監管行業背景
- 本地 vs 自主托管 vs 氣隙:為敏感資料選擇正確的 AI 部署 — 每種部署模型的清晰定義
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

On-Premise vs Self-Hosted vs Air-Gapped: Choosing the Right AI Deployment for Sensitive Data
On-premise, self-hosted, and air-gapped are used interchangeably — but they mean different things and offer different compliance guarantees. Here's how to choose the right deployment model for sensitive AI data workloads.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.

The Real Cost of Cloud Data Prep in Regulated Industries (2026)
Cloud data prep tools require compliance approvals that cost $50K–$150K and take 6–18 months. On-premise alternatives eliminate these costs entirely. Here's the TCO comparison regulated industries need.