
网络安全团队如何在气隙环境中构建 AI
网络安全团队处理最敏感的组织数据。以下是如何构建永不触及互联网的 AI 数据准备和训练管道——包括使用本地 LLM 进行合成数据生成。
大多数 AI 工具的部署方式有一种特别的讽刺意味:它们将数据发送到云端进行处理。对于普通企业来说,这是值得做的隐私权衡。对于网络安全团队来说,这根本不是权衡——而是一个取消资格的条件。
"大多数 AI 工具通过云处理推理,使数据本质上变成公开的。" 这句话来自我们在调研过程中交谈的一家网络安全公司。它精确地捕捉了问题。网络安全团队处理的数据 ——威胁情报、事件报告、内部网络拓扑、漏洞详情、行为分析和安全事件日志——是大多数组织中最敏感的数据类别。将其发送到第三方云服务进行处理,即使有数据处理协议,也从根本上违背了首先保护这些数据的目的。
本指南介绍网络安全团队如何在数据留在应有位置的环境中构建 AI。
网络安全团队需要 AI 做什么
在讨论基础设施约束之前,明确安全运营中推动需求的 AI 用例会有帮助:
告警分类和分类:安全运营中心每天处理数千条告警。绝大多数是误报。一个训练良好的分类模型——基于组织自身的历史告警数据训练——通过真阳性概率对告警进行分类,可以大大减少分析师疲劳和平均响应时间。
日志异常检测:网络流量数据、认证日志、端点遥测和应用日志包含横向移动、权限提升和数据泄露的信号。经典的基于规则的检测会遗漏新型模式。基于基线行为训练的 ML 模型可以发现规则永远无法捕获的统计异常。
威胁情报提取:非结构化的威胁报告、事件复盘和供应商公告包含有价值的攻击指标、攻击者技术和受影响系统。训练用于将这 些实体提取为结构化格式的 NER 模型可以显著加速威胁情报摄取。
漏洞分类:当新的 CVE 发布时,安全团队需要评估哪些系统受影响、在其环境中被利用的概率以及如何确定修复优先级。基于组织资产清单和历史漏洞数据训练的模型可以自动化初始分类层。
事件报告生成:安全分析师花费大量时间编写事件报告、复盘和高管摘要。基于历史事件训练的微调模型可以从结构化事件数据生成初稿,由分析师在最终确定前进行审查。
所有这些用例都需要从组织自身运营数据中获取训练数据。这些数据都不能离开环境。
气隙约束的实践
"气隙「意味着运行时没有网络连接。不是」在你自己的云账户中自托管「。不是」在有防火墙规则的数据中心服务器上的 Docker"。与外部网络物理断开,或严格网络隔离且没有出站互联网连接。
这对 AI 数据准备管道的每个组件都提出了特定要求:
文档解析:必须完全在本地运行。不能使用云 OCR API(Google Document AI、Azure Document Intelligence、AWS Textract 都会回传数据)。需要嵌入式 OCR——Tesseract、Surya 或类似工具——在本地硬件上运行。
AI 辅助功能:任何 ML 辅助标注、实体识别或质量评分都必须使用本地托管的模型。这意味着在部署前将 GGUF 模型文件下载到本地存储,通过 Ollama 或 llama.cpp 运行,推理时无需互联网访问。
质量评分:基于嵌入的去重和语义质量评分需要本地嵌入模型。sentence-transformers 在大多数嵌入任务上可以在 CPU 上良好运行。模型文件必须预先下载。
导出和传输:数据通过安全文件传输(加密驱动器、内部网络传输)在系统之间移动,永不通过外部服务。
更新:软件更新不能自动推送。更新必须在审查后手动应用,这产生了额外的维护要求,但也减少了攻击面。
构建气隙 AI 管道时最常见的失败模式是在项目进行到一半时发现某个组件会回传数据。许多开源工具会发送遥测数据、检查更新或从外部 API 加载模型,而这些并没有被明确说明。气隙管道中使用的任何工具在部署前都必须进行外部网络调用审计。
数据类型及其准备要求
安全事件日志
大多数安全环境中最高流量的数据类型。格式通常是结构化的(CEF、LEEF、syslog、JSON),这使解析相对简单。准备挑战在于:
- 数量:安全日志非常庞大。中型企业每天产生数百 GB 的日志数据。训练数据需要采样、过滤和标注——而非完整处理。
- 标签不平衡:真阳性告警很少(通常不到事件的 0.1%)。训练分类模型需要有目的的采样策略以获得足够的正例,结合合成数据生成来增强稀有类别的训练集。
- 时间上下文:许多安全事件只有在序列中才有意义(一系列失败的登录尝试,然后从新位置成功登录)。训练数据准备必须保留事件的时间顺序和上下文窗口。
威胁情报文档
PDF、Word 或 HTML 格式的非结构化报告。准备要求:
- 带有实体感知解析的文档摄取(IOC 如 IP 地址、哈希值、域名、CVE 标识符必须被精确保留,不被 OCR 规范化破坏)
- NER 标注以标记实体类 型(IP 地址 vs. 域名 vs. 文件哈希 vs. 威胁行为者名称 vs. 受影响产品)
- 更高级用例的关系提取标注(X 利用 Y;A 与 B 关联)
事件报告和复盘
包含过去事件详细技术描述的内部文档。这些是环境中最敏感的文档(它们描述了攻击者如何成功入侵系统)也是最有价值的训练数据(它们包含关于攻击者在组织特定环境中行为的真实记录)。
准备要求:
- 仔细的 PII 和敏感系统脱敏(事件报告中出现的主机名、内部 IP 地址和系统名称可能需要在用于超出原始事件团队范围的训练数据之前进行匿名化)
- 事件属性的结构化提取(MITRE ATT&CK 技术、受影响系统、时间线、修复步骤)
- 用于微调事件摘要模型的一致格式化
漏洞数据
来自漏洞扫描器(Nessus、Qualys、Rapid7)的结构化数据结合资产清单数据。准备要求:
- 在训练前将资产数据与漏洞数据关联,同时移除资产标识信息(主机名、IP)
- 用历史漏洞的实际利用结果进行标注(在环境中被利用 vs. 未被利用)
构建管道:逐阶段
摄取
所有文档通过本地解析管道。对于结构化日志数据,这是简单的格式转换。对于非结构化文档(PDF、Word、HTML 威胁报告),这需要完全在本地运行的嵌入式 OCR 和布局分析。
解析器必须处理安全环境中常见的特定格式:具有复杂布局的 PDF 威胁报告、CSV/JSON 日志导出、XML 漏洞扫描输出和 Word 事件报告。
清洗
对于日志衍生的训练数据,去重很重要,因为相同的事件类型出现数千次。语义去重识别会创建多样性非常低的训练数据的近似相同事件。
PII 和敏感标识符脱敏:预先决定哪些标识符应该被移除(内部 IP 地址?主机名?用户名?)vs. 保留(这些可能是模型需要学习的特征)。这是一个领域专家的判断决策,ML 工程师不应该单独做出。
标注
安全领域专业知识对标注质量至关重要。一个分类过数千条告警的安全分析师标注示例的准确性远高于一个只读过标注指南的 ML 工程师。工具必须对分析师友好——不需要 Docker 设置、命令行界面或 Python 环境。
安全 AI 的标注类型:
- 告警分类(真阳性 / 误报 / 需要调查)
- 事件和报告的 MITRE ATT&CK 战术和技术标注
- 威胁情报 NER 的实体标注
- 事件严重性评级
增强
合成数据生成解决最稀有和最有价值的类别:实际确认的真阳性告警。使用本地托管的 LLM(Llama、Qwen、Gemma 通过 Ollama 从预下载的 GGUF 文件运行),增强模块生成历史数据中代表性不足的攻击模式的合理合成示例。
LLM 完全在本地运行——没有 API 调用,没有数据外泄。温度和多样性控制确保合成示例足够多样化,以改善模型泛化能力。
导出
最终训练数据以下游模型训练作业所需的格式导出:用于微调语言模型的 JSONL、用于经典 ML 分类器的 CSV 或用于代理工具调用数据集的结构化 JSON。
气隙安全环境的工具要求
气隙安全 AI 管道中使用的任何工具必须满足:
- 无遥测:不向外发送使用数据,不向外部服务报告错误
- 无自动更新:更新应该需要明确的手动操作
- 可预下载模型:所有 AI 模型文件(用于解析、NER、质量评分、增强)必须在部署前可下载,运行时无需互联网
- 无云回退:当本地模型不可用时,没有静默回退到云 API 的功能
- 可审计的依赖:所有第三方库应可审计以检查意外的网络调用
Ertas Data Suite 专为此用例构建:原生桌面应用,所有 AI 推理通过 Ollama 和 llama.cpp 的本地托管 LLM 进行,无遥测,运行时无更新检查,可预下载 GGUF 模型文件。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相关阅读
- 气隙机器学习:如何在没有互联网访问的情况下构建 AI 数据管道 — 完整的气隙部署指南
- 金融服务 AI 的 PII 脱敏:合规优先指南 — 相邻受监管行业的背景
- 本地部署 vs 自托管 vs 气隙:为敏感数据选择正确的 AI 部署 — 每种部署模型的清晰定义
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Air-Gapped Machine Learning: How to Build AI Data Pipelines Without Internet Access
A practical guide to building AI data preparation and training pipelines in air-gapped environments — from document ingestion to model export — with no internet connectivity required at any stage.

On-Premise vs Self-Hosted vs Air-Gapped: Choosing the Right AI Deployment for Sensitive Data
On-premise, self-hosted, and air-gapped are used interchangeably — but they mean different things and offer different compliance guarantees. Here's how to choose the right deployment model for sensitive AI data workloads.

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.