
在气隙隔离环境中处理机密文档用于NLP
在完全气隙隔离环境中将机密文档准备为NLP训练数据的架构和操作指南。涵盖安全要求、批准的工作流模式、气隙验证以及敏感文档处理的管道设计。
从机密文档构建NLP模型是大多数AI工具从未被设计来解决的问题。商业数据准备平台假设网络连接——用于更新、云存储和遥测。机密环境假设相反:处理数据的机器必须具有零网络连接,可验证且可审计。
这造成了根本性的工具缺口。处理机密文档以获取NLP训练数据的组织需要一个能够处理文档解析、文本提取、清洗、标注和导出的管道——全部在一台没有网络栈、没有出站连接、没有隐藏依赖向外通信的单一机器上运行。
本手册涵盖在气隙隔离环境中将机密文档准备为NLP训练数据的架构、安全要求和工作流模式。
安全分类级别与数据处理
不同的分类级别对数据处理环境施加不同的物理和操作约束。
| 分类级别 | 物理要求 | 人员 | 数据传输 |
|---|---|---|---|
| CUI(受控非机密信息) | 上锁房间、受控访问工作站 | 已获授权人员,按需知晓原则 | 加密可移动介质并记录 |
| Secret(秘密) | SCIF或同等设施、TEMPEST级设备 | 有效Secret许可 | 跨域解决方案(CDS)或人工审查 + 人工传递 |
| Top Secret / SCI(绝密/SCI) | SCIF、完全TEMPEST合规、RF屏蔽 | 有效TS/SCI许可 | 多人审批的CDS,或护送下的物理介质 |
数据管道平台必须以其处理的任何文档的最高分类级别运行。如果一份Top Secret文档进入管道,整个工作站将被视为Top Secret系统。
气隙架构要求
气隙隔离环境不仅仅是一台关闭了WiFi的机器。真正的气隙隔离需要经过验证的与所有网络的物理隔离。
硬件配置
处理工作站必须满足以下基线要求:
- 无无线硬件。 WiFi网卡、蓝牙模块和蜂窝调制解调器必须被物理移除(不仅仅是在软件中禁用)。对于更高分类级别,BIOS级别的禁用是不够的。
- 无网络接口。 以太网端口应物理断开或完全移除网卡。对于TEMPEST环境,系统不应安装任何网络硬件。
- USB端口控制。 只有授权的、已登记的可移动存储设备可以连接。非授权外设所需的USB端口应被物理封堵或用环氧树脂密封。
- 音视频隔离。 麦克风和摄像头必须被物理移除。对于TEMPEST环境,扬声器输出应在硬件级别禁用。
- BIOS加固。 启动顺序锁定为仅内部硬盘。设置BIOS密码。在支持的情况下启用安全启动。
软件栈
处理环境必须是自包含的,在运行时零外部依赖。
| 组件 | 要求 | 原因 |
|---|---|---|
| 操作系统 | 加固的Linux(SELinux强制模式)或已应用STIG的批准Windows | 最小化攻击面,强制执行强制访问控制 |
| 数据管道工具 | 原生应用,无容器运行时,无包管理器调用 | 容器可能尝试拉取注册表;包管理器需要网络 |
| ML/NLP库 | 预装、版本锁定、完整性已验证 | 无pip install、无npm install、无运行时下载 |
| 文档解析器 | 与应用捆绑,无外部服务调用 | PDF解析不得调用Adobe API或云端OCR |
| 嵌入模型 | 本地模型文件,无API调用 | 嵌入生成必须完全在设备上运行 |
Ertas Data Suite作为基于Tauri(Rust + React)构建的原生桌面应用满足这些要求。它将所有解析器、处理逻辑和用户界面捆绑在一个可安装的二进制文件中。无Docker、无容器运行时、无网络服务。在运行时,它不打开监听端口,不进行出站连接。
气隙验证清单
在处理机密文档之前,必须验证气隙。此清单应由系统管理员完成并由安全官员审查。
| 检查项 | 方法 | 通过标准 |
|---|---|---|
| 无网络硬件存在 | 物理检查 + lspci/lsusb审计 | 列出的网络控制器为零 |
| 无无线电设备 | 物理检查主板、扩展槽 | 所有无线模块已物理移除 |
| USB端口受控 | 物理检查 | 未授权端口已封堵;授权端口已登记 |
| 无出站连接能力 | 从终端尝试ping、DNS查询、curl | 全部失败并显示"network unreachable"(不是超时) |
| 无监听服务 | ss -tulnp或等效netstat | 监听端口为零 |
| 应用完整性 | 已安装应用的SHA-256哈希与已知良好哈希匹配 | 确认哈希匹配 |
| 操作系统加固已应用 | STIG合规扫描或同等检查 | 所有适用控制项通过 |
| 审计日志已启用 | 验证syslog/auditd正在运行并写入本地存储 | 正在生成日志条目 |
此验证必须在任何硬件更改、软件更新或维护事件后重复进行。记录每次验证的日期、操作员和安全官员签字。
批准的工作流模式
模式1:文档到训练数据管道
这是主要工作流——将机密文档语料库转换为结构化NLP训练数据。
授权介质导入
|
File Import(PDF、Word、扫描图片)
|
文档解析(文本提取、布局分析)
|
清洗(去重、格式标准化)
|
PII/分类标记脱敏
|
质量评分
|
标注(NER、分类标签、问答对)
|
Train/Val/Test拆分
|
JSONL导出
|
授权介质导出(经审查)
在Ertas中,这直接映射到节点图:File Import、PDF Parser(或Word/Image Parser)、Deduplicator、Format Normalizer、PII Redactor、Quality Scorer、Train/Val/Test Splitter和JSONL Exporter。每个节点产生可观察的中间输出。安全审查人员可以在数据进入下一阶段之前检查任何阶段的数据。
关键约束: 导出的JSONL文件与源文档具有相同的分类级别。它必须按该分类级别的要求进行处理、存储和传输。
模式2:知识库构建(RAG)
从机密文档构建可 搜索的知识库,供同一安全域内的授权AI系统使用。
授权介质导入
|
File Import → Parser → PII Redactor
|
RAG Chunker → Embedding(本地模型)→ Vector Store Writer
|
[知识库存储在机密系统本地]
|
API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
|
[检索端点仅在气隙隔离域内可访问]
Ertas RAG管道完全在本地运行。嵌入生成使用本地模型(无API调用)。向量存储是本地文件。检索API端点仅在localhost上监听——可被同一机器上的其他应用访问,但不可被任何网络访问。
模式3:跨域降级
当从机密来源准备的NLP训练数据需要移动到较低分类级别的环境时(例如,在非机密模型训练集群上使用脱敏后的训练数据),管道必须包含正式的降级审查。
这不是技术问题——而是流程问题。管道的作用是产生干净的、完全脱敏的输出,并提供人工审查人员授权跨域传输所需的审计追踪。
Ertas通过生成完整的处理日志来支持这一点:每个接入的文档、每个应用的转换、每个执行的脱敏,附带时间戳和校验和。此日志是审查人员在降级授权过程中审查的工件。
文档类型和解析考虑
机密文档语料库通常包括:
| 文档类型 | 解析挑战 | Ertas方法 |
|---|---|---|
| 打字报告 (PDF) | 页眉/页脚中的分类标记,正文中的部分标记 | PDF Parser提取文本;PII Redactor配置为识别分类标记模式 |
| 扫描文档 | OCR准确度因扫描质量而异;手写注释 | Image Parser配合本地OCR;Quality Scorer标记低置信度提取 |
| 技术手册 | 复杂表格、带标注的图表、多栏布局 | PDF Parser配合布局分析;结构化提取保留表格格式 |
| 电子邮件档案 (PST/MBOX) | 嵌套线程、附件、混合分类的转发链 | File Import处理归档格式;Deduplicator解决转发重复 |
| 演示文稿 | 项目符号文本、嵌入图表、演讲者备注 | PowerPoint Parser分别从幻灯片和备注中提取文本 |
处理分类标记
机密文档包含部分标记——各段落上的分类指示符,如"(S)"表示Secret或"(U)"表示Unclassified。管道应:
- 在文本提取过程中检测和解析部分标记
- 为每个文本段标记其分类级别
- 在导出时启用按分类级别过滤(例如,仅提取"(U)"部分用于较低分类级别的训练集)
PII Redactor节点可配置为识别标准部分标记模式,并根据下游用例将其保留为元数据或进行脱敏。