在气隙隔离环境中处理机密文档用于NLP

从机密文档构建NLP模型是大多数AI工具从未被设计来解决的问题。商业数据准备平台假设网络连接——用于更新、云存储和遥测。机密环境假设相反：处理数据的机器必须具有零网络连接，可验证且可审计。

这造成了根本性的工具缺口。处理机密文档以获取NLP训练数据的组织需要一个能够处理文档解析、文本提取、清洗、标注和导出的管道——全部在一台没有网络栈、没有出站连接、没有隐藏依赖向外通信的单一机器上运行。

本手册涵盖在气隙隔离环境中将机密文档准备为NLP训练数据的架构、安全要求和工作流模式。

安全分类级别与数据处理

不同的分类级别对数据处理环境施加不同的物理和操作约束。

分类级别	物理要求	人员	数据传输
CUI（受控非机密信息）	上锁房间、受控访问工作站	已获授权人员，按需知晓原则	加密可移动介质并记录
Secret（秘密）	SCIF或同等设施、TEMPEST级设备	有效Secret许可	跨域解决方案（CDS）或人工审查 + 人工传递
Top Secret / SCI（绝密/SCI）	SCIF、完全TEMPEST合规、RF屏蔽	有效TS/SCI许可	多人审批的CDS，或护送下的物理介质

数据管道平台必须以其处理的任何文档的最高分类级别运行。如果一份Top Secret文档进入管道，整个工作站将被视为Top Secret系统。

气隙架构要求

气隙隔离环境不仅仅是一台关闭了WiFi的机器。真正的气隙隔离需要经过验证的与所有网络的物理隔离。

硬件配置

处理工作站必须满足以下基线要求：

无无线硬件。 WiFi网卡、蓝牙模块和蜂窝调制解调器必须被物理移除（不仅仅是在软件中禁用）。对于更高分类级别，BIOS级别的禁用是不够的。
无网络接口。 以太网端口应物理断开或完全移除网卡。对于TEMPEST环境，系统不应安装任何网络硬件。
USB端口控制。 只有授权的、已登记的可移动存储设备可以连接。非授权外设所需的USB端口应被物理封堵或用环氧树脂密封。
音视频隔离。 麦克风和摄像头必须被物理移除。对于TEMPEST环境，扬声器输出应在硬件级别禁用。
BIOS加固。 启动顺序锁定为仅内部硬盘。设置BIOS密码。在支持的情况下启用安全启动。

软件栈

处理环境必须是自包含的，在运行时零外部依赖。

组件	要求	原因
操作系统	加固的Linux（SELinux强制模式）或已应用STIG的批准Windows	最小化攻击面，强制执行强制访问控制
数据管道工具	原生应用，无容器运行时，无包管理器调用	容器可能尝试拉取注册表；包管理器需要网络
ML/NLP库	预装、版本锁定、完整性已验证	无pip install、无npm install、无运行时下载
文档解析器	与应用捆绑，无外部服务调用	PDF解析不得调用Adobe API或云端OCR
嵌入模型	本地模型文件，无API调用	嵌入生成必须完全在设备上运行

Ertas Data Suite作为基于Tauri（Rust + React）构建的原生桌面应用满足这些要求。它将所有解析器、处理逻辑和用户界面捆绑在一个可安装的二进制文件中。无Docker、无容器运行时、无网络服务。在运行时，它不打开监听端口，不进行出站连接。

气隙验证清单

在处理机密文档之前，必须验证气隙。此清单应由系统管理员完成并由安全官员审查。

检查项	方法	通过标准
无网络硬件存在	物理检查 + lspci/lsusb审计	列出的网络控制器为零
无无线电设备	物理检查主板、扩展槽	所有无线模块已物理移除
USB端口受控	物理检查	未授权端口已封堵；授权端口已登记
无出站连接能力	从终端尝试ping、DNS查询、curl	全部失败并显示"network unreachable"（不是超时）
无监听服务	ss -tulnp或等效netstat	监听端口为零
应用完整性	已安装应用的SHA-256哈希与已知良好哈希匹配	确认哈希匹配
操作系统加固已应用	STIG合规扫描或同等检查	所有适用控制项通过
审计日志已启用	验证syslog/auditd正在运行并写入本地存储	正在生成日志条目

此验证必须在任何硬件更改、软件更新或维护事件后重复进行。记录每次验证的日期、操作员和安全官员签字。

批准的工作流模式

模式1：文档到训练数据管道

这是主要工作流——将机密文档语料库转换为结构化NLP训练数据。

授权介质导入
        |
   File Import（PDF、Word、扫描图片）
        |
   文档解析（文本提取、布局分析）
        |
   清洗（去重、格式标准化）
        |
   PII/分类标记脱敏
        |
   质量评分
        |
   标注（NER、分类标签、问答对）
        |
   Train/Val/Test拆分
        |
   JSONL导出
        |
   授权介质导出（经审查）

在Ertas中，这直接映射到节点图：File Import、PDF Parser（或Word/Image Parser）、Deduplicator、Format Normalizer、PII Redactor、Quality Scorer、Train/Val/Test Splitter和JSONL Exporter。每个节点产生可观察的中间输出。安全审查人员可以在数据进入下一阶段之前检查任何阶段的数据。

关键约束： 导出的JSONL文件与源文档具有相同的分类级别。它必须按该分类级别的要求进行处理、存储和传输。

模式2：知识库构建（RAG）

从机密文档构建可搜索的知识库，供同一安全域内的授权AI系统使用。

授权介质导入
        |
   File Import → Parser → PII Redactor
        |
   RAG Chunker → Embedding（本地模型）→ Vector Store Writer
        |
   [知识库存储在机密系统本地]
        |
   API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
        |
   [检索端点仅在气隙隔离域内可访问]

Ertas RAG管道完全在本地运行。嵌入生成使用本地模型（无API调用）。向量存储是本地文件。检索API端点仅在localhost上监听——可被同一机器上的其他应用访问，但不可被任何网络访问。

模式3：跨域降级

当从机密来源准备的NLP训练数据需要移动到较低分类级别的环境时（例如，在非机密模型训练集群上使用脱敏后的训练数据），管道必须包含正式的降级审查。

这不是技术问题——而是流程问题。管道的作用是产生干净的、完全脱敏的输出，并提供人工审查人员授权跨域传输所需的审计追踪。

Ertas通过生成完整的处理日志来支持这一点：每个接入的文档、每个应用的转换、每个执行的脱敏，附带时间戳和校验和。此日志是审查人员在降级授权过程中审查的工件。

文档类型和解析考虑

机密文档语料库通常包括：

文档类型	解析挑战	Ertas方法
打字报告 (PDF)	页眉/页脚中的分类标记，正文中的部分标记	PDF Parser提取文本；PII Redactor配置为识别分类标记模式
扫描文档	OCR准确度因扫描质量而异；手写注释	Image Parser配合本地OCR；Quality Scorer标记低置信度提取
技术手册	复杂表格、带标注的图表、多栏布局	PDF Parser配合布局分析；结构化提取保留表格格式
电子邮件档案 (PST/MBOX)	嵌套线程、附件、混合分类的转发链	File Import处理归档格式；Deduplicator解决转发重复
演示文稿	项目符号文本、嵌入图表、演讲者备注	PowerPoint Parser分别从幻灯片和备注中提取文本

处理分类标记

机密文档包含部分标记——各段落上的分类指示符，如"(S)"表示Secret或"(U)"表示Unclassified。管道应：

在文本提取过程中检测和解析部分标记
为每个文本段标记其分类级别
在导出时启用按分类级别过滤（例如，仅提取"(U)"部分用于较低分类级别的训练集）

PII Redactor节点可配置为识别标准部分标记模式，并根据下游用例将其保留为元数据或进行脱敏。

操作安全考虑

介质处理。 用于在气隙隔离环境内外传输数据的所有可移动介质必须登记、追踪，并在使用后消磁或销毁。切勿在不同分类级别之间重复使用介质。

屏幕截图和摄影。 工作站不应具有屏幕截图功能。禁止拍摄屏幕。Ertas不包含任何屏幕录制或截图功能。

维护和更新。 气隙隔离工作站的软件更新需要与机密数据相同的介质传输协议。在干净介质上获取Ertas更新包，将其哈希值与通过独立渠道发布的已知良好值进行验证，然后在无网络连接的情况下安装。

人员访问。 只有经过授权且有需知权限的人员才应有权物理访问处理工作站。使用刷卡进出记录记录所有访问。

无网络的管道可观察性

传统的管道监控假设通过网络可访问的仪表板。在气隙隔离环境中，可观察性是本地的。

Ertas直接在其桌面界面中提供管道可观察性。管道图中的每个节点显示其处理状态、记录计数、错误率和输出预览。完整的执行日志写入本地文件，可以在同一台机器上审查，或通过授权介质导出以供合规审查。

无基于网络的监控、无云端仪表板、无遥测。一切都留在机器上。

入门指南

为NLP处理机密文档受到安全要求的约束，这些要求将大多数商业工具排除在考虑之外。工具必须是原生应用、完全自包含、零网络依赖且具有完整的本地可观察性。

Ertas Data Suite正是为这种运营模式而构建的。一个可安装的二进制文件在加固工作站上运行，通过可视化管道处理文档，并生成AI就绪的训练数据——全部无需打开任何网络连接。每次转换都在本地记录，每个中间输出都可检查，整个管道可由您的安全官员审计。

机密文档包含您的NLP模型所需的领域知识。Ertas提供安全提取它的管道。