Back to blog
    在气隙隔离环境中处理机密文档用于NLP
    classifiedair-gappedNLPsecuritydata-pipelinedefenseon-premise

    在气隙隔离环境中处理机密文档用于NLP

    在完全气隙隔离环境中将机密文档准备为NLP训练数据的架构和操作指南。涵盖安全要求、批准的工作流模式、气隙验证以及敏感文档处理的管道设计。

    EErtas Team·

    从机密文档构建NLP模型是大多数AI工具从未被设计来解决的问题。商业数据准备平台假设网络连接——用于更新、云存储和遥测。机密环境假设相反:处理数据的机器必须具有零网络连接,可验证且可审计。

    这造成了根本性的工具缺口。处理机密文档以获取NLP训练数据的组织需要一个能够处理文档解析、文本提取、清洗、标注和导出的管道——全部在一台没有网络栈、没有出站连接、没有隐藏依赖向外通信的单一机器上运行。

    本手册涵盖在气隙隔离环境中将机密文档准备为NLP训练数据的架构、安全要求和工作流模式。

    安全分类级别与数据处理

    不同的分类级别对数据处理环境施加不同的物理和操作约束。

    分类级别物理要求人员数据传输
    CUI(受控非机密信息)上锁房间、受控访问工作站已获授权人员,按需知晓原则加密可移动介质并记录
    Secret(秘密)SCIF或同等设施、TEMPEST级设备有效Secret许可跨域解决方案(CDS)或人工审查 + 人工传递
    Top Secret / SCI(绝密/SCI)SCIF、完全TEMPEST合规、RF屏蔽有效TS/SCI许可多人审批的CDS,或护送下的物理介质

    数据管道平台必须以其处理的任何文档的最高分类级别运行。如果一份Top Secret文档进入管道,整个工作站将被视为Top Secret系统。

    气隙架构要求

    气隙隔离环境不仅仅是一台关闭了WiFi的机器。真正的气隙隔离需要经过验证的与所有网络的物理隔离。

    硬件配置

    处理工作站必须满足以下基线要求:

    • 无无线硬件。 WiFi网卡、蓝牙模块和蜂窝调制解调器必须被物理移除(不仅仅是在软件中禁用)。对于更高分类级别,BIOS级别的禁用是不够的。
    • 无网络接口。 以太网端口应物理断开或完全移除网卡。对于TEMPEST环境,系统不应安装任何网络硬件。
    • USB端口控制。 只有授权的、已登记的可移动存储设备可以连接。非授权外设所需的USB端口应被物理封堵或用环氧树脂密封。
    • 音视频隔离。 麦克风和摄像头必须被物理移除。对于TEMPEST环境,扬声器输出应在硬件级别禁用。
    • BIOS加固。 启动顺序锁定为仅内部硬盘。设置BIOS密码。在支持的情况下启用安全启动。

    软件栈

    处理环境必须是自包含的,在运行时零外部依赖。

    组件要求原因
    操作系统加固的Linux(SELinux强制模式)或已应用STIG的批准Windows最小化攻击面,强制执行强制访问控制
    数据管道工具原生应用,无容器运行时,无包管理器调用容器可能尝试拉取注册表;包管理器需要网络
    ML/NLP库预装、版本锁定、完整性已验证无pip install、无npm install、无运行时下载
    文档解析器与应用捆绑,无外部服务调用PDF解析不得调用Adobe API或云端OCR
    嵌入模型本地模型文件,无API调用嵌入生成必须完全在设备上运行

    Ertas Data Suite作为基于Tauri(Rust + React)构建的原生桌面应用满足这些要求。它将所有解析器、处理逻辑和用户界面捆绑在一个可安装的二进制文件中。无Docker、无容器运行时、无网络服务。在运行时,它不打开监听端口,不进行出站连接。

    气隙验证清单

    在处理机密文档之前,必须验证气隙。此清单应由系统管理员完成并由安全官员审查。

    检查项方法通过标准
    无网络硬件存在物理检查 + lspci/lsusb审计列出的网络控制器为零
    无无线电设备物理检查主板、扩展槽所有无线模块已物理移除
    USB端口受控物理检查未授权端口已封堵;授权端口已登记
    无出站连接能力从终端尝试ping、DNS查询、curl全部失败并显示"network unreachable"(不是超时)
    无监听服务ss -tulnp或等效netstat监听端口为零
    应用完整性已安装应用的SHA-256哈希与已知良好哈希匹配确认哈希匹配
    操作系统加固已应用STIG合规扫描或同等检查所有适用控制项通过
    审计日志已启用验证syslog/auditd正在运行并写入本地存储正在生成日志条目

    此验证必须在任何硬件更改、软件更新或维护事件后重复进行。记录每次验证的日期、操作员和安全官员签字。

    批准的工作流模式

    模式1:文档到训练数据管道

    这是主要工作流——将机密文档语料库转换为结构化NLP训练数据。

    授权介质导入
            |
       File Import(PDF、Word、扫描图片)
            |
       文档解析(文本提取、布局分析)
            |
       清洗(去重、格式标准化)
            |
       PII/分类标记脱敏
            |
       质量评分
            |
       标注(NER、分类标签、问答对)
            |
       Train/Val/Test拆分
            |
       JSONL导出
            |
       授权介质导出(经审查)
    

    在Ertas中,这直接映射到节点图:File Import、PDF Parser(或Word/Image Parser)、Deduplicator、Format Normalizer、PII Redactor、Quality Scorer、Train/Val/Test Splitter和JSONL Exporter。每个节点产生可观察的中间输出。安全审查人员可以在数据进入下一阶段之前检查任何阶段的数据。

    关键约束: 导出的JSONL文件与源文档具有相同的分类级别。它必须按该分类级别的要求进行处理、存储和传输。

    模式2:知识库构建(RAG)

    从机密文档构建可搜索的知识库,供同一安全域内的授权AI系统使用。

    授权介质导入
            |
       File Import → Parser → PII Redactor
            |
       RAG Chunker → Embedding(本地模型)→ Vector Store Writer
            |
       [知识库存储在机密系统本地]
            |
       API Endpoint → Query Embedder → Vector Search → Context Assembler → API Response
            |
       [检索端点仅在气隙隔离域内可访问]
    

    Ertas RAG管道完全在本地运行。嵌入生成使用本地模型(无API调用)。向量存储是本地文件。检索API端点仅在localhost上监听——可被同一机器上的其他应用访问,但不可被任何网络访问。

    模式3:跨域降级

    当从机密来源准备的NLP训练数据需要移动到较低分类级别的环境时(例如,在非机密模型训练集群上使用脱敏后的训练数据),管道必须包含正式的降级审查。

    这不是技术问题——而是流程问题。管道的作用是产生干净的、完全脱敏的输出,并提供人工审查人员授权跨域传输所需的审计追踪。

    Ertas通过生成完整的处理日志来支持这一点:每个接入的文档、每个应用的转换、每个执行的脱敏,附带时间戳和校验和。此日志是审查人员在降级授权过程中审查的工件。

    文档类型和解析考虑

    机密文档语料库通常包括:

    文档类型解析挑战Ertas方法
    打字报告 (PDF)页眉/页脚中的分类标记,正文中的部分标记PDF Parser提取文本;PII Redactor配置为识别分类标记模式
    扫描文档OCR准确度因扫描质量而异;手写注释Image Parser配合本地OCR;Quality Scorer标记低置信度提取
    技术手册复杂表格、带标注的图表、多栏布局PDF Parser配合布局分析;结构化提取保留表格格式
    电子邮件档案 (PST/MBOX)嵌套线程、附件、混合分类的转发链File Import处理归档格式;Deduplicator解决转发重复
    演示文稿项目符号文本、嵌入图表、演讲者备注PowerPoint Parser分别从幻灯片和备注中提取文本

    处理分类标记

    机密文档包含部分标记——各段落上的分类指示符,如"(S)"表示Secret或"(U)"表示Unclassified。管道应:

    1. 在文本提取过程中检测和解析部分标记
    2. 为每个文本段标记其分类级别
    3. 在导出时启用按分类级别过滤(例如,仅提取"(U)"部分用于较低分类级别的训练集)

    PII Redactor节点可配置为识别标准部分标记模式,并根据下游用例将其保留为元数据或进行脱敏。

    操作安全考虑

    介质处理。 用于在气隙隔离环境内外传输数据的所有可移动介质必须登记、追踪,并在使用后消磁或销毁。切勿在不同分类级别之间重复使用介质。

    屏幕截图和摄影。 工作站不应具有屏幕截图功能。禁止拍摄屏幕。Ertas不包含任何屏幕录制或截图功能。

    维护和更新。 气隙隔离工作站的软件更新需要与机密数据相同的介质传输协议。在干净介质上获取Ertas更新包,将其哈希值与通过独立渠道发布的已知良好值进行验证,然后在无网络连接的情况下安装。

    人员访问。 只有经过授权且有需知权限的人员才应有权物理访问处理工作站。使用刷卡进出记录记录所有访问。

    无网络的管道可观察性

    传统的管道监控假设通过网络可访问的仪表板。在气隙隔离环境中,可观察性是本地的。

    Ertas直接在其桌面界面中提供管道可观察性。管道图中的每个节点显示其处理状态、记录计数、错误率和输出预览。完整的执行日志写入本地文件,可以在同一台机器上审查,或通过授权介质导出以供合规审查。

    无基于网络的监控、无云端仪表板、无遥测。一切都留在机器上。

    入门指南

    为NLP处理机密文档受到安全要求的约束,这些要求将大多数商业工具排除在考虑之外。工具必须是原生应用、完全自包含、零网络依赖且具有完整的本地可观察性。

    Ertas Data Suite正是为这种运营模式而构建的。一个可安装的二进制文件在加固工作站上运行,通过可视化管道处理文档,并生成AI就绪的训练数据——全部无需打开任何网络连接。每次转换都在本地记录,每个中间输出都可检查,整个管道可由您的安全官员审计。

    机密文档包含您的NLP模型所需的领域知识。Ertas提供安全提取它的管道。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading