
政府和国防 AI 承包商的气隙数据准备
在真正气隙隔离的政府和国防环境中运行 AI 数据准备流水线的技术指南,零互联网连接。
政府和国防 AI 合同在大多数商业 AI 团队从未遇到的约束下运行。最重要的:真正的气隙操作。不是"私有云「。不是」VPN 隔离"。没有互联网。完全没有外部网络连接。
政府和国防中"气隙"的含义
分类级别和网络影响
| 网络 | 分类 | 互联网访问 |
|---|---|---|
| NIPRNet | 未分类(CUI) | 有,过滤 |
| SIPRNet | 机密 | 无 |
| JWICS | 绝密/SCI | 无 |
| 独立 | 不等 | 无 |
气隙环境中什么会失败
许可证验证
许多工具在启动时通过联系外部服务器验证许可证。
自动更新
检查更新的工具要么静默失败要么阻塞启动。
云 OCR 和解析 API
在气隙环境中这些调用失败。
模型权重下载
NER 模型和语言模型通常在首次使用时下载权重。
包管理器和依赖解析
pip install、npm install 都需要外部注册表。
部署前检查清单
- 所有应用程序二进制文件已包含并测试
- 所有模型权重已预加载
- 所有依赖已打包
- 许可证密钥配置为离线操作
- 自动更新机制已禁用
- 遥测和分析已禁用
- 在网线物理断开的情况下端到端测试完整流水线
原生桌面的优势
在机密和气隙环境中,需要 Docker、Kubernetes 或复杂服务器基础设施的工具很难部署。作为原生桌面应用运行的工具——从单个二进制文件安装且无外部依赖——部署容易得多。
NIST 和 FedRAMP 考虑
NIST SP 800-171
访问控制、审计和问责、配置管理、系统和信息完整性。
CMMC
CMMC Level 2 与 NIST SP 800-171 一致。
实用架构
- 文档解析:Docling(本地)或 Tesseract
- 文本清洗:Python 脚本,所有依赖打包
- PII/PHI 脱敏:本地 NER 模型 + 正则表达式
- 标注:原生桌面应用
- 增强:本地 LLM(Llama 3.1 8B,权重预加载)
- 导出:本地文件输出,附清单和溯源文档
Ertas Data Suite 使用 Tauri 2.0(Rust + React)构建为原生桌面应用。完全离线运行,任何阶段无互联网依赖。从单个二进制文件安装,无需 Docker 或 Kubernetes。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

AI Data Preparation for Government Agencies: Security Classifications and Air-Gapped Requirements
How government and defense agencies can prepare classified and sensitive data for AI model training in air-gapped environments — covering CMMC, FedRAMP, ITAR, and security classification handling.

FedRAMP, ITAR, and Air-Gapped AI: Data Prep Without Cloud Exposure
How FedRAMP authorization, ITAR restrictions, and air-gapped requirements shape AI data preparation for government and defense — and why native desktop apps solve the compliance problem.

On-Premise Runtime Architecture for Enterprise AI Data Preparation
Architectural guide for running AI data preparation on-premise — deployment models, compute tiers, local LLM inference, and storage strategies for enterprise datasets.