
如何為受監管行業構建氣隙 AI 管線
構建零網路連接 AI 管線的決策階段技術指南。涵蓋每個階段的管線架構——數據攝入、清洗、標注、擴增和匯出——以及氣隙環境的硬體要求、工具比較和傳輸機制。
您已決定您的 AI 管線必須在氣隙環境中運行——與互聯網物理隔離,沒有例外。也許您的數據是機密的。也許您的監管機構要求這樣做。也許您的安全團隊進行了風險評估,得出任何外部連接對這個特定工作負載都是不可接受的結論。
本文不是關於您是否需要氣隙操作的問題。(如果您不確定,請參見我們的氣隙與本地部署與自託管部署指南了解決策框架。)本文涵蓋在構建永遠不會接觸互聯網的 AI 系統時,您需要在每個管線階段做出的架構決策。
管線有五個階段。每個階段有不同的硬體要求、不同的工具限制,以及在連接被移除時不同的失敗模式。我們將逐一介紹每個階段。
管線架構概覽
氣隙 AI 管線與任何其他 ML 管線具有相同的邏輯階段。不同之處在於,每個階段的每個組件都必須在零外部連接的情況下運行——沒有 API 調用、沒有許可服務器、沒有 CDN 托管資產、沒有遙測、沒有依賴下載。
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────────┐ ┌──────────┐
│ Ingest │──▶│ Clean │──▶│ Label │──▶│ Augment │──▶│ Export │
│ │ │ │ │ │ │ (Synthetic) │ │ │
│ OCR │ │ PII/PHI │ │ NER │ │ Local LLM │ │ JSONL │
│ PDF │ │ Redact │ │ Classify │ │ Inference │ │ COCO │
│ Layout │ │ Normalize│ │ BBox │ │ │ │ CSV │
└──────────┘ └──────────┘ └──────────┘ └──────────────┘ └──────────┘
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
[Audit Log] [Audit Log] [Audit Log] [Audit Log] [Audit Log]
每個階段都寫入本地稽核日誌。在氣隙環境中,稽核追蹤是您關於數據發生了什麼的唯一證據。沒有雲端日誌服務可以作為後備。
第一階段:數據攝入
數據攝入將原始企業文件——PDF、Word 文件、掃描圖像、電子表格、電子郵件——轉換為機器可讀的文本和結構化內容。在氣隙環境中,這意味著所有解析和 OCR 必須嵌入到應用程序中。
架構決策
OCR 引擎選擇:您需要完全在本地運行的 OCR,沒有外部 API 調用,也沒有依賴互聯網的模型下載。
| OCR 引擎 | 氣隙兼容 | 語言支持 | 乾淨文件準確性 | 掃描文件準確性 | GPU 加速 |
|---|---|---|---|---|---|
| Tesseract 5.x | 是——完全本地,開源 | 通過離線語言包支持 100+ 種語言 | 良好 | 中等 | 否 |
| PaddleOCR | 是——完全本地,開源 | 80+ 種語言,強大的 CJK 支持 | 非常好 | 良好 | 是(可選) |
| EasyOCR | 是——完全本地,開源 | 80+ 種語言 | 良好 | 中等 | 是(可選) |
| Google Document AI | 否——雲端 API | 不適用 | 不適用 | 不適用 | 不適用 |
| Azure Document Intelligence | 否——雲端 API | 不適用 | 不適用 | 不適用 | 不適用 |
| AWS Textract | 否——雲端 API | 不適用 | 不適用 | 不適用 | 不適用 |
對於氣隙環境,Tesseract 和 PaddleOCR 是主要選項。Tesseract 部署更廣泛,對離線安裝有更好的文件。PaddleOCR 通常在複雜佈局(多列、表格、混合文本/圖像)上產生更好的結果,但需要更謹慎的離線安裝依賴管理。
PDF 解析:PDF 解析有兩種模式——文本提取(用於數字創建的 PDF)和 OCR 提取(用於掃描的 PDF)。大多數企業文件集同時包含兩者。
| PDF 解析器 | 氣隙兼容 | 處理掃描 PDF | 表格提取 | 佈局保留 |
|---|---|---|---|---|
| PyMuPDF (fitz) | 是 | 通過嵌入 OCR | 基本 | 良好 |
| pdfplumber | 是 | 否(僅文本) | 良好 | 良好 |
| Docling | 是(自託管) | 通過嵌入 OCR | 非常好(97.9%) | 非常好 |
| Camelot | 是 | 否(僅文本) | 非常好(專門針對表格) | 有限 |
| Marker | 是 | 通過嵌入 OCR | 良好 | 非常好 |
| Adobe Acrobat API | 否——雲端服務 | 不適用 | 不適用 | 不適用 |
氣隙推薦:Docling(IBM Research,開源)用於主要解析,PyMuPDF 作為更簡單文件的備用。Docling 的表格提取準確性(基準測試 97.9%)對於表格包含關鍵結構化數據的企業文件非常重要。
攝入的硬體要求
| 工作負載 | CPU | RAM | GPU | 存儲 |
|---|---|---|---|---|
| 文本 PDF 提取(無 OCR) | 4+ 核 | 8 GB | 不需要 | 源文件量的 2 倍 |
| 掃描文件上的 OCR | 8+ 核 | 16 GB | 可選(PaddleOCR 加速 3-5 倍) | 源文件量的 3 倍 |
| 高量攝入(10K+ 文件) | 16+ 核 | 32 GB | 推薦 | 源文件量的 3-5 倍 |
存儲乘數考慮了原始文件和提取的結構化輸出(JSON、文本、元數據)。
第二階段:清洗和去識別化
清洗將原始提取的文本轉換為標準化的一致內容。去識別化偵測和編輯個人身份信息(PII)和受保護的健康信息(PHI)。在氣隙環境中,所有用於實體偵測的 NLP 模型必須在本地運行 。
架構決策
PII/PHI 偵測方法:您有兩種選擇——基於規則的模式匹配,或基於 NLP 模型的命名實體識別(NER)。實際上,您需要兩者。
| 偵測方法 | 捕獲內容 | 誤報率 | 氣隙兼容 |
|---|---|---|---|
| 正規表達式模式匹配 | SSN、電話號碼、電子郵件、信用卡、標準格式的日期、醫療記錄號 | 低(模式精確) | 是——無依賴 |
| spaCy NER(本地模型) | 姓名、組織、位置、非標準格式的日期 | 中等(需要調整) | 是——模型權重從本 地存儲加載 |
| Hugging Face NER(GGUF/ONNX) | 姓名、組織、特定領域實體 | 低到中等 | 是——量化模型在本地運行 |
| AWS Comprehend Medical | 臨床文本中的 PHI | 低 | 否——雲端 API |
| Google Healthcare NLP | 臨床文本中的 PHI | 低 | 否——雲端 API |
推薦的氣隙方法:疊加兩種方法。對結構化識別符(SSN、電話號碼、電子郵件、醫療記錄號、日期)使用正規表達式模式。對非結構化識別符(自由文本中的姓名、組織、位置)使用本地加載的 NER 模型(spaCy 或量化 transformer)。
對於 HIPAA 監管的數據,去識別化必須滿足安全港方法(刪除 18 個特定識別符類別)或專家確定方法。正規表達式捕獲大多數結構化識別符。NER 捕獲非結構化識別符。在自動去識別化後的人工審查階段是 HIPAA 合規的標準做法。
數據標準化:氣隙環境通常處理數十年積累的文件——不同的編碼方案、不一致的日期格式、舊字符集。標準化將這些轉換為一致的 UTF-8 編碼、標準化的日期格式和一致的空白處理。這在計算上很廉價,沒有連接要求。
清洗的硬體要求
| 工作負載 | CPU | RAM | GPU | 備注 |
|---|---|---|---|---|
| 僅正規表達式 PII 偵測 | 4+ 核 | 8 GB | 不需要 | 快速,處理數百萬條記錄 |
| spaCy NER 模型 | 4+ 核 | 16 GB | 不需要(CPU 推理) | 比正規表達式慢,更徹底 |
| Transformer NER(量化) | 8+ 核 | 16 GB | 建議 8+ GB VRAM | 最佳準確性,需要 GPU 以獲得合理速度 |
| 組合管線 | 8+ 核 | 32 GB | 16+ GB VRAM | 正規表達式初次檢查,NER 二次檢查,人工審查最終檢查 |
第三階段:標注和注釋
標注是領域專家為處理的數據分配類別、實體、邊界框或品質分數的地方。在氣隙環境中,標注界面必須完全從本地主機提供——沒有外部 CDN 資產、沒有雲端同步項目、沒有從遠程服務器加載腳本的基於瀏覽器的工具。
架構決策
注釋工具選擇:大多數現代注釋工具是假設網路連接的 Web 應用程序。即使是自託管版本也常常從 CDN 加載 JavaScript 庫、分析腳本或來自外部服務器的字體文件。
| 注釋工具 | 氣隙兼容 | 模態 | 桌面原生 | 領域專家可訪問性 |
|---|---|---|---|---|
| Prodigy (Explosion AI) | 是——完全本地,永久許可 | NLP、CV、音頻 | 基於 Python(本地運行) | 中等(需要終端) |
| Label Studio(自託管) | 部分——檢查外部資產加載 | NLP、CV、音頻、視頻 | 否(Docker/K8s Web 應用) | 是(瀏覽器 UI) |
| CVAT(自託管) | 部分——可能有外部依賴的 Web 應用 | 僅 CV | 否(Docker Web 應用) | 是(瀏覽器 UI) |
| Labelbox | 否——雲端 SaaS | NLP、CV | 否 | 是 |
| Scale AI | 否——雲端 SaaS | NLP、CV | 否 | 是 |
Label Studio 注意事項:Label Studio 可以自託管,但自託管版本必須稽核外部調用。以前的版本從外部 CDN 加載 Google Fonts、包含分析腳本,並進行更新檢查調用。在氣隙環境中,這些調用靜默失敗或導致錯誤。您需要通過檢查網路流量來驗證——您的自託管 Label Studio 實例不發出任何外部 HTTP 請求。
氣隙推薦:對於 NLP 注釋,Prodigy 是最可靠的氣隙選項——它是一個沒有 Web 依賴的 Python 庫,完全從本地主機提供其 UI。取捨是它需要 Python 環境,這限制了非技術領域專家的可訪問性。
對於非技術領域專家(醫生、律師、工程師)需要直接訪問標注界面的組織,不需要終端、Python 或瀏覽器連接的原生桌面注釋工具是最佳選擇。這是 Ertas Data Suite 採用的方法——一個原生桌面應用程序,整個注釋界面在本地運行,零網路依賴。
標注的硬體要求
標注是計算密集程度最低的階段。它主要是一種有軟體輔助的人類活動。
| 工作負載 | CPU | RAM | GPU | 備注 |
|---|---|---|---|---|
| 文本注釋(NER、分類) | 2+ 核 | 8 GB | 不需要 | 主要受 UI 限制,不受計算限制 |
| 圖像注釋(邊界框、分割) | 4+ 核 | 16 GB | 可選(加速渲染) | 大圖像需要更多 RAM |
| AI 輔助標注(模型建議) | 8+ 核 | 16 GB | 8+ GB VRAM | 本地模型提供供人工審查的標注建議 |
第四階段:合成數據擴增
合成數據擴增使用 LLM 從現有標注數據生成額外的訓練示例。在氣隙環境中,這需要在本地運行 LLM 推理——沒有雲端 API,沒有外部模型端點。
架構決策
本地 LLM 運行時選擇:
| 運行時 | 氣隙兼容 | 模型格式 | GPU 支持 | 多模型服務 |
|---|---|---|---|---|
| Ollama | 是——離線安裝可用 | GGUF | NVIDIA、AMD、Apple Silicon | 是 |
| llama.cpp | 是——從源代碼編譯,無依賴 | GGUF | NVIDIA、AMD、Apple Silicon、Vulkan | 否(單模型) |
| vLLM | 是——但複雜的離線依賴安裝 | SafeTensors、GPTQ | NVIDIA(主要) | 是 |
| Microsoft Foundry Local | 是——為斷開連接操作設計 | ONNX | NVIDIA、AMD、Intel、Qualcomm、Apple Silicon | 是 |
| Hugging Face Inference API | 否——雲端端點 | 不適用 | 不適用 | 不適用 |
氣隙推薦:Ollama 用於通用擴增。它支持廣泛的 GGUF 模型,具有直接的離線安裝(複製二進制文件 + 模型文件),並在本地主機上提供 OpenAI 兼容的 API。對於 Microsoft 生態系統首選的環境,Foundry Local 是替代選項——取捨是模型選擇較窄。
擴增的模型選擇:
| 模型 | 參數 | 所需 VRAM(Q4 量化) | 擴增品質 | 氣隙安裝複雜性 |
|---|---|---|---|---|
| Phi-4-mini | 3.8B | 約 4 GB | 簡單任務良好 | 低(小下載,快速傳輸) |
| Llama 3.1 8B | 8B | 約 6 GB | 通用擴增良好 | 低 |
| Mistral 7B | 7B | 約 6 GB | 結構化輸出良好 | 低 |
| Qwen 2.5 14B | 14B | 約 10 GB | 非常好 | 中等(較大傳輸) |
| Llama 3.1 70B | 70B | 約 40 GB | 出色 | 高(大下載,需要高 VRAM GPU) |
對於大多數企業擴增任務——生成改述、創建分類變體、擴展實體示例——8B-14B 量化模型是實際的最佳點。品質足夠,硬體要求可管理,模型文件(4-10 GB)可通過可移動媒體傳輸。
擴增的硬體要求
| 工作負載 | CPU | RAM | GPU | 吞吐量 |
|---|---|---|---|---|
| 7-8B 模型擴增 | 8+ 核 | 32 GB | 16 GB VRAM(RTX 4080 或同等) | 約 30-50 tokens/秒 |
| 14B 模型擴增 | 8+ 核 | 32 GB | 24 GB VRAM(RTX 4090 或同等) | 約 20-35 tokens/秒 |
| 70B 模型擴增 | 16+ 核 | 64 GB | 48+ GB VRAM(A6000 或 2x RTX 4090) | 約 10-20 tokens/秒 |
| 僅 CPU 擴增(7B) | 16+ 核 | 64 GB | 無 | 約 3-8 tokens/秒(慢但可用) |
強烈推薦 GPU 用於擴增。7B 模型的僅 CPU 推理可行,但生成數據速度慢 5-10 倍,當您需要生成數千個合成訓練示例時,這很重要。
第五階段:匯出
匯出將處理、標注和擴增的數據轉換為下游訓練和部署系統可使用的格式。在氣隙環境中,匯出目標是本地存儲——永遠不是雲端對象存儲。
架構決策
匯出格式選擇取決於下游用例:
| 用例 | 匯出格式 | 文件結構 |
|---|---|---|
| LLM 微調 | JSONL(指令、輸入、輸出) | 每行一個 JSON 對象 |
| RAG / 檢索 | 帶元數據的分塊文本 | JSONL 或結構化 JSON |
| 計算機視覺(目標偵測) | YOLO 或 COCO 格式 | 圖像 + 注釋文件 |
| 計算機視覺(分類) | 帶類別文件夾的目錄結構 | image/class_name/file.jpg |
| 傳統 ML | 帶特徵和標籤的 CSV | 標準表格格式 |
| DPO 微調 | 帶 chosen/rejected 對的 JSONL | 每行偏好對 |
稽核追蹤匯出:在受監管環境中,訓練數據本身是不夠的。您還必須匯出:
- 數據沿襲(哪個源文件產生了哪個訓練示例)
- 轉換日誌(每次清洗、編輯和修改及時間戳)
- 操作員日誌(誰標注了什麼、何時以及他們改變了什麼)
- 品質指標(注釋者間一致性、置信度分數)
對於歐盟 AI 法案第 30 條合規,此稽核文件必須附帶訓練數據並可供檢查。對於 HIPAA,去識別化稽核追蹤必須證明 PHI 在用於訓練之前被適當刪除。
匯出的硬體要求
| 工作負載 | CPU | RAM | GPU | 備注 |
|---|---|---|---|---|
| JSONL/CSV 匯出 | 2+ 核 | 8 GB | 不需要 | 受 I/O 限制,不受計算限制 |
| 大規模匯出(100K+ 記錄) | 4+ 核 | 16 GB | 不需要 | 磁盤速度比 CPU 更重要 |
| 帶稽核追蹤生成的匯出 | 4+ 核 | 16 GB | 不需要 | 稽核追蹤可能比數據本身更大 |
傳輸機制:將軟體和模型引入氣隙環境
氣隙 AI 最被忽視的方面是初始設置。您無法從互聯網安裝軟體。您無法下載模型權重。一切都必須通過批准的物理渠道傳輸。
物理媒體傳輸
機密和氣隙環境的標準方法:
- 在有連接的機器上準備:將所有軟體安裝程序、依賴、模型權重和配置文件下載到乾淨、格式化的驅動器上
- 安全掃描:通過您組織的惡意軟體掃描和安全審查過程運行媒體
- 保管鏈:記錄準備媒體的人、內容和傳輸時間
- 在氣隙機器上安裝:從批准的媒體複製文件到目標系統
- 驗證完整性:將已安裝文件的校驗和(SHA-256)與準備的清單進行比較
對於模型權重:7B GGUF 模型大約為 4-6 GB。70B 模型為 35-45 GB。USB 驅動器或便攜式 SSD 可以輕鬆處理這些大小。較大的數據集(數百 GB 的源文件)可能需要便攜式 NAS 設備或多個驅動器。
單向數據二極管
對於具有更複雜氣隙網路的組織,硬體數據二極管提供單向傳輸機制。數據流入氣隙網路,但無法流出。這用於可移動媒體也受限制的國防和關鍵基礎設施環境。
數據二極管允許自動、定期地將模型更新和軟體補丁傳輸到氣隙環境,而不會創建任何出站數據路徑。
必須預先暫存的內容
在隔離機器之前,傳輸以下所有內容:
| 類別 | 具體項目 | 典型大小 |
|---|---|---|
| 應用程序安裝程序 | AI 管線軟體、注釋工具、推理運行時 | 1-5 GB |
| 運行時依賴 | Python 包(wheel 文件)、系統庫 | 2-10 GB |
| OCR 語言包 | Tesseract 語言數據、PaddleOCR 模型 | 0.5-2 GB |
| NER 模型 | spaCy 模型、用於 PII 偵測的量化 transformer 模型 | 1-5 GB |
| LLM 權重 | 用於擴增和 AI 輔助標注的 GGUF 模型 | 每個模型 4-45 GB |
| 配置文件 | 管線配置、匯出模板、稽核追蹤架構 | 不到 100 MB |
完整氣隙 AI 管線的總預暫存:大約 10-70 GB,具體取決於您包含多少個 LLM 模型。
合規映射:誰實際上需要氣隙?
並非每項法規都要求氣隙操作。了解哪些法規需要哪種部署模型可以防止過度工程設計。
| 法規 / 情境 | 需要氣隙? | 本地部署是否足夠? | 備注 |
|---|---|---|---|
| 美國機密系統(ITAR、機密數據) | 是 | 否 | 政策要求物理隔離 |
| 美國 CMMC 第 3 級+(國防承包商) | 通常是 | 取決於數據類型 | 受控非機密信息處理 |
| HIPAA(醫療保健) | 否(但推薦用於 PHI 訓練數據) | 是 | HIPAA 要求保障措施,不是特定的部署模型 |
| GDPR(歐盟) | 否 | 通常足夠 | 需要數據居留 + 處理控制;帶稽核追蹤的本地部署滿足大多數要求 |
| 歐盟 AI 法案(高風險系統) | 否 | 通常足夠 | 需要文件和稽核追蹤;部署模型不作規定 |
| 印度 DPDP 法案 | 否 | 對重要數據受託人可能需要 | 某些類別的數據本地化 |
| 沙烏地阿拉伯 PDPL | 否 | 個人數據事實上需要 | 在王國內處理 |
| 金融法規(SOX、PCI-DSS) | 否(特定高安全環境除外) | 是 | 需要強訪問控制;部署模型靈活 |
| 關鍵基礎設施(NERC CIP) | OT 網路通常是 | IT 網路是 | OT/IT 分段是標準 |
實際指導:機密/國防數據和關鍵基礎設施 OT 網路需要氣隙。大多數受監管行業(醫療保健、金融、法律)的本地部署就足夠了。對於需要司法管轄控制但不需要物理隔離的數據,主權雲(國內提供商)是可接受的。
綜合起來:參考架構
受監管企業的完整氣隙 AI 管線:
硬體:
- 工作站或伺服器:16+ 核,64 GB RAM,NVIDIA RTX 4090(24 GB VRAM)或 A6000(48 GB VRAM)
- 本地存儲:活動項目的 2+ TB NVMe SSD,加上存檔的 NAS
- 可移動媒體站:用於初始設置和定期模型/軟體更新
軟體堆疊:
- 操作系統:Linux(Ubuntu/RHEL)或 Windows,在隔離前完全更新
- 攝入:Docling + PyMuPDF + Tesseract/PaddleOCR
- 清洗:spaCy NER + 正規表達式模式 + 自定義規則
- 標注:原生桌面注釋工具(無 Docker、無瀏覽器依賴)
- 擴增:Ollama + Llama 3.1 8B(GGUF Q4)
- 匯出:JSONL + 稽核追蹤生成器
- 推理運行時:Ollama、llama.cpp 或 Foundry Local
估計硬體成本:工作站構建(RTX 4090 級)8,000-15,000 美元,或伺服器構建(A6000 級)20,000-40,000 美元。與等效計算的雲端 GPU 成本(每小時 2-4 美元)相比——本地硬體在 6-18 個月的連續使用中可以收回成本。
此架構處理從原始文件到 AI 就緒訓練數據的完整管線,完全在氣隙邊界內,每個階段都有完整的稽核追蹤。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相關閱讀
- 氣隙機器學習:如何在沒有網路訪問的情況下構建 AI 數據管線 — 氣隙與本地部署與自託管部署的概念概覽,以及每個管線階段的工具分析。
- 企業主權 AI:2026 年的含義和重要性 — AI 主權的三個層次及其對受監管企業的重要性。
- 主權 AI 與雲端 AI:各國和地區的數據居留要求 — AI 系統數據居留要求的各國參考指南。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Best RAG Pipeline for Financial Services: Air-Gapped Retrieval for PII-Heavy Data
Financial institutions handle PII-dense documents that cannot touch cloud infrastructure. Here is how to build an air-gapped RAG pipeline that meets SOC 2, GDPR, and internal audit requirements while keeping retrieval fast.

Sovereign AI for Enterprise: What It Means and Why It Matters in 2026
Sovereign AI is the capability to develop, deploy, and control AI systems without dependency on foreign infrastructure, vendors, or legal jurisdictions. This guide covers the three layers of sovereignty, the regulations driving adoption, real-world implementations, and an enterprise buyer's checklist.

On-Premise AI for Government: Meeting National Security Data Requirements
A vertical guide for government and defense buyers evaluating on-premise AI infrastructure — covering FedRAMP, ITAR, NIST 800-171, classified network compatibility, air-gapped operations, and the data preparation challenge most vendors ignore.