Back to blog
    如何為受監管行業構建氣隙 AI 管線
    air-gappedregulated-industrieson-premisecompliancesovereign-aisegment:enterprise

    如何為受監管行業構建氣隙 AI 管線

    構建零網路連接 AI 管線的決策階段技術指南。涵蓋每個階段的管線架構——數據攝入、清洗、標注、擴增和匯出——以及氣隙環境的硬體要求、工具比較和傳輸機制。

    EErtas Team·

    您已決定您的 AI 管線必須在氣隙環境中運行——與互聯網物理隔離,沒有例外。也許您的數據是機密的。也許您的監管機構要求這樣做。也許您的安全團隊進行了風險評估,得出任何外部連接對這個特定工作負載都是不可接受的結論。

    本文不是關於您是否需要氣隙操作的問題。(如果您不確定,請參見我們的氣隙與本地部署與自託管部署指南了解決策框架。)本文涵蓋在構建永遠不會接觸互聯網的 AI 系統時,您需要在每個管線階段做出的架構決策。

    管線有五個階段。每個階段有不同的硬體要求、不同的工具限制,以及在連接被移除時不同的失敗模式。我們將逐一介紹每個階段。


    管線架構概覽

    氣隙 AI 管線與任何其他 ML 管線具有相同的邏輯階段。不同之處在於,每個階段的每個組件都必須在零外部連接的情況下運行——沒有 API 調用、沒有許可服務器、沒有 CDN 托管資產、沒有遙測、沒有依賴下載。

    ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────────┐   ┌──────────┐
    │  Ingest  │──▶│  Clean   │──▶│  Label   │──▶│  Augment     │──▶│  Export  │
    │          │   │          │   │          │   │  (Synthetic)  │   │          │
    │ OCR      │   │ PII/PHI  │   │ NER      │   │ Local LLM    │   │ JSONL    │
    │ PDF      │   │ Redact   │   │ Classify │   │ Inference     │   │ COCO     │
    │ Layout   │   │ Normalize│   │ BBox     │   │              │   │ CSV      │
    └──────────┘   └──────────┘   └──────────┘   └──────────────┘   └──────────┘
           │              │              │              │                   │
           ▼              ▼              ▼              ▼                   ▼
       [Audit Log]   [Audit Log]   [Audit Log]   [Audit Log]         [Audit Log]
    

    每個階段都寫入本地稽核日誌。在氣隙環境中,稽核追蹤是您關於數據發生了什麼的唯一證據。沒有雲端日誌服務可以作為後備。


    第一階段:數據攝入

    數據攝入將原始企業文件——PDF、Word 文件、掃描圖像、電子表格、電子郵件——轉換為機器可讀的文本和結構化內容。在氣隙環境中,這意味著所有解析和 OCR 必須嵌入到應用程序中。

    架構決策

    OCR 引擎選擇:您需要完全在本地運行的 OCR,沒有外部 API 調用,也沒有依賴互聯網的模型下載。

    OCR 引擎氣隙兼容語言支持乾淨文件準確性掃描文件準確性GPU 加速
    Tesseract 5.x是——完全本地,開源通過離線語言包支持 100+ 種語言良好中等
    PaddleOCR是——完全本地,開源80+ 種語言,強大的 CJK 支持非常好良好是(可選)
    EasyOCR是——完全本地,開源80+ 種語言良好中等是(可選)
    Google Document AI——雲端 API不適用不適用不適用不適用
    Azure Document Intelligence——雲端 API不適用不適用不適用不適用
    AWS Textract——雲端 API不適用不適用不適用不適用

    對於氣隙環境,Tesseract 和 PaddleOCR 是主要選項。Tesseract 部署更廣泛,對離線安裝有更好的文件。PaddleOCR 通常在複雜佈局(多列、表格、混合文本/圖像)上產生更好的結果,但需要更謹慎的離線安裝依賴管理。

    PDF 解析:PDF 解析有兩種模式——文本提取(用於數字創建的 PDF)和 OCR 提取(用於掃描的 PDF)。大多數企業文件集同時包含兩者。

    PDF 解析器氣隙兼容處理掃描 PDF表格提取佈局保留
    PyMuPDF (fitz)通過嵌入 OCR基本良好
    pdfplumber否(僅文本)良好良好
    Docling是(自託管)通過嵌入 OCR非常好(97.9%)非常好
    Camelot否(僅文本)非常好(專門針對表格)有限
    Marker通過嵌入 OCR良好非常好
    Adobe Acrobat API——雲端服務不適用不適用不適用

    氣隙推薦:Docling(IBM Research,開源)用於主要解析,PyMuPDF 作為更簡單文件的備用。Docling 的表格提取準確性(基準測試 97.9%)對於表格包含關鍵結構化數據的企業文件非常重要。

    攝入的硬體要求

    工作負載CPURAMGPU存儲
    文本 PDF 提取(無 OCR)4+ 核8 GB不需要源文件量的 2 倍
    掃描文件上的 OCR8+ 核16 GB可選(PaddleOCR 加速 3-5 倍)源文件量的 3 倍
    高量攝入(10K+ 文件)16+ 核32 GB推薦源文件量的 3-5 倍

    存儲乘數考慮了原始文件和提取的結構化輸出(JSON、文本、元數據)。


    第二階段:清洗和去識別化

    清洗將原始提取的文本轉換為標準化的一致內容。去識別化偵測和編輯個人身份信息(PII)和受保護的健康信息(PHI)。在氣隙環境中,所有用於實體偵測的 NLP 模型必須在本地運行。

    架構決策

    PII/PHI 偵測方法:您有兩種選擇——基於規則的模式匹配,或基於 NLP 模型的命名實體識別(NER)。實際上,您需要兩者。

    偵測方法捕獲內容誤報率氣隙兼容
    正規表達式模式匹配SSN、電話號碼、電子郵件、信用卡、標準格式的日期、醫療記錄號低(模式精確)是——無依賴
    spaCy NER(本地模型)姓名、組織、位置、非標準格式的日期中等(需要調整)是——模型權重從本地存儲加載
    Hugging Face NER(GGUF/ONNX)姓名、組織、特定領域實體低到中等是——量化模型在本地運行
    AWS Comprehend Medical臨床文本中的 PHI——雲端 API
    Google Healthcare NLP臨床文本中的 PHI——雲端 API

    推薦的氣隙方法:疊加兩種方法。對結構化識別符(SSN、電話號碼、電子郵件、醫療記錄號、日期)使用正規表達式模式。對非結構化識別符(自由文本中的姓名、組織、位置)使用本地加載的 NER 模型(spaCy 或量化 transformer)。

    對於 HIPAA 監管的數據,去識別化必須滿足安全港方法(刪除 18 個特定識別符類別)或專家確定方法。正規表達式捕獲大多數結構化識別符。NER 捕獲非結構化識別符。在自動去識別化後的人工審查階段是 HIPAA 合規的標準做法。

    數據標準化:氣隙環境通常處理數十年積累的文件——不同的編碼方案、不一致的日期格式、舊字符集。標準化將這些轉換為一致的 UTF-8 編碼、標準化的日期格式和一致的空白處理。這在計算上很廉價,沒有連接要求。

    清洗的硬體要求

    工作負載CPURAMGPU備注
    僅正規表達式 PII 偵測4+ 核8 GB不需要快速,處理數百萬條記錄
    spaCy NER 模型4+ 核16 GB不需要(CPU 推理)比正規表達式慢,更徹底
    Transformer NER(量化)8+ 核16 GB建議 8+ GB VRAM最佳準確性,需要 GPU 以獲得合理速度
    組合管線8+ 核32 GB16+ GB VRAM正規表達式初次檢查,NER 二次檢查,人工審查最終檢查

    第三階段:標注和注釋

    標注是領域專家為處理的數據分配類別、實體、邊界框或品質分數的地方。在氣隙環境中,標注界面必須完全從本地主機提供——沒有外部 CDN 資產、沒有雲端同步項目、沒有從遠程服務器加載腳本的基於瀏覽器的工具。

    架構決策

    注釋工具選擇:大多數現代注釋工具是假設網路連接的 Web 應用程序。即使是自託管版本也常常從 CDN 加載 JavaScript 庫、分析腳本或來自外部服務器的字體文件。

    注釋工具氣隙兼容模態桌面原生領域專家可訪問性
    Prodigy (Explosion AI)是——完全本地,永久許可NLP、CV、音頻基於 Python(本地運行)中等(需要終端)
    Label Studio(自託管)部分——檢查外部資產加載NLP、CV、音頻、視頻否(Docker/K8s Web 應用)是(瀏覽器 UI)
    CVAT(自託管)部分——可能有外部依賴的 Web 應用僅 CV否(Docker Web 應用)是(瀏覽器 UI)
    Labelbox——雲端 SaaSNLP、CV
    Scale AI——雲端 SaaSNLP、CV

    Label Studio 注意事項:Label Studio 可以自託管,但自託管版本必須稽核外部調用。以前的版本從外部 CDN 加載 Google Fonts、包含分析腳本,並進行更新檢查調用。在氣隙環境中,這些調用靜默失敗或導致錯誤。您需要通過檢查網路流量來驗證——您的自託管 Label Studio 實例不發出任何外部 HTTP 請求。

    氣隙推薦:對於 NLP 注釋,Prodigy 是最可靠的氣隙選項——它是一個沒有 Web 依賴的 Python 庫,完全從本地主機提供其 UI。取捨是它需要 Python 環境,這限制了非技術領域專家的可訪問性。

    對於非技術領域專家(醫生、律師、工程師)需要直接訪問標注界面的組織,不需要終端、Python 或瀏覽器連接的原生桌面注釋工具是最佳選擇。這是 Ertas Data Suite 採用的方法——一個原生桌面應用程序,整個注釋界面在本地運行,零網路依賴。

    標注的硬體要求

    標注是計算密集程度最低的階段。它主要是一種有軟體輔助的人類活動。

    工作負載CPURAMGPU備注
    文本注釋(NER、分類)2+ 核8 GB不需要主要受 UI 限制,不受計算限制
    圖像注釋(邊界框、分割)4+ 核16 GB可選(加速渲染)大圖像需要更多 RAM
    AI 輔助標注(模型建議)8+ 核16 GB8+ GB VRAM本地模型提供供人工審查的標注建議

    第四階段:合成數據擴增

    合成數據擴增使用 LLM 從現有標注數據生成額外的訓練示例。在氣隙環境中,這需要在本地運行 LLM 推理——沒有雲端 API,沒有外部模型端點。

    架構決策

    本地 LLM 運行時選擇

    運行時氣隙兼容模型格式GPU 支持多模型服務
    Ollama是——離線安裝可用GGUFNVIDIA、AMD、Apple Silicon
    llama.cpp是——從源代碼編譯,無依賴GGUFNVIDIA、AMD、Apple Silicon、Vulkan否(單模型)
    vLLM是——但複雜的離線依賴安裝SafeTensors、GPTQNVIDIA(主要)
    Microsoft Foundry Local是——為斷開連接操作設計ONNXNVIDIA、AMD、Intel、Qualcomm、Apple Silicon
    Hugging Face Inference API——雲端端點不適用不適用不適用

    氣隙推薦:Ollama 用於通用擴增。它支持廣泛的 GGUF 模型,具有直接的離線安裝(複製二進制文件 + 模型文件),並在本地主機上提供 OpenAI 兼容的 API。對於 Microsoft 生態系統首選的環境,Foundry Local 是替代選項——取捨是模型選擇較窄。

    擴增的模型選擇

    模型參數所需 VRAM(Q4 量化)擴增品質氣隙安裝複雜性
    Phi-4-mini3.8B約 4 GB簡單任務良好低(小下載,快速傳輸)
    Llama 3.1 8B8B約 6 GB通用擴增良好
    Mistral 7B7B約 6 GB結構化輸出良好
    Qwen 2.5 14B14B約 10 GB非常好中等(較大傳輸)
    Llama 3.1 70B70B約 40 GB出色高(大下載,需要高 VRAM GPU)

    對於大多數企業擴增任務——生成改述、創建分類變體、擴展實體示例——8B-14B 量化模型是實際的最佳點。品質足夠,硬體要求可管理,模型文件(4-10 GB)可通過可移動媒體傳輸。

    擴增的硬體要求

    工作負載CPURAMGPU吞吐量
    7-8B 模型擴增8+ 核32 GB16 GB VRAM(RTX 4080 或同等)約 30-50 tokens/秒
    14B 模型擴增8+ 核32 GB24 GB VRAM(RTX 4090 或同等)約 20-35 tokens/秒
    70B 模型擴增16+ 核64 GB48+ GB VRAM(A6000 或 2x RTX 4090)約 10-20 tokens/秒
    僅 CPU 擴增(7B)16+ 核64 GB約 3-8 tokens/秒(慢但可用)

    強烈推薦 GPU 用於擴增。7B 模型的僅 CPU 推理可行,但生成數據速度慢 5-10 倍,當您需要生成數千個合成訓練示例時,這很重要。


    第五階段:匯出

    匯出將處理、標注和擴增的數據轉換為下游訓練和部署系統可使用的格式。在氣隙環境中,匯出目標是本地存儲——永遠不是雲端對象存儲。

    架構決策

    匯出格式選擇取決於下游用例

    用例匯出格式文件結構
    LLM 微調JSONL(指令、輸入、輸出)每行一個 JSON 對象
    RAG / 檢索帶元數據的分塊文本JSONL 或結構化 JSON
    計算機視覺(目標偵測)YOLO 或 COCO 格式圖像 + 注釋文件
    計算機視覺(分類)帶類別文件夾的目錄結構image/class_name/file.jpg
    傳統 ML帶特徵和標籤的 CSV標準表格格式
    DPO 微調帶 chosen/rejected 對的 JSONL每行偏好對

    稽核追蹤匯出:在受監管環境中,訓練數據本身是不夠的。您還必須匯出:

    • 數據沿襲(哪個源文件產生了哪個訓練示例)
    • 轉換日誌(每次清洗、編輯和修改及時間戳)
    • 操作員日誌(誰標注了什麼、何時以及他們改變了什麼)
    • 品質指標(注釋者間一致性、置信度分數)

    對於歐盟 AI 法案第 30 條合規,此稽核文件必須附帶訓練數據並可供檢查。對於 HIPAA,去識別化稽核追蹤必須證明 PHI 在用於訓練之前被適當刪除。

    匯出的硬體要求

    工作負載CPURAMGPU備注
    JSONL/CSV 匯出2+ 核8 GB不需要受 I/O 限制,不受計算限制
    大規模匯出(100K+ 記錄)4+ 核16 GB不需要磁盤速度比 CPU 更重要
    帶稽核追蹤生成的匯出4+ 核16 GB不需要稽核追蹤可能比數據本身更大

    傳輸機制:將軟體和模型引入氣隙環境

    氣隙 AI 最被忽視的方面是初始設置。您無法從互聯網安裝軟體。您無法下載模型權重。一切都必須通過批准的物理渠道傳輸。

    物理媒體傳輸

    機密和氣隙環境的標準方法:

    1. 在有連接的機器上準備:將所有軟體安裝程序、依賴、模型權重和配置文件下載到乾淨、格式化的驅動器上
    2. 安全掃描:通過您組織的惡意軟體掃描和安全審查過程運行媒體
    3. 保管鏈:記錄準備媒體的人、內容和傳輸時間
    4. 在氣隙機器上安裝:從批准的媒體複製文件到目標系統
    5. 驗證完整性:將已安裝文件的校驗和(SHA-256)與準備的清單進行比較

    對於模型權重:7B GGUF 模型大約為 4-6 GB。70B 模型為 35-45 GB。USB 驅動器或便攜式 SSD 可以輕鬆處理這些大小。較大的數據集(數百 GB 的源文件)可能需要便攜式 NAS 設備或多個驅動器。

    單向數據二極管

    對於具有更複雜氣隙網路的組織,硬體數據二極管提供單向傳輸機制。數據流入氣隙網路,但無法流出。這用於可移動媒體也受限制的國防和關鍵基礎設施環境。

    數據二極管允許自動、定期地將模型更新和軟體補丁傳輸到氣隙環境,而不會創建任何出站數據路徑。

    必須預先暫存的內容

    在隔離機器之前,傳輸以下所有內容:

    類別具體項目典型大小
    應用程序安裝程序AI 管線軟體、注釋工具、推理運行時1-5 GB
    運行時依賴Python 包(wheel 文件)、系統庫2-10 GB
    OCR 語言包Tesseract 語言數據、PaddleOCR 模型0.5-2 GB
    NER 模型spaCy 模型、用於 PII 偵測的量化 transformer 模型1-5 GB
    LLM 權重用於擴增和 AI 輔助標注的 GGUF 模型每個模型 4-45 GB
    配置文件管線配置、匯出模板、稽核追蹤架構不到 100 MB

    完整氣隙 AI 管線的總預暫存:大約 10-70 GB,具體取決於您包含多少個 LLM 模型。


    合規映射:誰實際上需要氣隙?

    並非每項法規都要求氣隙操作。了解哪些法規需要哪種部署模型可以防止過度工程設計。

    法規 / 情境需要氣隙?本地部署是否足夠?備注
    美國機密系統(ITAR、機密數據)政策要求物理隔離
    美國 CMMC 第 3 級+(國防承包商)通常是取決於數據類型受控非機密信息處理
    HIPAA(醫療保健)否(但推薦用於 PHI 訓練數據)HIPAA 要求保障措施,不是特定的部署模型
    GDPR(歐盟)通常足夠需要數據居留 + 處理控制;帶稽核追蹤的本地部署滿足大多數要求
    歐盟 AI 法案(高風險系統)通常足夠需要文件和稽核追蹤;部署模型不作規定
    印度 DPDP 法案對重要數據受託人可能需要某些類別的數據本地化
    沙烏地阿拉伯 PDPL個人數據事實上需要在王國內處理
    金融法規(SOX、PCI-DSS)否(特定高安全環境除外)需要強訪問控制;部署模型靈活
    關鍵基礎設施(NERC CIP)OT 網路通常是IT 網路是OT/IT 分段是標準

    實際指導:機密/國防數據和關鍵基礎設施 OT 網路需要氣隙。大多數受監管行業(醫療保健、金融、法律)的本地部署就足夠了。對於需要司法管轄控制但不需要物理隔離的數據,主權雲(國內提供商)是可接受的。


    綜合起來:參考架構

    受監管企業的完整氣隙 AI 管線:

    硬體

    • 工作站或伺服器:16+ 核,64 GB RAM,NVIDIA RTX 4090(24 GB VRAM)或 A6000(48 GB VRAM)
    • 本地存儲:活動項目的 2+ TB NVMe SSD,加上存檔的 NAS
    • 可移動媒體站:用於初始設置和定期模型/軟體更新

    軟體堆疊

    • 操作系統:Linux(Ubuntu/RHEL)或 Windows,在隔離前完全更新
    • 攝入:Docling + PyMuPDF + Tesseract/PaddleOCR
    • 清洗:spaCy NER + 正規表達式模式 + 自定義規則
    • 標注:原生桌面注釋工具(無 Docker、無瀏覽器依賴)
    • 擴增:Ollama + Llama 3.1 8B(GGUF Q4)
    • 匯出:JSONL + 稽核追蹤生成器
    • 推理運行時:Ollama、llama.cpp 或 Foundry Local

    估計硬體成本:工作站構建(RTX 4090 級)8,000-15,000 美元,或伺服器構建(A6000 級)20,000-40,000 美元。與等效計算的雲端 GPU 成本(每小時 2-4 美元)相比——本地硬體在 6-18 個月的連續使用中可以收回成本。

    此架構處理從原始文件到 AI 就緒訓練數據的完整管線,完全在氣隙邊界內,每個階段都有完整的稽核追蹤。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相關閱讀

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading