本地端醫療 AI：架構與基礎設施指南

您醫院的 IT 團隊說「我們不能使用雲端 AI」。他們是對的。受保護健康資訊離開您的網路就是一個合規事件。每一個帶有患者資料的 OpenAI 或 Anthropic API 調用都會造成稽核責任、BAA 複雜性和違規風險。

但這裡有個他們可能還不知道的部分：本地端 AI 現在是實際可行且可負擔的。單個 NVIDIA T4 GPU 的成本低於中檔工作站。開源模型以生產品質運行臨床 NLP 任務。基礎設施模式已經成熟。

本指南涵蓋您在醫療環境中本地端運行 AI 所需的一切——硬體、網路架構、模型服務、存儲、監控、更新和災難恢復。

硬體要求

第一個決定是 GPU 與 CPU 推理。這取決於您的工作量和延遲要求。

醫療工作量的 GPU 與 CPU 推理

因素	GPU（NVIDIA T4）	僅 CPU（Xeon/EPYC）
硬體成本	每張卡 2,000 至 3,000 美元	0 美元（使用現有伺服器）
吞吐量	每秒 15 至 40 個 Token（70 億模型，Q4）	每秒 3 至 8 個 Token（70 億模型，Q4）
並發用戶	10 至 20 個同時請求	2 至 5 個同時請求
最適合	每天超過 500 次推理，實時分類	每天低於 200 次推理，批次處理
功耗	每個 T4 70W	包含在伺服器基準中
機架空間	每 2 至 4 個 GPU 1U	現有伺服器基礎設施

對於大多數中型醫院（200 至 500 張床位）： 從單個 T4 GPU 開始。它可以以覆蓋 3 至 5 個部門的工作量處理臨床記錄摘要、診斷編碼輔助和患者分類。總硬體成本：8,000 至 12,000 美元用於完整推理伺服器（CPU + RAM + T4 + 存儲）。

對於較小的診所（低於 100 張床位）： 僅 CPU 推理是可行的。帶有 64 GB RAM 的現代 32 核心 Xeon 伺服器以可接受的延遲運行量化的 70 億模型，用於非實時任務，如臨床記錄的隔夜批次處理或週報生成。

最低伺服器規格

組件	GPU 路徑	僅 CPU 路徑
CPU	16 核以上（Xeon Silver 或 EPYC）	32 核以上（Xeon Gold 或 EPYC）
RAM	最低 32 GB，建議 64 GB	最低 64 GB，建議 128 GB
GPU	NVIDIA T4 16 GB（或 A2000 12 GB）	無
存儲	500 GB NVMe SSD	500 GB NVMe SSD
網路	最低 1 GbE，建議 10 GbE	最低 1 GbE
作業系統	Ubuntu 22.04 LTS 或 RHEL 9	Ubuntu 22.04 LTS 或 RHEL 9

網路架構

醫療 AI 部署分為三種網路模式，每種都有不同的安全配置。

模式 1：氣隔部署

最嚴格的選項。推理伺服器沒有任何網路連接。

[臨床系統] <---> [內部 API 閘道] <---> [AI 推理伺服器]
                     |
                [稽核日誌 DB]

無外部網路連接。模型通過安全媒體更新。

何時使用： 最高安全環境。處理軍事健康記錄、精神病記錄、藥物濫用治療記錄（42 CFR 第 2 條）或在嚴格 IRB 協議下的研究資料的機構。

權衡： 模型更新需要物理媒體（加密 USB）或專用的內部工件倉庫。無遠端監控。更高的操作開銷。

模式 2：DMZ 部署

推理伺服器位於 DMZ 中，僅有受控的出站訪問用於更新。沒有來自網路的入站連接。

[網路] --X-- [防火牆] --- [DMZ：更新代理] --- [防火牆] --- [AI 推理伺服器]
                                                                 |
[臨床系統] <-------------------------------------> [內部 API 閘道]

何時使用： 大多數醫院部署。允許通過受控代理進行自動模型更新，同時保持受保護健康資訊處理完全在內部。

權衡： 需要仔細的防火牆規則。更新代理必須強化和稽核。

模式 3：VLAN 隔離

AI 基礎設施在專用 VLAN 上運行，與一般醫院網路流量隔離，但可供授權的臨床系統訪問。

VLAN 100（臨床）：     [EHR] [PACS] [臨床應用]
                           |
                      [L3 交換機 / 防火牆規則]
                           |
VLAN 200（AI 基礎設施）：  [API 閘道] [推理伺服器] [稽核 DB]

何時使用： 需要部門訪問控制的機構。放射科訪問影像模型。病理科訪問報告生成模型。急診科訪問分類輔助。每個 VLAN 到 VLAN 的規則都有文件記錄並可稽核。

模型服務技術棧

醫療 AI 推理的生產技術棧很直接。

核心組件

推理引擎： Ollama 或 llama.cpp。Ollama 開箱即提供 REST API。llama.cpp 提供更底層的控制和略好的性能。
API 閘道： Nginx 或 Envoy 作為推理引擎前面的反向代理。處理身份驗證、速率限制和 TLS 終止。
服務之間的 mTLS： API 閘道、推理引擎和稽核資料庫之間的每個連接使用相互 TLS。沒有例外。這是傳輸中的電子受保護健康資訊（ePHI）的 HIPAA 要求。

請求流程

[臨床應用] --> [mTLS] --> [API 閘道（Nginx）]
    --> [身份驗證：API 金鑰 + 部門 ID]
    --> [速率限制檢查]
    --> [mTLS] --> [Ollama/llama.cpp]
    --> [回應記錄到稽核 DB]
    --> [mTLS] --> [臨床應用]

API 金鑰管理

每個部門獲得自己的 API 金鑰。這使每個部門的使用追蹤、速率限制和訪問控制成為可能。每季度輪換金鑰。將它們存儲在 HashiCorp Vault 或您現有的秘密管理系統中。

存儲要求

醫療 AI 存儲分為三個具有非常不同規模配置的類別。

存儲類型	大小	增長率	保留
基礎模型文件	每個模型 4 至 14 GB（量化後）	每個版本靜態	保留當前 + 上一個版本
LoRA 適配器文件	每個專科適配器 50 至 200 MB	每季度約 1 至 2 個新適配器	保留所有版本（稽核軌跡）
稽核日誌	每年 10 至 50 GB	隨使用量擴展	6 至 7 年（HIPAA 最低 6 年）
評估資料集	1 至 5 GB	每季更新	保留所有版本

第一年總存儲： 模型和適配器 30 至 70 GB，加上稽核日誌增長。1 TB NVMe SSD 可以處理 5 年以上的操作，還有餘裕。

備份策略： 加密備份到第二個本地端位置。除非雲端供應商有簽署的 BAA 且您的風險評估明確批准，否則永遠不要備份到雲端存儲。

監控和日誌記錄

HIPAA 要求對任何處理電子受保護健康資訊的系統進行稽核日誌記錄。對於 AI 推理，這意味著每個單一請求。

每次推理記錄什麼

欄位	示例	目的
時間戳記	2026-02-26T14:32:01Z	稽核軌跡
請求 ID	uuid-v4	關聯
模型版本	llama-3.1-8b-q4_K_M + radiology-v2.3	可重複性
部門	radiology	訪問控制稽核
用戶/服務 ID	ehr-integration-svc	歸因
輸入雜湊（SHA-256）	a3f2...	完整性驗證，無需存儲受保護健康資訊
輸出雜湊（SHA-256）	b7c1...	完整性驗證
Token 數（輸入/輸出）	342 / 128	使用量追蹤
延遲（毫秒）	1,240	性能監控
狀態	成功 / 錯誤	運營

關鍵細節： 記錄輸入和輸出雜湊，而非原始內容。這讓您在不將受保護健康資訊的額外副本存儲在稽核資料庫中的情況下驗證完整性並證明哪個模型版本產生了哪個輸出。

HIPAA 訪問日誌

除了推理日誌之外，您還需要標準的 HIPAA 訪問日誌：

誰訪問了 AI 系統以及何時訪問
身份驗證成功和失敗
配置變更（模型更新、適配器交換、參數變更）
對推理伺服器本身的管理訪問

使用您現有的 SIEM（Splunk、Elastic 等）彙總這些日誌。AI 基礎設施應該進入與您其他臨床系統相同的日誌管道。

模型更新策略

將新模型版本獲取到氣隔或隔離系統是最大的操作挑戰。

選項 1：安全 USB 傳輸（氣隔）

在安全室的聯網工作站上下載模型文件
對照已發布的雜湊值驗證校驗和
傳輸到加密 USB 驅動器（FIPS 140-2 相容）
通過帶有監管鏈文件的授權人員運輸
加載到推理伺服器，再次驗證校驗和
在切換生產流量之前運行驗證套件

每次更新時間： 包括驗證的 2 至 4 小時。

選項 2：內部工件倉庫（DMZ）

通過 DMZ 代理從外部模型倉庫（Hugging Face、Ollama 倉庫）自動拉取
模型文件落入內部工件倉庫（Nexus、Artifactory 或簡單的 Nginx 文件伺服器）
推理伺服器按計劃從內部倉庫拉取
在流量切換之前自動運行驗證套件

每次更新時間： 30 至 60 分鐘，主要是自動化的。

分階段推出

無論交付方式如何，都遵循分階段推出：

金絲雀（5% 流量）： 將一小部分非關鍵請求路由到新模型
驗證（24 至 48 小時）： 將輸出品質指標與上一個版本進行比較
全面推出： 將所有流量切換到新版本
回滾視窗： 保留前一個版本加載並準備好即時回滾 7 天

災難恢復

臨床環境中的 AI 系統故障需要明確的備用程序。

故障模式和回應

故障	RTO 目標	回應
GPU 故障	4 小時	故障轉移到 CPU 推理（降低吞吐量）
推理伺服器崩潰	15 分鐘	重新啟動服務，自動恢復
模型文件損壞	1 小時	從本地備份恢復，重新驗證校驗和
完整伺服器故障	8 小時	從備份恢復到備用硬體
網路分區	立即	臨床應用回退到非 AI 工作流程

CPU 故障回退

每個 GPU 加速部署都應該有經過測試的 CPU 備用路徑。如果 GPU 故障：

Ollama/llama.cpp 自動回退到 CPU 推理
吞吐量從約每秒 30 個 Token 降至約每秒 5 個 Token
將並發請求限制從 10 降至 2
優先處理實時臨床使用案例，排隊批次作業

這種降級模式在更換硬體期間保持 AI 可用。任何臨床工作流程都不應對 AI 有硬性依賴——它應該始終是輔助性的，有人工備用。

成本比較：本地端 vs 雲端 API

在醫療工作量下，數學有利於本地端。

3 年總擁有成本

成本組件	本地端（T4 GPU）	雲端 API（GPT-4 級，BAA）
硬體（第 0 年）	10,000 美元	0 美元
軟體/授權	0 美元（開源技術棧）	0 美元
API 成本（第 1 年）	0 美元	36,000 至 72,000 美元
API 成本（第 2 年）	0 美元	36,000 至 72,000 美元
API 成本（第 3 年）	0 美元	36,000 至 72,000 美元
電力/冷卻（3年）	1,800 美元	0 美元
DevOps 時間（3年）	15,000 美元（兼職）	5,000 美元（僅整合）
BAA/合規成本	0 美元（內部）	5,000 至 15,000 美元（供應商評估）
3年總計	26,800 美元	82,000 至 231,000 美元

假設： 每天 1,000 次推理，平均 500 個輸入 + 200 個輸出 Token。雲端定價為每 1K Token 0.01 至 0.03 美元（BAA 覆蓋層，通常是標準定價的 2 至 3 倍）。DevOps 每小時 75 美元，本地端每週 4 小時 vs 雲端每週 1 小時。

損益平衡點通常約為每天 200 至 300 次推理。低於此，帶有 BAA 的雲端 API 可能更具成本效益。高於此，本地端勝出，差距每月擴大。

團隊要求

您不需要專門的 ML 團隊。您需要：

1 名 DevOps/基礎設施工程師（兼職，每週約 4 小時）： 處理伺服器維護、模型更新、監控警報和安全修補。這個人已經在您的 IT 團隊中。
每個部門 1 名臨床冠軍： 擁有使用案例、驗證輸出並提供微調反饋的臨床醫生。不是技術角色。
供應商支援（可選）： Ertas 或類似平台用於微調、適配器管理和部署工具。消除了對 ML 專業知識的需求。

最常見的錯誤是人員超配。本地端 AI 推理在操作上類似於運行任何其他內部服務。如果您的團隊可以管理內部資料庫伺服器，他們就可以管理 AI 推理伺服器。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

整合架構

以下是中型醫院部署的完整架構：

網路（僅更新）
    |
[DMZ：更新代理]
    |
[內部網路 - VLAN 200：AI 基礎設施]
    |
[工件倉庫] --> [推理伺服器：T4 GPU + Ollama]
                      |               |
            [API 閘道（Nginx）]  [稽核 DB（PostgreSQL）]
                      |
            [mTLS + API 金鑰認證]
                      |
[VLAN 100：臨床系統]
    |           |           |
  [EHR]     [PACS]    [臨床應用]

第一天部署： 單個 T4 伺服器，一個部門，一個使用案例（臨床記錄摘要）。總成本低於 12,000 美元。使用現有 IT 人員的生產時間：2 至 3 週。

擴展路徑： 為新部門添加 LoRA 適配器。添加第二個 T4 以獲得更高吞吐量。為放射科、病理科、編碼添加專科模型。每次擴展都是增量的——不需要重新架構。

基礎設施是簡單的部分。模型服務技術棧已經驗證。網路模式已經清楚。重要的是讓第一個使用案例進入生產並向每天使用它的臨床人員證明價值。