
每個醫療專科的 LoRA 適配器:放射科、病理科、初級護理
如何使用特科專用的 LoRA 適配器從單一基礎模型服務多個醫院部門。涵蓋架構、訓練資料需求、儲存計算、適配器管理和效能基準測試。
放射科報告和初級護理就診記錄需要根本上不同的 AI 能力。放射科需要具有精確解剖詞彙的結構化報告、與先前研究的比較,以及標準化的印象部分。初級護理需要與患者的對話交流、轉診信起草,以及跨數十種主訴類型的就診記錄摘要。
為每個專科運行單獨的微調模型既昂貴又浪費。FP16 格式的 Llama 3 8B 模型大約佔用 16 GB 的 VRAM。五個專科、五個模型、五個 GPU——這個數學對任何醫院或機構都行不通。
解決方案:一個基礎醫療模型在 GPU 記憶體中載入一次,加上根據請求部門按請求切換的輕量級 LoRA 適配器。本文涵蓋架構、特科專用訓練需求、儲存計算、適配器管理和效能比較。
架構:一個基礎模型,多個專科
核心設置
GPU 記憶體佈局:
┌─────────────────────────────────────┐
│ 基礎模型(Llama 3 8B 或 Mistral) │ ← 載入一次:8-16 GB
│ 量化為 Q5_K_M:約 5.5 GB │
├─────────────────────────────────────┤
│ 活動 LoRA 適配器 │ ← 每次請求熱切換
│ (特科專用,50-200 MB) │
└─────────────────────────────────────┘
適配器儲存(SSD):
├── radiology-report-v2.1.safetensors (120 MB)
├── pathology-synoptic-v1.3.safetensors (95 MB)
├── primary-care-notes-v3.0.safetensors (140 MB)
├── cardiology-echo-v1.1.safetensors (88 MB)
├── dermatology-lesion-v2.0.safetensors (105 MB)
├── emergency-triage-v1.4.safetensors (110 MB)
├── orthopedics-surgical-v1.0.safetensors (92 MB)
├── psychiatry-eval-v1.2.safetensors (130 MB)
├── oncology-staging-v1.1.safetensors (115 MB)
└── gastro-endo-v1.0.safetensors (98 MB)
基礎模型選擇
基礎模型很重要。對於醫療保健,你希望一個已經具有強大醫學詞彙和推理能力的模型,然後透過 LoRA 進一步專業化。
Llama 3 8B 是大多數醫療保健部署的推薦起點:
- 強大的通用推理
- 開箱即用在醫學基準測試上表現良好
- 大型社群,經過充分測試的量化路徑
- 商業用途許可授權
Mistral 7B 是當延遲是主要考量時的強力替代方案:
- 略小,推理速度更快
- 滑動視窗注意力能很好地處理長臨床文件
- 良好的每參數效能比
任一模型都可作為凍結的基礎。LoRA 適配器完成專業化工作。
請求路由
當請求到達時,系統識別發起部門並載入對應的適配器:
傳入請求
│
▼
┌─────────────┐
│ API 閘道 │ ← 驗證身分,識別部門
└──────┬──────┘
│
▼
┌──────────────────┐
│ 適配器路由器 │ ← 映射部門 → 適配器檔案
│ │
│ 放射科 → rad-v2.1
│ 病理科 → path-v1.3
│ 初級護理 → pc-v3.0
└──────┬───────────┘
│
▼
┌──────────────────┐
│ 推理引擎 │ ← 基礎模型 + 選定的適配器
│ (vLLM / Ollama) │
└──────────────────┘
現代硬體上的適配器切換時間:10-50 毫秒。對終端使用者不可見。實際上,大多數推理引擎快取最近使用的適配器,因此活躍部門的切換成本接近零。
放射科適配器
功能
放射科 AI 協助三項核心任務:
- 從發現產生報告 — 給定一列成像發現(口述或從工作清單 提取),產生結構化放射科報告。
- 與先前研究比較 — 給定當前和先前的發現,產生報告的「比較」部分。
- 印象摘要 — 將完整的發現部分濃縮為簡潔的臨床印象,附有可行的建議。
訓練資料需求
| 參數 | 規格 |
|---|---|
| 數量 | 300-500 個放射科報告範例 |
| 來源 | 機構 PACS/RIS 的去識別化報告、MIMIC-CXR(公開可用)、OpenI(NIH) |
| 格式 | 輸入:結構化發現清單。輸出:完整的報告部分。 |
| 品質標準 | 由主治放射科醫師審查和核准的報告。排除初步或修正的報告。 |
| 模態覆蓋 | CT(30%)、MRI(25%)、X 光(25%)、超音波(15%)、其他(5%) |
| 去識別化 | 去除患者姓名、病歷號、出生日期、日期、轉診醫師、機構名稱 |
輸出格式
適配器應產生遵循 ACR(美國放射學院)結構化報告標準的報告:
檢查:胸部 CT 加顯影劑
臨床指示:62 歲男性,持續咳嗽,排除惡性腫瘤。
比較:[日期] 胸部 CT。
技術:靜脈注射 100 mL 顯影劑後獲取胸部軸向影像。
發現:
肺部:右下葉 8 毫米毛玻璃結節,與先前檢查相比無變化。
無新的肺部結節。無實變或胸腔積液。
[...]
印象:
1. 穩定的 8 毫米右下葉毛玻璃結節。建議按照
Fleischner 協會指南在 6 個月後進行隨訪 CT。
2. 無急性心肺異常。
關鍵訓練考量
- 一致性優先於創意。 放射科報告遵循嚴格的格式慣例。使用低溫度(0.1-0.3)訓練,並在訓練資料中強調格式合規性。
- 解剖詞彙。 適配器必須學習機構特定的術語偏好(例如「不透明」vs.「浸潤」,「病灶」vs.「腫塊」)。
- 測量精確性。 模型應精確複製輸入中提供的測量值。使用明確的測量範例訓練,以防止大小或尺寸的幻覺。
病理科適配器
功能
- 標本描述標準化 — 將自由文字的粗略描述轉換為標準化的提要格式。
- 結果解釋 — 為常見的病理發現產生解釋性評論。
- 提要報告 — 產生符合 CAP(美國病理學院)協議的提要報告。
訓練資料需求
| 參數 | 規格 |
|---|---|
| 數量 | 200-400 個病理報告範例 |
| 來源 | 去識別化的機構病理報告、CAP 協議範本 |
| 格式 | 輸入:粗略描述 + 顯微鏡發現。輸出:提要報告。 |
| 品質標準 | 僅最終簽發的報告。排除附錄,除非與原始報告配對。 |
| 標本類型 | 外科病理(60%)、細胞學(20%)、皮膚病理(15%)、血液病理(5%) |
| 去識別化 | 去除患者識別碼、標本號、轉診醫師姓名 |
提要輸出範例
CAP 提要報告 — 乳腺切除術
程序:乳腺腫塊切除術
標本側別:左側
腫瘤部位:外上象限
組織學類型:浸潤性導管癌,NOS
組織學分級:2 級(Nottingham 評分 6/9)
腫瘤大小:1.8 厘米(最大尺寸)
切緣:陰性(最近切緣:3 毫米,上方)
淋巴管浸潤:未發現
DCIS:存在,實性和篩狀模式
[...]
關鍵訓練考量
- 結構化輸出忠實度。 CAP 提要協議有必填欄位。適配器必須學習填寫每個必填欄位,即使輸入不完整(在這種情況下,應指明「未指定」而非產生幻覺)。
- 較低的數量需求。 病理報告高度結構化,因此適配器收斂更快——通常 200-400 個範例就足夠,而結構性較低的專科需要 400-600 個。
- 分類準確性。 組織學分級、分期和切緣狀態必須從輸入資料中精確轉錄。使用專門測試這些關鍵欄位的範例訓練。
初級護理適配器
功能
- 就診記錄摘要 — 從就診資料或口述轉錄產生 SOAP 記錄。
- 患者溝通 — 起草就診後摘要、護理說明和後續訊息,使用患者易於理解的語言。
- 轉診信起草 — 產生包含相關病史、當前用藥和臨床問題的專科轉診信。
- 護理計劃產生 — 根據診斷、患者病史和臨床指南產生結構化護理計劃。
訓練資料需求
| 參數 | 規格 |
|---|---|
| 數量 | 400-600 個範例(因任務多樣性而更多) |
| 來源 | 去識別化的就診記錄、患者入口訊息、轉診信 |
| 格式 | 因任務而異。就診記錄:就診資料 → SOAP。溝通:臨床資訊 → 患者易於理解的語言。 |
| 品質標準 | 有經驗的醫師的記錄。排除不完整 的就診。 |
| 就診類型覆蓋 | 年度健康(15%)、急性就診(35%)、慢性病管理(30%)、隨訪(20%) |
| 去識別化 | 完整的 PHI 去除,包括可能識別身分的社會史細節 |
關鍵訓練考量
- 閱讀水平。 面向患者的溝通必須以 6-8 年級的閱讀水平撰寫。在你的評估標準中包含可讀性評分。
- 任務多樣性。 初級護理適配器處理最廣泛的任務範圍。在訓練資料中使用特定任務的指令前綴,以幫助適配器區分「產生 SOAP 記錄」和「撰寫患者信件」。
- 藥物意識。 初級護理記錄頻繁涉及藥物。適配器應精確複製藥物名稱、劑量和頻率。不要依賴適配器進行藥物相互作用檢查——那是 RAG 任務。
儲存計算:這需要多少成本
整個多專科部署非常緊湊:
| 組件 | 大小 |
|---|---|
| 基礎模型(Llama 3 8B,Q5_K_M 量化) | 5.5 GB |
| 放射科適配器 | 120 MB |
| 病理科適配器 | 95 MB |
| 初級護理適配器 | 140 MB |
| 心臟科適配器 | 88 MB |
| 皮膚科適配器 | 105 MB |
| 急診適配器 | 110 MB |
| 骨科適配器 | 92 MB |
| 精神科適配器 | 130 MB |
| 腫瘤科適配器 | 115 MB |
| 腸胃科適配器 | 98 MB |
| 總計(基礎 + 10 個專科) | 約 6.6 GB |
與 10 個單獨的微調模型相比:10 × 5.5 GB = 55 GB。LoRA 方法使用 88% 更少的儲存,並且只需要一個 GPU 而不是多個。
推理時的 VRAM 需求:
- 基礎模型(量化):5.5 GB
- 活動適配器:約 100-150 MB
- KV 快取(2K 上下文):約 500 MB
- 開銷:約 500 MB
- 總計:約 6.5-7 GB — 適合單一消費者 GPU(RTX 4060 或更好)
運行 10 個專科的醫院只需要一張 GPU 卡,而非十張。這就是 LoRA 的價值主張。
適配器管理:版本控制和測試
版本命名慣例
使用清晰、可預測的命名方案:
{specialty}-{task}-v{major}.{minor}.safetensors
範例:
radiology-report-v1.0.safetensors ← 初始版本
radiology-report-v1.1.safetensors ← 錯誤修正,小幅重新訓練
radiology-report-v2.0.safetensors ← 主要重新訓練,新資料
pathology-synoptic-v1.3.safetensors ← 第一版本的第三個修補程式
版本間的 A/B 測試
在部署新的適配器版本之前,在留出的測試集上與當前版本對比運行:
| 指標 | v1.0 | v1.1 | 門檻 |
|---|---|---|---|
| 格式合規性 | 94% | 97% | 高於 95% |
| 臨床準確率 | 91% | 93% | 高於 90% |
| 幻覺率 | 3.2% | 1.8% | 低於 2% |
| 延遲(p95) | 420ms | 435ms | 低於 500ms |
只有在 v1.1 符合所有門檻時才將其推送到生產環境。保留 v1.0 作為回滾選項。