每個醫療專科的 LoRA 適配器：放射科、病理科、初級護理

放射科報告和初級護理就診記錄需要根本上不同的 AI 能力。放射科需要具有精確解剖詞彙的結構化報告、與先前研究的比較，以及標準化的印象部分。初級護理需要與患者的對話交流、轉診信起草，以及跨數十種主訴類型的就診記錄摘要。

為每個專科運行單獨的微調模型既昂貴又浪費。FP16 格式的 Llama 3 8B 模型大約佔用 16 GB 的 VRAM。五個專科、五個模型、五個 GPU——這個數學對任何醫院或機構都行不通。

解決方案：一個基礎醫療模型在 GPU 記憶體中載入一次，加上根據請求部門按請求切換的輕量級 LoRA 適配器。本文涵蓋架構、特科專用訓練需求、儲存計算、適配器管理和效能比較。

架構：一個基礎模型，多個專科

核心設置

GPU 記憶體佈局：
┌─────────────────────────────────────┐
│  基礎模型（Llama 3 8B 或 Mistral）  │ ← 載入一次：8-16 GB
│  量化為 Q5_K_M：約 5.5 GB           │
├─────────────────────────────────────┤
│  活動 LoRA 適配器                    │ ← 每次請求熱切換
│  （特科專用，50-200 MB）             │
└─────────────────────────────────────┘

適配器儲存（SSD）：
├── radiology-report-v2.1.safetensors      (120 MB)
├── pathology-synoptic-v1.3.safetensors    (95 MB)
├── primary-care-notes-v3.0.safetensors    (140 MB)
├── cardiology-echo-v1.1.safetensors       (88 MB)
├── dermatology-lesion-v2.0.safetensors    (105 MB)
├── emergency-triage-v1.4.safetensors      (110 MB)
├── orthopedics-surgical-v1.0.safetensors  (92 MB)
├── psychiatry-eval-v1.2.safetensors       (130 MB)
├── oncology-staging-v1.1.safetensors      (115 MB)
└── gastro-endo-v1.0.safetensors           (98 MB)

基礎模型選擇

基礎模型很重要。對於醫療保健，你希望一個已經具有強大醫學詞彙和推理能力的模型，然後透過 LoRA 進一步專業化。

Llama 3 8B 是大多數醫療保健部署的推薦起點：

強大的通用推理
開箱即用在醫學基準測試上表現良好
大型社群，經過充分測試的量化路徑
商業用途許可授權

Mistral 7B 是當延遲是主要考量時的強力替代方案：

略小，推理速度更快
滑動視窗注意力能很好地處理長臨床文件
良好的每參數效能比

任一模型都可作為凍結的基礎。LoRA 適配器完成專業化工作。

請求路由

當請求到達時，系統識別發起部門並載入對應的適配器：

傳入請求
      │
      ▼
┌─────────────┐
│  API 閘道   │ ← 驗證身分，識別部門
└──────┬──────┘
       │
       ▼
┌──────────────────┐
│ 適配器路由器      │ ← 映射部門 → 適配器檔案
│                   │
│ 放射科  → rad-v2.1
│ 病理科  → path-v1.3
│ 初級護理 → pc-v3.0
└──────┬───────────┘
       │
       ▼
┌──────────────────┐
│  推理引擎         │ ← 基礎模型 + 選定的適配器
│  (vLLM / Ollama)  │
└──────────────────┘

現代硬體上的適配器切換時間：10-50 毫秒。對終端使用者不可見。實際上，大多數推理引擎快取最近使用的適配器，因此活躍部門的切換成本接近零。

放射科適配器

功能

放射科 AI 協助三項核心任務：

從發現產生報告 — 給定一列成像發現（口述或從工作清單提取），產生結構化放射科報告。
與先前研究比較 — 給定當前和先前的發現，產生報告的「比較」部分。
印象摘要 — 將完整的發現部分濃縮為簡潔的臨床印象，附有可行的建議。

訓練資料需求

參數	規格
數量	300-500 個放射科報告範例
來源	機構 PACS/RIS 的去識別化報告、MIMIC-CXR（公開可用）、OpenI（NIH）
格式	輸入：結構化發現清單。輸出：完整的報告部分。
品質標準	由主治放射科醫師審查和核准的報告。排除初步或修正的報告。
模態覆蓋	CT（30%）、MRI（25%）、X 光（25%）、超音波（15%）、其他（5%）
去識別化	去除患者姓名、病歷號、出生日期、日期、轉診醫師、機構名稱

輸出格式

適配器應產生遵循 ACR（美國放射學院）結構化報告標準的報告：

檢查：胸部 CT 加顯影劑

臨床指示：62 歲男性，持續咳嗽，排除惡性腫瘤。

比較：[日期] 胸部 CT。

技術：靜脈注射 100 mL 顯影劑後獲取胸部軸向影像。

發現：
肺部：右下葉 8 毫米毛玻璃結節，與先前檢查相比無變化。
無新的肺部結節。無實變或胸腔積液。
[...]

印象：
1. 穩定的 8 毫米右下葉毛玻璃結節。建議按照
   Fleischner 協會指南在 6 個月後進行隨訪 CT。
2. 無急性心肺異常。

關鍵訓練考量

一致性優先於創意。 放射科報告遵循嚴格的格式慣例。使用低溫度（0.1-0.3）訓練，並在訓練資料中強調格式合規性。
解剖詞彙。 適配器必須學習機構特定的術語偏好（例如「不透明」vs.「浸潤」，「病灶」vs.「腫塊」）。
測量精確性。 模型應精確複製輸入中提供的測量值。使用明確的測量範例訓練，以防止大小或尺寸的幻覺。

病理科適配器

功能

標本描述標準化 — 將自由文字的粗略描述轉換為標準化的提要格式。
結果解釋 — 為常見的病理發現產生解釋性評論。
提要報告 — 產生符合 CAP（美國病理學院）協議的提要報告。

訓練資料需求

參數	規格
數量	200-400 個病理報告範例
來源	去識別化的機構病理報告、CAP 協議範本
格式	輸入：粗略描述 + 顯微鏡發現。輸出：提要報告。
品質標準	僅最終簽發的報告。排除附錄，除非與原始報告配對。
標本類型	外科病理（60%）、細胞學（20%）、皮膚病理（15%）、血液病理（5%）
去識別化	去除患者識別碼、標本號、轉診醫師姓名

提要輸出範例

CAP 提要報告 — 乳腺切除術

程序：乳腺腫塊切除術
標本側別：左側
腫瘤部位：外上象限
組織學類型：浸潤性導管癌，NOS
組織學分級：2 級（Nottingham 評分 6/9）
腫瘤大小：1.8 厘米（最大尺寸）
切緣：陰性（最近切緣：3 毫米，上方）
淋巴管浸潤：未發現
DCIS：存在，實性和篩狀模式
[...]

關鍵訓練考量

結構化輸出忠實度。 CAP 提要協議有必填欄位。適配器必須學習填寫每個必填欄位，即使輸入不完整（在這種情況下，應指明「未指定」而非產生幻覺）。
較低的數量需求。 病理報告高度結構化，因此適配器收斂更快——通常 200-400 個範例就足夠，而結構性較低的專科需要 400-600 個。
分類準確性。 組織學分級、分期和切緣狀態必須從輸入資料中精確轉錄。使用專門測試這些關鍵欄位的範例訓練。

初級護理適配器

功能

就診記錄摘要 — 從就診資料或口述轉錄產生 SOAP 記錄。
患者溝通 — 起草就診後摘要、護理說明和後續訊息，使用患者易於理解的語言。
轉診信起草 — 產生包含相關病史、當前用藥和臨床問題的專科轉診信。
護理計劃產生 — 根據診斷、患者病史和臨床指南產生結構化護理計劃。

訓練資料需求

參數	規格
數量	400-600 個範例（因任務多樣性而更多）
來源	去識別化的就診記錄、患者入口訊息、轉診信
格式	因任務而異。就診記錄：就診資料 → SOAP。溝通：臨床資訊 → 患者易於理解的語言。
品質標準	有經驗的醫師的記錄。排除不完整的就診。
就診類型覆蓋	年度健康（15%）、急性就診（35%）、慢性病管理（30%）、隨訪（20%）
去識別化	完整的 PHI 去除，包括可能識別身分的社會史細節

關鍵訓練考量

閱讀水平。 面向患者的溝通必須以 6-8 年級的閱讀水平撰寫。在你的評估標準中包含可讀性評分。
任務多樣性。 初級護理適配器處理最廣泛的任務範圍。在訓練資料中使用特定任務的指令前綴，以幫助適配器區分「產生 SOAP 記錄」和「撰寫患者信件」。
藥物意識。 初級護理記錄頻繁涉及藥物。適配器應精確複製藥物名稱、劑量和頻率。不要依賴適配器進行藥物相互作用檢查——那是 RAG 任務。

儲存計算：這需要多少成本

整個多專科部署非常緊湊：

組件	大小
基礎模型（Llama 3 8B，Q5_K_M 量化）	5.5 GB
放射科適配器	120 MB
病理科適配器	95 MB
初級護理適配器	140 MB
心臟科適配器	88 MB
皮膚科適配器	105 MB
急診適配器	110 MB
骨科適配器	92 MB
精神科適配器	130 MB
腫瘤科適配器	115 MB
腸胃科適配器	98 MB
總計（基礎 + 10 個專科）	約 6.6 GB

與 10 個單獨的微調模型相比：10 × 5.5 GB = 55 GB。LoRA 方法使用 88% 更少的儲存，並且只需要一個 GPU 而不是多個。

推理時的 VRAM 需求：

基礎模型（量化）：5.5 GB
活動適配器：約 100-150 MB
KV 快取（2K 上下文）：約 500 MB
開銷：約 500 MB
總計：約 6.5-7 GB — 適合單一消費者 GPU（RTX 4060 或更好）

運行 10 個專科的醫院只需要一張 GPU 卡，而非十張。這就是 LoRA 的價值主張。

適配器管理：版本控制和測試

版本命名慣例

使用清晰、可預測的命名方案：

{specialty}-{task}-v{major}.{minor}.safetensors

範例：
radiology-report-v1.0.safetensors    ← 初始版本
radiology-report-v1.1.safetensors    ← 錯誤修正，小幅重新訓練
radiology-report-v2.0.safetensors    ← 主要重新訓練，新資料
pathology-synoptic-v1.3.safetensors  ← 第一版本的第三個修補程式

版本間的 A/B 測試

在部署新的適配器版本之前，在留出的測試集上與當前版本對比運行：

指標	v1.0	v1.1	門檻
格式合規性	94%	97%	高於 95%
臨床準確率	91%	93%	高於 90%
幻覺率	3.2%	1.8%	低於 2%
延遲（p95）	420ms	435ms	低於 500ms

只有在 v1.1 符合所有門檻時才將其推送到生產環境。保留 v1.0 作為回滾選項。

部署：載入一次，每次請求切換

推理引擎在啟動時載入基礎模型一次。適配器按需載入：

請求到達，標記為 department: radiology
路由器檢查 radiology-report-v2.1 是否在適配器快取中
如果已快取：應用適配器，執行推理（增加約 5 毫秒延遲）
如果未快取：從 SSD 載入到 GPU（約 30-50 毫秒），快取，執行推理
返回回應

大多數推理框架（vLLM、text-generation-inference、Ollama）原生支援此模式。適配器快取在 GPU 記憶體中保存 3-5 個最近使用的適配器。對於放射科、初級護理和急診是最高容量部門的醫院，這三個適配器會永久快取。

效能：通用模型 vs. 特科適配器

這是投資得到回報的地方。通用基礎模型能相當好地處理醫療文字。特科適配器使其在臨床上有用。

準確率比較（內部基準測試）

任務	通用基礎模型	特科 LoRA 適配器	提升
放射科報告產生	71% 格式合規性	96% 格式合規性	+25 點
放射科印象準確率	78%	93%	+15 點
病理科提要完整性	65% 欄位正確	94% 欄位正確	+29 點
初級護理 SOAP 記錄	74%	91%	+17 點
患者溝通可讀性	平均 11 年級	平均 7 年級	適當水平
轉診信完整性	68%	92%	+24 點
出院摘要準確率	72%	89%	+17 點
臨床編碼建議準確率	70%	88%	+18 點

所有任務的平均改善：+20.6 個百分點。 這是臨床醫師忽視的模型和他們實際使用的模型之間的差距。

延遲比較

配置	首個 Token 的時間	總產生時間（500 個 token）
僅基礎模型	45ms	380ms
基礎 + 快取的 LoRA 適配器	48ms	395ms
基礎 + 冷載入 LoRA 適配器	85ms	430ms

LoRA 的延遲開銷可以忽略不計——快取適配器為 3-15 毫秒。在臨床工作流程中，人工互動（點擊、閱讀、編輯）需要數秒，這是不可見的。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

整合在一起

部署清單

選擇基礎模型。 平衡效能選 Llama 3 8B（Q5_K_M 量化）。如果延遲是首要考量，選 Mistral 7B。
優先排序專科。 從容量最高的 2-3 個部門開始。放射科和初級護理幾乎總是正確的第一選擇。
收集並去識別化訓練資料。 每個專科 300-600 個範例。與部門主任合作確定具代表性的高品質範例。
訓練適配器。 秩 16-32，學習率 1e-4 到 2e-4，3-5 個週期。每個週期後針對留出的測試集進行驗證。
與通用模型對比基準測試。 記錄每項任務的改善。這些資料為部署向醫院管理層提供正當理由。
使用版本控制部署。 使用上述命名慣例。保留至少一個先前版本作為回滾選項。
監控並重新訓練。 每週追蹤準確率指標。每季度或效能低於門檻時重新訓練。

一個模型多個適配器的架構不只是成本優化——它是操作簡化。一個要更新的模型，一個要保護的模型，一個要稽核的模型。適配器增加了專業化，而不增加基礎設施複雜性。

每個醫療專科的 LoRA 適配器：放射科、病理科、初級護理

架構：一個基礎模型，多個專科

核心設置

基礎模型選擇

請求路由

放射科適配器

功能

訓練資料需求

輸出格式

關鍵訓練考量

病理科適配器

功能

訓練資料需求

提要輸出範例

關鍵訓練考量

初級護理適配器

功能

訓練資料需求

關鍵訓練考量

儲存計算：這需要多少成本

適配器管理：版本控制和測試

版本命名慣例

版本間的 A/B 測試

部署：載入一次，每次請求切換

效能：通用模型 vs. 特科適配器

準確率比較（內部基準測試）

延遲比較

整合在一起

部署清單

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

多客戶微調：一個基礎模型，每個律師事務所的自訂 LoRA 適配器

微調管線的 CI/CD：自動化訓練-評估-部署

在生產環境中管理 50 個以上 LoRA 適配器：版本控制和組織