Back to blog
    每個醫療專科的 LoRA 適配器:放射科、病理科、初級護理
    healthcarelorafine-tuningradiologypathologymulti-tenantdeployment

    每個醫療專科的 LoRA 適配器:放射科、病理科、初級護理

    如何使用特科專用的 LoRA 適配器從單一基礎模型服務多個醫院部門。涵蓋架構、訓練資料需求、儲存計算、適配器管理和效能基準測試。

    EErtas Team·

    放射科報告和初級護理就診記錄需要根本上不同的 AI 能力。放射科需要具有精確解剖詞彙的結構化報告、與先前研究的比較,以及標準化的印象部分。初級護理需要與患者的對話交流、轉診信起草,以及跨數十種主訴類型的就診記錄摘要。

    為每個專科運行單獨的微調模型既昂貴又浪費。FP16 格式的 Llama 3 8B 模型大約佔用 16 GB 的 VRAM。五個專科、五個模型、五個 GPU——這個數學對任何醫院或機構都行不通。

    解決方案:一個基礎醫療模型在 GPU 記憶體中載入一次,加上根據請求部門按請求切換的輕量級 LoRA 適配器。本文涵蓋架構、特科專用訓練需求、儲存計算、適配器管理和效能比較。

    架構:一個基礎模型,多個專科

    核心設置

    GPU 記憶體佈局:
    ┌─────────────────────────────────────┐
    │  基礎模型(Llama 3 8B 或 Mistral)  │ ← 載入一次:8-16 GB
    │  量化為 Q5_K_M:約 5.5 GB           │
    ├─────────────────────────────────────┤
    │  活動 LoRA 適配器                    │ ← 每次請求熱切換
    │  (特科專用,50-200 MB)             │
    └─────────────────────────────────────┘
    
    適配器儲存(SSD):
    ├── radiology-report-v2.1.safetensors      (120 MB)
    ├── pathology-synoptic-v1.3.safetensors    (95 MB)
    ├── primary-care-notes-v3.0.safetensors    (140 MB)
    ├── cardiology-echo-v1.1.safetensors       (88 MB)
    ├── dermatology-lesion-v2.0.safetensors    (105 MB)
    ├── emergency-triage-v1.4.safetensors      (110 MB)
    ├── orthopedics-surgical-v1.0.safetensors  (92 MB)
    ├── psychiatry-eval-v1.2.safetensors       (130 MB)
    ├── oncology-staging-v1.1.safetensors      (115 MB)
    └── gastro-endo-v1.0.safetensors           (98 MB)
    

    基礎模型選擇

    基礎模型很重要。對於醫療保健,你希望一個已經具有強大醫學詞彙和推理能力的模型,然後透過 LoRA 進一步專業化。

    Llama 3 8B 是大多數醫療保健部署的推薦起點:

    • 強大的通用推理
    • 開箱即用在醫學基準測試上表現良好
    • 大型社群,經過充分測試的量化路徑
    • 商業用途許可授權

    Mistral 7B 是當延遲是主要考量時的強力替代方案:

    • 略小,推理速度更快
    • 滑動視窗注意力能很好地處理長臨床文件
    • 良好的每參數效能比

    任一模型都可作為凍結的基礎。LoRA 適配器完成專業化工作。

    請求路由

    當請求到達時,系統識別發起部門並載入對應的適配器:

    傳入請求
          │
          ▼
    ┌─────────────┐
    │  API 閘道   │ ← 驗證身分,識別部門
    └──────┬──────┘
           │
           ▼
    ┌──────────────────┐
    │ 適配器路由器      │ ← 映射部門 → 適配器檔案
    │                   │
    │ 放射科  → rad-v2.1
    │ 病理科  → path-v1.3
    │ 初級護理 → pc-v3.0
    └──────┬───────────┘
           │
           ▼
    ┌──────────────────┐
    │  推理引擎         │ ← 基礎模型 + 選定的適配器
    │  (vLLM / Ollama)  │
    └──────────────────┘
    

    現代硬體上的適配器切換時間:10-50 毫秒。對終端使用者不可見。實際上,大多數推理引擎快取最近使用的適配器,因此活躍部門的切換成本接近零。

    放射科適配器

    功能

    放射科 AI 協助三項核心任務:

    1. 從發現產生報告 — 給定一列成像發現(口述或從工作清單提取),產生結構化放射科報告。
    2. 與先前研究比較 — 給定當前和先前的發現,產生報告的「比較」部分。
    3. 印象摘要 — 將完整的發現部分濃縮為簡潔的臨床印象,附有可行的建議。

    訓練資料需求

    參數規格
    數量300-500 個放射科報告範例
    來源機構 PACS/RIS 的去識別化報告、MIMIC-CXR(公開可用)、OpenI(NIH)
    格式輸入:結構化發現清單。輸出:完整的報告部分。
    品質標準由主治放射科醫師審查和核准的報告。排除初步或修正的報告。
    模態覆蓋CT(30%)、MRI(25%)、X 光(25%)、超音波(15%)、其他(5%)
    去識別化去除患者姓名、病歷號、出生日期、日期、轉診醫師、機構名稱

    輸出格式

    適配器應產生遵循 ACR(美國放射學院)結構化報告標準的報告:

    檢查:胸部 CT 加顯影劑
    
    臨床指示:62 歲男性,持續咳嗽,排除惡性腫瘤。
    
    比較:[日期] 胸部 CT。
    
    技術:靜脈注射 100 mL 顯影劑後獲取胸部軸向影像。
    
    發現:
    肺部:右下葉 8 毫米毛玻璃結節,與先前檢查相比無變化。
    無新的肺部結節。無實變或胸腔積液。
    [...]
    
    印象:
    1. 穩定的 8 毫米右下葉毛玻璃結節。建議按照
       Fleischner 協會指南在 6 個月後進行隨訪 CT。
    2. 無急性心肺異常。
    

    關鍵訓練考量

    • 一致性優先於創意。 放射科報告遵循嚴格的格式慣例。使用低溫度(0.1-0.3)訓練,並在訓練資料中強調格式合規性。
    • 解剖詞彙。 適配器必須學習機構特定的術語偏好(例如「不透明」vs.「浸潤」,「病灶」vs.「腫塊」)。
    • 測量精確性。 模型應精確複製輸入中提供的測量值。使用明確的測量範例訓練,以防止大小或尺寸的幻覺。

    病理科適配器

    功能

    1. 標本描述標準化 — 將自由文字的粗略描述轉換為標準化的提要格式。
    2. 結果解釋 — 為常見的病理發現產生解釋性評論。
    3. 提要報告 — 產生符合 CAP(美國病理學院)協議的提要報告。

    訓練資料需求

    參數規格
    數量200-400 個病理報告範例
    來源去識別化的機構病理報告、CAP 協議範本
    格式輸入:粗略描述 + 顯微鏡發現。輸出:提要報告。
    品質標準僅最終簽發的報告。排除附錄,除非與原始報告配對。
    標本類型外科病理(60%)、細胞學(20%)、皮膚病理(15%)、血液病理(5%)
    去識別化去除患者識別碼、標本號、轉診醫師姓名

    提要輸出範例

    CAP 提要報告 — 乳腺切除術
    
    程序:乳腺腫塊切除術
    標本側別:左側
    腫瘤部位:外上象限
    組織學類型:浸潤性導管癌,NOS
    組織學分級:2 級(Nottingham 評分 6/9)
    腫瘤大小:1.8 厘米(最大尺寸)
    切緣:陰性(最近切緣:3 毫米,上方)
    淋巴管浸潤:未發現
    DCIS:存在,實性和篩狀模式
    [...]
    

    關鍵訓練考量

    • 結構化輸出忠實度。 CAP 提要協議有必填欄位。適配器必須學習填寫每個必填欄位,即使輸入不完整(在這種情況下,應指明「未指定」而非產生幻覺)。
    • 較低的數量需求。 病理報告高度結構化,因此適配器收斂更快——通常 200-400 個範例就足夠,而結構性較低的專科需要 400-600 個。
    • 分類準確性。 組織學分級、分期和切緣狀態必須從輸入資料中精確轉錄。使用專門測試這些關鍵欄位的範例訓練。

    初級護理適配器

    功能

    1. 就診記錄摘要 — 從就診資料或口述轉錄產生 SOAP 記錄。
    2. 患者溝通 — 起草就診後摘要、護理說明和後續訊息,使用患者易於理解的語言。
    3. 轉診信起草 — 產生包含相關病史、當前用藥和臨床問題的專科轉診信。
    4. 護理計劃產生 — 根據診斷、患者病史和臨床指南產生結構化護理計劃。

    訓練資料需求

    參數規格
    數量400-600 個範例(因任務多樣性而更多)
    來源去識別化的就診記錄、患者入口訊息、轉診信
    格式因任務而異。就診記錄:就診資料 → SOAP。溝通:臨床資訊 → 患者易於理解的語言。
    品質標準有經驗的醫師的記錄。排除不完整的就診。
    就診類型覆蓋年度健康(15%)、急性就診(35%)、慢性病管理(30%)、隨訪(20%)
    去識別化完整的 PHI 去除,包括可能識別身分的社會史細節

    關鍵訓練考量

    • 閱讀水平。 面向患者的溝通必須以 6-8 年級的閱讀水平撰寫。在你的評估標準中包含可讀性評分。
    • 任務多樣性。 初級護理適配器處理最廣泛的任務範圍。在訓練資料中使用特定任務的指令前綴,以幫助適配器區分「產生 SOAP 記錄」和「撰寫患者信件」。
    • 藥物意識。 初級護理記錄頻繁涉及藥物。適配器應精確複製藥物名稱、劑量和頻率。不要依賴適配器進行藥物相互作用檢查——那是 RAG 任務。

    儲存計算:這需要多少成本

    整個多專科部署非常緊湊:

    組件大小
    基礎模型(Llama 3 8B,Q5_K_M 量化)5.5 GB
    放射科適配器120 MB
    病理科適配器95 MB
    初級護理適配器140 MB
    心臟科適配器88 MB
    皮膚科適配器105 MB
    急診適配器110 MB
    骨科適配器92 MB
    精神科適配器130 MB
    腫瘤科適配器115 MB
    腸胃科適配器98 MB
    總計(基礎 + 10 個專科)約 6.6 GB

    與 10 個單獨的微調模型相比:10 × 5.5 GB = 55 GB。LoRA 方法使用 88% 更少的儲存,並且只需要一個 GPU 而不是多個。

    推理時的 VRAM 需求:

    • 基礎模型(量化):5.5 GB
    • 活動適配器:約 100-150 MB
    • KV 快取(2K 上下文):約 500 MB
    • 開銷:約 500 MB
    • 總計:約 6.5-7 GB — 適合單一消費者 GPU(RTX 4060 或更好)

    運行 10 個專科的醫院只需要一張 GPU 卡,而非十張。這就是 LoRA 的價值主張。

    適配器管理:版本控制和測試

    版本命名慣例

    使用清晰、可預測的命名方案:

    {specialty}-{task}-v{major}.{minor}.safetensors
    
    範例:
    radiology-report-v1.0.safetensors    ← 初始版本
    radiology-report-v1.1.safetensors    ← 錯誤修正,小幅重新訓練
    radiology-report-v2.0.safetensors    ← 主要重新訓練,新資料
    pathology-synoptic-v1.3.safetensors  ← 第一版本的第三個修補程式
    

    版本間的 A/B 測試

    在部署新的適配器版本之前,在留出的測試集上與當前版本對比運行:

    指標v1.0v1.1門檻
    格式合規性94%97%高於 95%
    臨床準確率91%93%高於 90%
    幻覺率3.2%1.8%低於 2%
    延遲(p95)420ms435ms低於 500ms

    只有在 v1.1 符合所有門檻時才將其推送到生產環境。保留 v1.0 作為回滾選項。

    部署:載入一次,每次請求切換

    推理引擎在啟動時載入基礎模型一次。適配器按需載入:

    1. 請求到達,標記為 department: radiology
    2. 路由器檢查 radiology-report-v2.1 是否在適配器快取中
    3. 如果已快取:應用適配器,執行推理(增加約 5 毫秒延遲)
    4. 如果未快取:從 SSD 載入到 GPU(約 30-50 毫秒),快取,執行推理
    5. 返回回應

    大多數推理框架(vLLM、text-generation-inference、Ollama)原生支援此模式。適配器快取在 GPU 記憶體中保存 3-5 個最近使用的適配器。對於放射科、初級護理和急診是最高容量部門的醫院,這三個適配器會永久快取。

    效能:通用模型 vs. 特科適配器

    這是投資得到回報的地方。通用基礎模型能相當好地處理醫療文字。特科適配器使其在臨床上有用。

    準確率比較(內部基準測試)

    任務通用基礎模型特科 LoRA 適配器提升
    放射科報告產生71% 格式合規性96% 格式合規性+25 點
    放射科印象準確率78%93%+15 點
    病理科提要完整性65% 欄位正確94% 欄位正確+29 點
    初級護理 SOAP 記錄74%91%+17 點
    患者溝通可讀性平均 11 年級平均 7 年級適當水平
    轉診信完整性68%92%+24 點
    出院摘要準確率72%89%+17 點
    臨床編碼建議準確率70%88%+18 點

    所有任務的平均改善:+20.6 個百分點。 這是臨床醫師忽視的模型和他們實際使用的模型之間的差距。

    延遲比較

    配置首個 Token 的時間總產生時間(500 個 token)
    僅基礎模型45ms380ms
    基礎 + 快取的 LoRA 適配器48ms395ms
    基礎 + 冷載入 LoRA 適配器85ms430ms

    LoRA 的延遲開銷可以忽略不計——快取適配器為 3-15 毫秒。在臨床工作流程中,人工互動(點擊、閱讀、編輯)需要數秒,這是不可見的。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    整合在一起

    部署清單

    1. 選擇基礎模型。 平衡效能選 Llama 3 8B(Q5_K_M 量化)。如果延遲是首要考量,選 Mistral 7B。

    2. 優先排序專科。 從容量最高的 2-3 個部門開始。放射科和初級護理幾乎總是正確的第一選擇。

    3. 收集並去識別化訓練資料。 每個專科 300-600 個範例。與部門主任合作確定具代表性的高品質範例。

    4. 訓練適配器。 秩 16-32,學習率 1e-4 到 2e-4,3-5 個週期。每個週期後針對留出的測試集進行驗證。

    5. 與通用模型對比基準測試。 記錄每項任務的改善。這些資料為部署向醫院管理層提供正當理由。

    6. 使用版本控制部署。 使用上述命名慣例。保留至少一個先前版本作為回滾選項。

    7. 監控並重新訓練。 每週追蹤準確率指標。每季度或效能低於門檻時重新訓練。

    一個模型多個適配器的架構不只是成本優化——它是操作簡化。一個要更新的模型,一個要保護的模型,一個要稽核的模型。適配器增加了專業化,而不增加基礎設施複雜性。

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading