為何向量 RAG 在臨床資料上失敗——以及改用什麼

檢索增強生成本應解決臨床 AI 的問題。不需要在專有臨床資料上微調模型——代價高昂、合規密集且技術要求高——你嵌入文件，構建向量索引，並在查詢時檢索相關片段。無需訓練。無需 HIPAA 合規工作。只需搜索和生成。

在實踐中，嘗試過這種方法的醫療 AI 團隊遇到了一組一致的失敗。核心問題是，使 RAG 工作的向量嵌入是在通用域文字上訓練的。臨床文字不是通用域文字。語言模式、縮寫、術語結構——所有這些都足夠不同，以至於通用域嵌入產生的檢索結果以不總是顯而易見的方式是錯誤的。

本指南解釋了原因，並附上具體示例，描述了什麼對臨床 AI 應用程式真正有效。

RAG 承諾什麼——以及為何醫療團隊選擇它

檢索增強生成通過將文件轉換為稠密向量表示（嵌入）、將它們存儲在向量資料庫中，在查詢時將查詢轉換為向量、通過餘弦相似度找到最近的文件片段，並將這些片段作為上下文傳遞給語言模型來工作。

對醫療的吸引力是真實的：

不需要微調——基礎模型已經預訓練好
嵌入後任何新文件立即可用（無需重新訓練）
「訓練資料」只是文件語料庫——不需要標注
如果向量資料庫和嵌入模型在本地運行，不需要雲端服務

對於許多企業使用場景——內部文件搜索、政策檢索、知識庫問答——RAG 效果很好。出於同樣的原因，它是臨床文件搜索的合理首選方法。

當查詢和文件涉及臨床語言時，問題就出現了。

核心問題：嵌入不理解臨床語言

最常用於 RAG 的嵌入模型（OpenAI 的 text-embedding-3 系列、Cohere 的 embed-v3、Sentence Transformers 模型）是在大量網路文字、維基百科、書籍和程式碼語料庫上訓練的。臨床文字——護理記錄、出院摘要、手術報告、放射學報告——不是那些訓練語料庫的重要組成部分。

後果：這些模型對臨床概念沒有有意義的表示。它們產生嵌入，但嵌入空間沒有編碼在臨床語境中重要的語義關係。

縮寫歧義問題。 臨床文字充滿了依賴上下文的縮寫。「MS」對神經科醫生意味著多發性硬化症，對心臟病學家意味著二尖瓣狹窄，對骨科外科醫生意味著肌肉骨骼，對藥劑師意味著硫酸嗎啡。「MI」在心臟病學中意味著心肌梗塞，在另一個語境中意味著二尖瓣功能不全。「PCP」對大多數臨床醫生意味著初級保健醫生，在 HIV 醫學中意味著肺囊蟲肺炎。

通用域嵌入模型沒有機制根據臨床語境區分這些含義。它在訓練資料中見過所有這些縮寫，但沒有以足夠密度在臨床語境中見過它們，以構建對上下文敏感的表示。

結果：對「MI 治療」的查詢返回關於心肌梗塞、二尖瓣功能不全，以及偶爾恰好在不同意義上包含「MI」的不相關文件的文件。對於在心臟病學文件語料庫中查詢的心臟病學家，第一次檢索失敗很煩人。在臨床決策支援語境中，這是一個安全問題。

否定和不確定性。 臨床文字充滿了否定和模糊：「無肺炎證據」、「排除肺栓塞」、「可能右下肺葉肺不張」。通用域嵌入模型不能可靠地編碼「患者患有肺炎」和「無肺炎證據」之間的語義差異。兩個句子都包含「肺炎」這個詞，並且會產生相似的嵌入向量。

如果醫生查詢「使用阿奇黴素治療的肺炎患者」，RAG 系統將檢索包含肯定和否定肺炎提及的文件，因為嵌入是相似的。接收這些片段作為上下文的語言模型有時會從否定的來源材料中幻覺出肯定的答案。

術語變體。 單一臨床概念可以在臨床文字中以數十種表面形式出現：「心肌梗塞」、「心臟病發作」、「急性 MI」、「STEMI」、「NSTEMI」、「1 型 MI」、「急性冠狀動脈綜合症」（在實踐中有時可互換使用，有時有區別）。通用域嵌入將其中一些組合在一起，但不是全部，其方式不反映臨床語義等價性。

這不是假設性問題。醫療 AI 團隊直接遇到了它。從向量 RAG 轉移的從業者得出的實際結論是：檢索對於在臨床語境中構建應用程式不夠可靠。失敗模式——無聲地檢索錯誤文件，根據不相關或矛盾的證據產生聽起來有把握的答案——正是你在臨床語境中無法承受的。

在實踐中什麼會失效

當醫療 AI 團隊在臨床文件語料庫上評估 RAG 時，失敗模式是一致的：

罕見疾病的低精度檢索。 對於常見疾病，嵌入相似度效果相當好，因為常見疾病出現在嵌入模型和語言模型的訓練資料中。對於罕見疾病，嵌入模型的表示很差，檢索到的片段通常在主題上相鄰，但在臨床上是錯誤的。

DICOM 和結構化報告元資料。 DICOM 元資料——模式代碼、程序描述、研究系列描述——使用受控詞彙，對通用域嵌入實質上是不透明的。「XR CHEST PA LATERAL」不能被在散文文字上訓練的模型以任何有用的方式進行語義表示。RAG 在放射學檔案上經常無法檢索到正確的研究類型。

跨文件推理失敗。 「患者最近三次住院的肌酐趨勢如何？」這樣的臨床問題需要從同一患者在不同時間的多個文件中檢索和整合資訊。片段級別的檢索不支持這種時間性的多文件推理。這是 RAG 方法的結構限制，而非嵌入模型的失敗。

症狀查詢的高假陽性率。 有關特定症狀的查詢檢索到在任何語境中提及這些症狀的文件——作為鑑別診斷、作為排除的疾病、作為患者報告的擔憂。如果不了解臨床斷言狀態（肯定的、否定的或可能的），召回率高但精度低。

什麼真正有效

領域適應的嵌入。 在臨床文字上微調的嵌入模型——BiomedBERT、ClinicalBERT 以及來自生物醫學 NLP 文獻的類似模型——對臨床內容產生有意義的更好嵌入。這些模型是在 PubMed 摘要、MIMIC-III 臨床記錄或類似的臨床語料庫上預訓練或微調的。它們對醫學縮寫、臨床概念和術語變體有更好的表示。

對於在臨床文件語料庫上的 RAG，將通用域嵌入模型替換為臨床嵌入模型是影響最大的單一更改。它減少了縮寫歧義問題，並改善了臨床術語查詢的語義相似度。它不能解決否定問題或跨文件推理問題，但對臨床術語查詢的精度有有意義的改善。

更好的分塊策略。 通用分塊（按 token 計數分割，帶有重疊）對臨床文件不是最優的。臨床記錄有已知的結構：主訴、現病史、既往病史、藥物、評估、計劃。分塊邊界應該尊重這些部分，而不是跨部分切割。分節感知的分塊產生語義連貫的片段，並改善檢索精度。

DICOM 元資料應該作為精確匹配搜索的結構化資料處理，而不是嵌入進行語義檢索。放射學檔案上的檢索應該結合結構化元資料過濾（模式、身體部位、研究日期）和報告文字的語義檢索。

微調的臨床 NLP 模型。 對於最重要的使用場景——ICD 編碼、藥物提取、臨床概念標準化——微調的臨床 NLP 模型優於 RAG。這些模型針對任務專門訓練，使用來自目標領域的標注臨床資料。它們是確定性的（無隨機生成步驟）、可稽核的（每次提取都有來源跨度），並且在臨床術語上明顯更準確。

折衷是微調模型需要訓練資料——標注的臨床記錄，這需要時間和臨床專家參與。RAG 承諾避免這項工作。但 RAG 在臨床資料上的精度損失通常大到微調是值得投資的。

混合方法。 最強大的臨床 AI 系統結合了結構化提取（用於已知實體類型的微調 NLP 模型）和檢索（用於開放式文件搜索的臨床嵌入 RAG）。微調模型可靠地處理結構化任務；RAG 處理召回率比精度更重要的探索性查詢。

為何資料準備是兩者的根本問題

無論你是在構建 RAG 系統還是微調臨床 NLP 模型，底層臨床資料的品質決定了輸出的品質。

對於 RAG：結構不良的文件、不一致的術語、將個人健康資訊與臨床內容混合的文件，以及帶有 OCR 錯誤的文字，都會降低檢索品質。清洗文件語料庫——去識別化個人健康資訊、糾正 OCR 錯誤、結構化文件元資料——即使在更換嵌入模型之前也能改善 RAG 性能。

對於微調：低品質或標注不一致的訓練資料產生無法泛化的模型。標注品質，而非模型架構，通常是約束因素。

在兩種情況下，資料準備的投入都會在下游得到回報。已經超越臨床 RAG 失敗模式的團隊不是那些擁有最好模型的團隊——他們是那些擁有最好資料的團隊。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

為何向量 RAG 在臨床資料上失敗——以及改用什麼

RAG 承諾什麼——以及為何醫療團隊選擇它

核心問題：嵌入不理解臨床語言

在實踐中什麼會失效

什麼真正有效

為何資料準備是兩者的根本問題

延伸閱讀

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

企業 AI 代理的微調模型 vs RAG：各自的使用時機

臨床 NLP 訓練資料：如何在不違反 HIPAA 的情況下準備醫療記錄

最佳符合HIPAA的醫療RAG管道：無資料外洩的本地文件檢索