
最佳符合HIPAA的醫療RAG管道:無資料外洩的本地文件檢索
醫療機構需要RAG來支援臨床AI——但基於雲端的檢索管道在處理PHI時違反HIPAA。以下是如何建構完全在您基礎設施上運行的合規RAG管道。
檢索增強生成是每個值得部署的臨床AI助手背後的架構。醫生提出問題,系統檢索相關的臨床文件,語言模型基於這些文件合成答案。這個模式是有效的。合規問題在於這些文件在檢索過程中去了哪裡。
當RAG管 道將臨床筆記發送到外部嵌入API時,這些筆記——包含病患姓名、病歷號、診斷和治療歷史——離開了您的基礎設施。根據HIPAA,這構成向第三方揭露受保護健康資訊(PHI)。即使API提供商簽署了商業夥伴協議,您也已經引入了資料外洩、擴大了攻擊面,並建立了對您無法控制其基礎設施的供應商的依賴。
本文解釋了如何建構符合HIPAA的最佳RAG管道:將每個位元組的PHI保留在您自己的伺服器上,在嵌入前編輯識別碼,並維護滿足45 CFR 164.312要求的完整稽核追蹤。
HIPAA對RAG管道的實際要求
大多數RAG教學完全跳過合規性。但如果您的管道接觸PHI——而臨床文件幾乎總是包含PHI——四類HIPAA要求直接適用。
**技術保障措施(45 CFR 164.312(a))**要求對任何儲存或處理ePHI的系統實施存取控制。您的向量資料庫、嵌入模型、文件儲存——都需要唯一使用者識別、緊急存取程序、自動登出和加密。使用共享API金鑰的雲端託管向量資料庫不滿足這一要求。
**稽核控制(45 CFR 164.312(b))**要求具備硬體、軟體和程序機制來記錄和審查包含ePHI的系統中的活動。每次文件擷取、每次嵌入操作、每次檢索查詢都需要日誌條目。「我們使用LangChain」不是稽核追蹤。
**完整性控制(45 CFR 164.312(c))**要求具備驗證ePHI並保護其免受不當變更或銷毀的機制。您的管道必須確保文件在分塊、嵌入或檢索過程中不會損壞。
**傳輸安全(45 CFR 164.312(e))**要求對透過網路傳輸的ePHI進行加密。在雲端RAG設定中,每個傳輸文件分塊的API呼叫都是必須加密的傳輸。在氣隙隔離的RAG管道中,沒有需要保護的傳輸——因為資料從未離開機器。
最小必要標準(45 CFR 164.502(b))增加了另一個約束:您應該只處理完成任務所需的最少PHI。如果您的檢索系統只需要筆記的臨床內容——而不是病患姓名、出生日期或病歷號——這些識別碼應在進入管道之前被移除。
合規RAG的三層架構
建構面向醫療資料的最佳RAG解決方案需要三層協同工作:嵌入前編輯、隔離基礎設施、記錄一切。
第一層:嵌入前編輯
大多數RAG架構直接嵌入原始文件。在醫療領域,這意味著PHI被編碼到向量表示中並儲存在向量資料庫中。儘管向量不是人類可讀的,但它們源自PHI,可能受HIPAA保護。