如何為保險詐欺偵測 AI 模型準備訓練資料

根據 Coalition Against Insurance Fraud 的資料，保險詐欺每年給美國產業造成超過 800 億美元的損失。基於 AI 的詐欺偵測可以將誤報率降低 50-70%，相較於基於規則的系統，但前提是訓練資料經過了正確的準備。模型從來不是瓶頸。資料流水線才是。

大多數詐欺偵測專案停滯不前，不是因為演算法失敗，而是因為輸入的資料不一致、不完整或不合規。理賠文字以數十種格式到達。理算師筆記包含混雜著 PII 的非結構化自由文字。保單文件涵蓋 PDF、掃描影像和遺留系統匯出。將所有這些轉化為乾淨的、已標註的、模型就緒的資料集，佔據了專案 60-80% 的時間。

本指南涵蓋了保險詐欺偵測訓練資料準備的端到端流水線，並為每個資料來源和階段提供了具體的品質要求。

詐欺偵測模型的資料來源

保險詐欺偵測模型通常使用三種主要資料來源，每種都有不同的準備挑戰：

資料來源	格式	關鍵挑戰	詐欺訊號
理賠文字	結構化欄位 + 自由文字描述	編碼不一致、縮寫、缺失欄位	理賠金額異常、頻率模式、時間間隔
理算師筆記	非結構化自由文字，通常手寫或口述	OCR 錯誤、非正式語言、嵌入的 PII	行為紅旗、不一致性提及、可疑指標
保單文件	PDF、掃描影像、遺留系統匯出	多頁版面、表格、嵌入影像、不同的綱要	被利用的承保缺口、近期保單變更、理賠前的附加險添加

除了這些主要資料來源之外，氣象紀錄、公開法院文件和醫療服務提供者網路資料庫等補充資料增加了提高模型準確性的上下文。但核心流水線必須在添加補充層之前可靠地處理三種主要資料來源。

詐欺偵測訓練資料的流水線階段

流水線中的每個階段都解決直接影響模型效能的特定資料品質問題。跳過或在任何階段投入不足都會在下游累積錯誤。

階段 1：擷取和解析

第一個挑戰是從異質文件類型中提取可用的文字和結構化欄位。理賠資料可能以保單管理系統的 CSV 匯出形式到達，而理算師筆記可能是帶有嵌入影像的 PDF 或帶有修訂追蹤的 Word 文件。

文件類型	解析方法	常見錯誤
理賠 CSV/Excel	帶綱要驗證的表格解析	日期格式不一致、貨幣符號變化、null 與 zero 編碼差異
理算師筆記 (PDF)	帶版面分析的 PDF 文字擷取	多欄版面解析錯誤、頁首/頁尾汙染、掃描文件中的 OCR 偽影
理算師筆記 (Word)	保留章節結構的 DOCX 解析	修訂追蹤包含過時資訊、嵌入的批註被當作本文處理
保單文件 (PDF)	帶表格偵測的結構化 PDF 解析	附加險修正作為獨立頁面追加、非標準表格格式的批單計劃
掃描文件	帶信心分數的 OCR	低於 OCR 信心門檻的手寫筆記、印章和浮水印產生的雜訊

Ertas Data Suite 透過專用的 PDF、Word、Excel/CSV 和影像格式解析節點處理此擷取階段。每個解析節點輸出保留了中繼資料的結構化資料，視覺化流水線清楚地顯示哪些文件解析失敗以及原因。

階段 2：PII 脫敏和合規

保險資料包含密集的個人身分資訊：被保險人姓名、地址、社會安全號碼、醫療紀錄（用於健康和殘障理賠）以及財務帳戶資訊。根據管轄區域，GLBA、州保險法規以及可能的 HIPAA（用於與健康相關的理賠）都適用。

PII 脫敏必須在任何標註或模型訓練開始之前進行。詐欺偵測的脫敏策略需要仔細平衡——你需要保留足夠的上下文資訊讓模型偵測模式，同時刪除識別資訊。

需要脫敏的內容： 姓名、SSN、帳號、地址、電話號碼、電子郵件地址、出生日期。

需要保留的內容（透過假名化）： 地理區域（州/都會區層級）、年齡範圍、理賠時間關係、醫療服務提供者專業、保單持有期限。

這種區分很重要，因為詐欺模式通常與地理位置（有組織的詐欺集團在區域內運作）和時間（保單生效後幾天內提交的理賠）相關。完全刪除這些訊號會降低模型效能。對它們進行假名化——用分類範圍替換精確值——在保護隱私的同時保留了訊號。

階段 3：去重和正規化

保險資料集通常因系統遷移、多系統理賠處理和重新開啟的理賠而包含重複記錄。去重不僅僅是精確比對。近似重複偵測至關重要，因為同一理賠可能在不同系統中以略有不同的描述出現。

正規化處理詞彙問題。「MVA」、「機動車事故」和「車禍」應該映射到相同的概念用於訓練。類似地，ICD 代碼、手術代碼和承保類型描述需要標準化。

正規化任務	範例	對模型的影響
日期標準化	"3/15/26"、"March 15, 2026"、"15-Mar-26" 統一為 ISO 8601	實現準確的時間特徵擷取
貨幣正規化	"$1,500.00"、"1500"、"USD 1500" 統一為十進制浮點數	防止基於金額的特徵碎片化
代碼標準化	ICD-10 代碼驗證、CPT 代碼正規化	減少詞彙量，改善模式偵測
自由文字正規化	縮寫展開、錯字修正	改善文字嵌入品質以用於 NLP 詐欺訊號

階段 4：標註和注釋

詐欺偵測從根本上是一個分類任務，但標註策略決定了模型是學習有用的模式還是僅僅記憶表面的相關性。

保險詐欺的標籤分類體系：

標籤	定義	真值來源
已確認詐欺	透過調查裁定為詐欺的理賠	SIU 調查結果
疑似詐欺	被標記但調查尚無定論的理賠	SIU 轉介紀錄
合法	未發現詐欺跡象即支付的理賠	理賠支付紀錄
有組織方案	與多方詐欺集團關聯的理賠	執法機構或 SIU 交叉引用

類別不平衡問題在詐欺偵測中非常嚴重。合法理賠通常以 100:1 或更高的比例超過詐欺理賠。訓練資料準備必須透過分層抽樣、詐欺案例的合成過取樣或仔細的加權來解決這個問題——但策略取決於模型架構，應在標註階段之前確定。

超越二元分類，最有效的詐欺模型使用多訊號注釋。每個理賠不僅應標註詐欺/合法標籤，還應標註具體的詐欺指標：

時間異常（在保單寬限期內提交理賠）
行為標記（在不同保險公司提交多次理賠）
文件不一致（維修估價超過車輛價值）
網路訊號（理賠之間共享的醫療服務提供者、律師或地址）

階段 5：品質評分和驗證

在訓練資料到達模型之前，每筆記錄都應通過品質驗證。品質要求因資料類型而異：

品質維度	詐欺偵測要求	驗證方法
完整性	所有必填欄位存在；無關鍵空值	帶強制欄位檢查的綱要驗證
一致性	跨欄位邏輯成立（理賠日期晚於保單生效日）	基於規則的一致性檢查
標籤準確性	詐欺標籤的標註者間一致率至少 95%	雙標註者審核加裁決
時間完整性	事件序列按時間順序有效	時間戳排序驗證
脫敏完整性	訓練就緒的輸出中零 PII 殘留	自動化 PII 掃描 + 人工抽查

階段 6：匯出和劃分

最終階段產出帶有適當訓練/驗證/測試劃分的模型就緒資料集。對於詐欺偵測，分層劃分至關重要，以確保每個劃分保持相同的詐欺與合法比率。基於時間的劃分（用較舊的理賠訓練，用較新的測試）也被建議以防止時間資料洩漏。

匯出格式取決於建模方法：

表格模型 (XGBoost, LightGBM)： 帶有工程特徵的 CSV 或 Parquet
NLP 模型 (BERT, 微調的 LLM)： 指令/輸入/輸出格式的 JSONL
多模態模型： 將表格特徵與文件嵌入關聯的結構化記錄

為什麼本地化部署對保險業至關重要

保險資料是金融服務業中監管最嚴格的資料之一。州保險專員、GLBA 以及（對於健康險）HIPAA 都對資料處理施加了限制。基於雲端的資料準備工具需要廣泛的安全審查、BAA，並且通常無法滿足一些保險公司要求的氣隙處理要求。

本地化流水線平台完全消除了這些障礙。資料永遠不會離開保險公司的網路。每次轉換都有時間戳和操作員 ID 的紀錄。稽核追蹤可匯出以供監管審查。

Ertas Data Suite 作為原生桌面應用程式執行——沒有 Docker 容器、沒有雲端依賴、沒有網路暴露。對於建構詐欺偵測 AI 的保險公司來說，這意味著資料準備流水線透過架構滿足合規要求，而不是透過政策例外。

實務中建構流水線

Ertas 中保險詐欺偵測資料流水線的實際工作流遵循基於畫布的視覺化方法：

擷取 — File Import 節點將理賠 CSV、理算師筆記 PDF 和保單文件匯入流水線
解析 — 專用解析節點（PDF Parser、Excel/CSV Parser、Word Parser）擷取帶有中繼資料的結構化內容
脫敏 — PII Redactor 節點在保留假名化上下文訊號的同時刪除識別符
清理 — Deduplicator 和 Format Normalizer 節點處理重複和詞彙標準化
評分 — Quality Scorer 和 Anomaly Detector 節點標記未通過驗證規則的記錄
劃分 — Train/Val/Test Splitter 節點建立保持類別平衡的分層劃分
匯出 — JSONL Exporter 或 CSV Exporter 節點產生模型就緒的輸出

流水線中的每個節點都記錄其輸入、輸出以及它修改或拒絕的任何記錄。當稽核人員問「這個訓練資料集是如何產生的」時，答案是一個帶有完整處理日誌的視覺化流水線——而不是一堆未文件化的腳本。

關鍵要點

保險詐欺偵測 AI 的效果取決於訓練它的資料。從原始理賠資料到模型就緒訓練集的流水線需要仔細關注 PII 脫敏、類別平衡、多訊號注釋和時間完整性。在本地建構此流水線滿足了使保險資料準備成為獨特挑戰的監管要求。

投資於健壯、可觀測、合規的資料流水線的團隊交付的詐欺偵測模型在生產中真正有效。在資料準備上走捷徑的團隊則花費數月除錯可追溯到髒訓練資料的模型效能問題。