保險核保 AI：從保單 PDF 到結構化訓練資料

核保是保險公司做出最重要決策的地方：承保什麼、以什麼價格、在什麼條款下。AI 越來越多地協助這些決策——風險分類、定價優化、提交分流——但所需的訓練資料埋藏在數十年從未為機器消費而設計的核保文件中。

將核保文件轉換為結構化 AI 訓練資料，需要理解獨特的文件類型、其中嵌入的領域專業知識，以及算法核保的監管限制。

核保文件類型

保單申請書

每個核保決策的起點。申請書包含：

結構化欄位：申請人信息、申請保障範圍、保額、免賠額
敘述部分：業務描述、損失歷史說明、風險管理實踐
附表：車輛清單、財產明細、員工人數、收入細分

申請書因業務線差異顯著。個人汽車申請書與商業財產申請書完全不同，而商業財產申請書又與董事及高級職員責任申請書完全不同。

風險評估報告

核保員撰寫的敘述性評估，記錄其分析：

已識別的風險因素（正面和負面）
與同類平均值的比較
定價理由及偏差說明
條款和條件修改
超出授權額度風險的轉介備注

這些報告是核保智識最豐富的來源——它們記錄了推理過程，而不僅是決策結果。

損失記錄

特定被保險人的歷史理賠資料：

理賠日期、類型、已付金額和準備金
開放與結案狀態
發展規律（理賠隨時間的演變方式）
各保障線的損失比率

損失記錄來自多個來源（現任承保人、前任承保人），格式不一致。

查勘報告

承保風險的第三方評估：

財產狀況、建築類型、保護等級
安全實踐和危害識別
符合建築規範和消防保護標準
照片和圖表

財務報表

對於商業險種，被保險人的財務狀況影響核保：

資產負債表、損益表、現金流量表
收入趨勢、負債比率、流動性指標
與行業基準的比較

建立訓練管道

第一階段：文件攝入

申請書：使用欄位提取解析 PDF 表格。處理各申請版本和業務線的差異。帶有附表的多頁申請書需要頁面級分類。

風險評估：帶有章節偵測的敘述文字提取。識別關鍵部分（風險摘要、定價理由、條款），即使格式因核保員而異。

損失記錄：帶有欄位映射的表格提取。不同承保人的損失記錄使用不同的欄位佈局、日期格式和狀態代碼。

財務報表：帶有行項目識別的結構化表格提取。將各種呈現方式映射到標準財務結構。

第二階段：規範化和豐富化

將所有文件來源中不一致的欄位名稱映射到標準模式
標準化代碼（SIC → NAICS、州代碼、保障代碼）
計算衍生特徵（損失比率、頻率/嚴重性拆分、增長率）
跨文件交叉引用資料（損失記錄是否與申請書的損失歷史披露匹配？）
標記不一致之處供審查

第三階段：為 AI 模型標注

風險分類標籤：

優選 / 標準 / 次標準 / 拒保
風險評分（1-10 或類似刻度）
驅動分類的關鍵風險因素

定價標籤：

目標保費、實際保費、偏差百分比
費率充足性評估
定價組成部分（基礎費率、經驗修正、計劃信用/借記）

決策標籤：

報價 / 拒保 / 轉介
提供的條款 vs 標準條款
添加的附加條款及理由

標注人員：資深核保員和定價精算師。風險分類需要大量判斷——初級分析師可能遺漏有經驗的核保員能立即捕捉到的風險因素。

第四階段：偏差測試

核保 AI 面臨針對歧視問題的嚴格監管審查：

受保護特徵：模型不得使用種族、民族、性別、宗教或其他受保護類別作為定價或篩選因素
代理變數：地理、信用和職業變數可能成為受保護特徵的代理
差異影響分析：即使表面中性的模型也必須測試對受保護群體的不相稱影響
州監管要求：許多州要求算法核保模型必須申報並獲批准

偏差測試必須記錄在案，結果包含在訓練資料包中。

第五階段：匯出

風險分類模型的 JSONL：{"application_features": {...}, "loss_history": [...], "risk_class": "standard", "risk_score": 6}
定價模型的結構化 JSON：輸入特徵 + 帶組成部分細分的目標保費
RAG 的分塊文字：核保指南、風險偏好聲明和定價手冊，用於檢索增強的核保助手
傳統精算模型的 CSV：帶有結果變數的特徵矩陣

本地部署的必要性

核保資料是保險公司擁有的競爭敏感性最強的信息之一：

定價算法代表多年的精算研究和競爭定位
風險篩選標準定義了公司的風險偏好——核心戰略知識產權
損失經驗揭示了公司的業務組合表現
風險評估中編碼的核保員判斷代表機構知識

將這些資料發送到基於雲端的準備工具會暴露競爭情報。本地處理將一切保持在公司基礎設施之內。

開始行動

選擇一個業務線：商業財產或個人汽車是常見的起點——高流量、流程有據可查
從結構化資料開始：先處理申請書和損失記錄，再處理敘述性風險評估
聘用資深核保員：他們定義「良好核保」的樣子——這就是模型需要學習的
從第一天起建立偏差測試：不是事後想到的——監管機構會詢問

Ertas Data Suite 等平台在本地處理完整管道：各種文件格式的攝入、個人身份資訊脫敏、領域專家標注、偏差記錄，以及匯出到模型就緒格式。對於核保 AI，資料敏感性和監管審查都達到最高水準，本地部署是唯一有意義的方式。