保险核保AI：从保单PDF到结构化训练数据

核保是保险公司做出最关键决策的环节：承保什么、以什么价格、在什么条款下。AI正越来越多地辅助这些决策——风险分类、定价优化、投保分类——但所需的训练数据埋藏在数十年来从未为机器消费而设计的核保文件中。

将核保文件转化为结构化AI训练数据需要理解独特的文件类型、其中嵌入的领域特定知识，以及围绕算法核保的监管约束。

核保文件类型

保单申请

每项核保决策的起点。申请包含：

结构化字段：申请人信息、请求的保障范围、限额、免赔额
叙述部分：业务描述、损失历史说明、风险管理实践
附带明细表：车辆清单、财产明细、员工人数、收入明细

不同业务线的申请差异很大。个人汽车保险申请与商业财产保险申请完全不同，而后者又与董事及高管责任保险申请截然不同。

风险评估报告

核保人员编写的叙述性评估，捕捉其分析内容：

识别的风险因素（正面和负面）
与类别平均值的比较
定价理由和偏差说明
条款和条件修改
超出权限的风险转介说明

这些报告是核保智慧最丰富的来源——它们捕捉的是推理过程，而不仅仅是决策结果。

损失记录

特定被保险人的历史理赔数据：

理赔日期、类型、已付金额和准备金
打开vs关闭状态
发展模式（理赔随时间如何演变）
按保障线的损失率

损失记录来自多个来源（当前承保人、前承保人），格式不一致。

检查报告

对核保风险的第三方评估：

财产状况、建筑类型、防护等级
安全实践和危险识别
建筑规范和消防标准合规性
照片和图表

财务报表

对于商业险种，被保险人的财务健康状况为核保提供信息：

资产负债表、利润表、现金流量表
收入趋势、负债率、流动性指标
与行业基准的比较

构建训练数据管道

阶段1：文件摄入

申请：解析PDF表单并提取字段。处理不同申请版本和业务线之间的差异。带有附表的多页申请需要页面级分类。

风险评估：提取叙述文本并进行章节检测。识别关键部分（风险摘要、定价理由、条款），即使不同核保人的格式各异。

损失记录：表格提取与列映射。不同承保人的损失记录使用不同的列布局、日期格式和状态代码。

财务报表：结构化表格提取与科目识别。将不同的展示形式映射到标准财务结构。

阶段2：标准化和数据增强

将不一致的字段名称映射到跨所有文件来源的标准模式
标准化代码（SIC转NAICS、州代码、保障代码）
计算衍生特征（损失率、频率/严重性分析、增长率）
跨文件交叉引用数据（损失记录是否与申请中披露的损失历史一致？）
标记不一致之处以供审查

阶段3：AI模型标注

风险分类标签：

优选/标准/次标准/拒保
风险评分（1-10或类似评分制）
驱动分类的关键风险因素

定价标签：

目标保费、实际保费、偏差百分比
费率充足性评估
定价组成（基准费率、经验修正、计划信用/扣款）

决策标签：

报价/拒保/转介
提供的条款vs标准条款
添加的批单及理由

谁来标注：资深核保人员和定价精算师。风险分类高度依赖判断——初级分析师可能会遗漏资深核保人瞬间就能捕捉到的风险因素。

阶段4：偏见测试

核保AI面临严格的歧视监管审查：

受保护特征：模型不得将种族、民族、性别、宗教或其他受保护类别作为定价或选择因素
代理变量：地理、信用和职业变量可能成为受保护特征的代理
差异影响分析：即使表面中立的模型也必须测试其对受保护群体的不成比例影响
州监管要求：许多州要求算法核保模型需要报备和批准

偏见测试必须记录在案，结果需包含在训练数据包中。

阶段5：导出

用于风险分类模型的JSONL：{"application_features": {...}, "loss_history": [...], "risk_class": "standard", "risk_score": 6}
用于定价模型的结构化JSON：输入特征 + 目标保费及组成明细
用于RAG的分块文本：核保指南、风险偏好声明和定价手册，用于检索增强的核保助手
用于传统精算模型的CSV：特征矩阵与结果变量

本地部署的必要性

核保数据是保险公司拥有的最具竞争敏感性的信息之一：

定价算法 代表了多年的精算研究和竞争定位
风险选择标准 定义了公司的风险偏好——核心战略知识产权
损失经验 揭示了公司的保单组合表现
核保判断 编码在风险评估中的机构知识

将这些数据发送到基于云的准备工具会暴露竞争情报。本地处理使一切都保留在公司基础设施内。

入门指南

选择一个业务线：商业财产或个人汽车是常见的起点——高量、流程文档化完善
从结构化数据开始：先处理申请和损失记录，再处理叙述性风险评估
让资深核保人员参与：他们定义什么是"好的核保"——这正是模型需要学习的
从第一天就内置偏见测试：不要事后补救——监管机构会过问

像Ertas Data Suite这样的平台在本地处理完整的管道：摄入各种文件格式、PII脱敏、领域专家标注、偏见文档记录，以及导出为模型可用格式。对于核保AI这种数据敏感性和监管审查最为严格的场景，本地部署是唯一合理的方案。