如何为保险欺诈检测 AI 模型准备训练数据

根据 Coalition Against Insurance Fraud 的数据，保险欺诈每年给美国行业造成超过 800 亿美元的损失。基于 AI 的欺诈检测可以将误报率降低 50-70%，相较于基于规则的系统，但前提是训练数据经过了正确的准备。模型从来不是瓶颈。数据流水线才是。

大多数欺诈检测项目停滞不前，不是因为算法失败，而是因为输入的数据不一致、不完整或不合规。理赔文本以数十种格式到达。理算师笔记包含混杂着 PII 的非结构化自由文本。保单文档涵盖 PDF、扫描图像和遗留系统导出。将所有这些转化为干净的、已标注的、模型就绪的数据集，占据了项目 60-80% 的时间。

本指南涵盖了保险欺诈检测训练数据准备的端到端流水线，并为每个数据源和阶段提供了具体的质量要求。

欺诈检测模型的数据源

保险欺诈检测模型通常消费三种主要数据源，每种都有不同的准备挑战：

数据源	格式	关键挑战	欺诈信号
理赔文本	结构化字段 + 自由文本描述	编码不一致、缩写、缺失字段	理赔金额异常、频率模式、时间间隔
理算师笔记	非结构化自由文本，通常手写或口述	OCR 错误、非正式语言、嵌入的 PII	行为红旗、不一致性提及、可疑指标
保单文档	PDF、扫描图像、遗留系统导出	多页布局、表格、嵌入图像、不同的模式	被利用的承保缺口、近期保单变更、理赔前的附加险添加

除了这些主要数据源之外，气象记录、公开法院文件和医疗服务提供者网络数据库等补充数据增加了提高模型准确性的上下文。但核心流水线必须在添加补充层之前可靠地处理三种主要数据源。

欺诈检测训练数据的流水线阶段

流水线中的每个阶段都解决直接影响模型性能的特定数据质量问题。跳过或在任何阶段投入不足都会在下游积累错误。

阶段 1：摄入和解析

第一个挑战是从异构文档类型中提取可用的文本和结构化字段。理赔数据可能以保单管理系统的 CSV 导出形式到达，而理算师笔记可能是带有嵌入图像的 PDF 或带有修订跟踪的 Word 文档。

文档类型	解析方法	常见错误
理赔 CSV/Excel	带模式验证的表格解析	日期格式不一致、货币符号变化、null 与 zero 编码差异
理算师笔记 (PDF)	带布局分析的 PDF 文本提取	多栏布局解析错误、页眉/页脚污染、扫描文档中的 OCR 伪影
理算师笔记 (Word)	保留章节结构的 DOCX 解析	修订跟踪包含过时信息、嵌入的批注被当作正文处理
保单文档 (PDF)	带表格检测的结构化 PDF 解析	附加险修正作为独立页面追加、非标准表格格式的批单计划
扫描文档	带置信度评分的 OCR	低于 OCR 置信度阈值的手写笔记、印章和水印产生的噪声

Ertas Data Suite 通过专用的 PDF、Word、Excel/CSV 和图像格式解析节点处理此摄入阶段。每个解析节点输出保留了元数据的结构化数据，可视化流水线清楚地显示哪些文档解析失败以及原因。

阶段 2：PII 脱敏和合规

保险数据包含密集的个人身份信息：投保人姓名、地址、社会安全号码、医疗记录（用于健康和残疾理赔）以及财务账户信息。根据管辖区域，GLBA、州保险法规以及可能的 HIPAA（用于与健康相关的理赔）都适用。

PII 脱敏必须在任何标注或模型训练开始之前进行。欺诈检测的脱敏策略需要仔细平衡——你需要保留足够的上下文信息让模型检测模式，同时删除识别信息。

需要脱敏的内容： 姓名、SSN、账号、地址、电话号码、电子邮件地址、出生日期。

需要保留的内容（通过假名化）： 地理区域（州/都市区级别）、年龄范围、理赔时间关系、医疗服务提供者专业、保单持有期限。

这种区分很重要，因为欺诈模式通常与地理位置（有组织的欺诈团伙在区域内运作）和时间（保单生效后几天内提交的理赔）相关。完全删除这些信号会降低模型性能。对它们进行假名化——用分类范围替换精确值——在保护隐私的同时保留了信号。

阶段 3：去重和规范化

保险数据集通常因系统迁移、多系统理赔处理和重新开启的理赔而包含重复记录。去重不仅仅是精确匹配。近似重复检测至关重要，因为同一理赔可能在不同系统中以略有不同的描述出现。

规范化处理词汇问题。"MVA"、"机动车事故"和"车祸"应该映射到相同的概念用于训练。类似地，ICD 代码、手术代码和承保类型描述需要标准化。

规范化任务	示例	对模型的影响
日期标准化	"3/15/26"、"March 15, 2026"、"15-Mar-26" 统一为 ISO 8601	实现准确的时间特征提取
货币规范化	"$1,500.00"、"1500"、"USD 1500" 统一为十进制浮点数	防止基于金额的特征碎片化
代码标准化	ICD-10 代码验证、CPT 代码规范化	减少词汇量，改善模式检测
自由文本规范化	缩写扩展、错别字修正	改善文本嵌入质量以用于 NLP 欺诈信号

阶段 4：标注和注释

欺诈检测从根本上是一个分类任务，但标注策略决定了模型是学习有用的模式还是仅仅记忆表面的相关性。

保险欺诈的标签分类体系：

标签	定义	真值来源
已确认欺诈	通过调查裁定为欺诈的理赔	SIU 调查结果
疑似欺诈	被标记但调查尚无定论的理赔	SIU 转介记录
合法	未发现欺诈迹象即支付的理赔	理赔支付记录
有组织方案	与多方欺诈团伙关联的理赔	执法机构或 SIU 交叉引用

类别不平衡问题在欺诈检测中非常严重。合法理赔通常以 100:1 或更高的比例超过欺诈理赔。训练数据准备必须通过分层抽样、欺诈案例的合成过采样或仔细的加权来解决这个问题——但策略取决于模型架构，应在标注阶段之前确定。

超越二元分类，最有效的欺诈模型使用多信号注释。每个理赔不仅应标注欺诈/合法标签，还应标注具体的欺诈指标：

时间异常（在保单宽限期内提交理赔）
行为标记（在不同保险公司提交多次理赔）
文档不一致（维修估价超过车辆价值）
网络信号（理赔之间共享的医疗服务提供者、律师或地址）

阶段 5：质量评分和验证

在训练数据到达模型之前，每条记录都应通过质量验证。质量要求因数据类型而异：

质量维度	欺诈检测要求	验证方法
完整性	所有必填字段存在；无关键空值	带强制字段检查的模式验证
一致性	跨字段逻辑成立（理赔日期晚于保单生效日）	基于规则的一致性检查
标签准确性	欺诈标签的标注者间一致率至少 95%	双标注者审核加裁决
时间完整性	事件序列按时间顺序有效	时间戳排序验证
脱敏完整性	训练就绪的输出中零 PII 残留	自动化 PII 扫描 + 人工抽查

阶段 6：导出和划分

最终阶段产出带有适当训练/验证/测试划分的模型就绪数据集。对于欺诈检测，分层划分至关重要，以确保每个划分保持相同的欺诈与合法比率。基于时间的划分（用较旧的理赔训练，用较新的测试）也被推荐以防止时间数据泄露。

导出格式取决于建模方法：

表格模型 (XGBoost, LightGBM)： 带有工程特征的 CSV 或 Parquet
NLP 模型 (BERT, 微调的 LLM)： 指令/输入/输出格式的 JSONL
多模态模型： 将表格特征与文档嵌入关联的结构化记录

为什么本地化部署对保险行业至关重要

保险数据是金融服务行业中监管最严格的数据之一。州保险专员、GLBA 以及（对于健康险）HIPAA 都对数据处理施加了限制。基于云的数据准备工具需要广泛的安全审查、BAA，并且通常无法满足一些保险公司要求的气隙处理要求。

本地化流水线平台完全消除了这些障碍。数据永远不会离开保险公司的网络。每次转换都有时间戳和操作员 ID 的记录。审计追踪可导出以供监管审查。

Ertas Data Suite 作为原生桌面应用程序运行——没有 Docker 容器、没有云依赖、没有网络暴露。对于构建欺诈检测 AI 的保险公司来说，这意味着数据准备流水线通过架构满足合规要求，而不是通过政策例外。

实践中构建流水线

Ertas 中保险欺诈检测数据流水线的实际工作流遵循基于画布的可视化方法：

摄入 — File Import 节点将理赔 CSV、理算师笔记 PDF 和保单文档导入流水线
解析 — 专用解析节点（PDF Parser、Excel/CSV Parser、Word Parser）提取带有元数据的结构化内容
脱敏 — PII Redactor 节点在保留假名化上下文信号的同时删除标识符
清理 — Deduplicator 和 Format Normalizer 节点处理重复和词汇标准化
评分 — Quality Scorer 和 Anomaly Detector 节点标记未通过验证规则的记录
划分 — Train/Val/Test Splitter 节点创建保持类别平衡的分层划分
导出 — JSONL Exporter 或 CSV Exporter 节点生成模型就绪的输出

流水线中的每个节点都记录其输入、输出以及它修改或拒绝的任何记录。当审计师问"这个训练数据集是如何产生的"时，答案是一个带有完整处理日志的可视化流水线——而不是一堆未文档化的脚本。

关键要点

保险欺诈检测 AI 的效果取决于训练它的数据。从原始理赔数据到模型就绪训练集的流水线需要仔细关注 PII 脱敏、类别平衡、多信号注释和时间完整性。在本地构建此流水线满足了使保险数据准备成为独特挑战的监管要求。

投资于健壮、可观测、合规的数据流水线的团队交付的欺诈检测模型在生产中真正有效。在数据准备上走捷径的团队则花费数月调试可追溯到脏训练数据的模型性能问题。