Ertas 助力命名实体识别

训练 NER 模型，识别和提取特定于您行业和数据的自定义实体类型——人名、组织、产品、医学术语、法律引用。

The Challenge

命名实体识别是从非结构化文本中提取结构化信息的基础。通用 NER 模型可以识别人名、地点和组织等常见实体，但在领域特定实体类型上表现不佳。医学 NER 系统需要识别药品名称、剂量单位、解剖术语和 ICD 编码。法律系统需要识别案例引用、法规引用、当事人名称和司法管辖区。金融系统需要提取股票代码、带货币的金额、监管机构名称和特定金融工具。

构建自定义 NER 模型传统上需要深厚的 NLP 专业知识、复杂的标注工具和大量的工程投入来部署和维护。团队在开始训练之前就要花数月时间制定标注指南、衡量标注者间一致性和选择模型架构。结果往往是一个脆弱的流水线，在遇到未明确训练过的实体格式时就会崩溃——新的药物命名规范、不寻常的引用格式，或与预期模式不匹配的外国组织名称。

The Solution

Ertas 通过利用大语言模型的广泛语言理解能力并将微调聚焦于特定领域的实体提取模式来简化自定义 NER。团队不再从头训练传统 NER 模型，而是在 Ertas Studio 中对生成式模型进行微调，使用结构化输出格式的标注实体文本示例。模型学会通过理解实体周围的语义上下文来识别和提取实体，而不仅仅是对表面形式进行模式匹配。

这种方法比传统 NER 要稳健得多。由于基础模型已经在深层次上理解语言，微调后的模型能很好地泛化到它没有明确见过的实体格式——基于语法上下文识别新的药物名称，或因为实体出现在组织通常填充的角色中而识别不寻常的组织名称。Ertas Studio 接受带有输入文本和结构化实体输出的 JSONL 训练数据，使标注变得简单。训练后的模型可以通过 Ollama 本地部署用于批处理，或通过 Ertas Cloud 用于实时提取 API。

Key Features

Studio

自定义实体类型训练

定义任意实体类型并训练模型从文本中提取它们。Studio 支持嵌套实体、重叠跨度和关系提取，可在单次微调运行中完成。

Hub

预训练语言模型

从 Hub 上具有强大语言理解能力的模型开始，能泛化到未见过的实体格式，减少实现高准确率提取所需的标注量。

Cloud

提取 API 端点

通过 Cloud 将您的 NER 模型部署为 REST API，接受文本并返回带有置信度分数、跨度和实体类型的结构化实体标注。

Vault

敏感实体保护

Vault 确保包含敏感实体（患者姓名、金融账户、个人标识符）的训练数据在整个流水线中经过加密和访问控制。

Example Workflow

一家制药公司需要从临床试验报告中提取药物名称、剂量信息、不良事件和患者人口统计数据用于药物警戒监测。NLP 团队标注 15,000 个报告摘录，使用其自定义实体模式（12 种实体类型），并将 JSONL 数据集上传到 Ertas Vault。在 Ertas Studio 中，他们微调一个 7B 模型，以报告文本为输入，输出包含所有已识别实体、其类型和文本跨度的结构化 JSON。模型部署为每晚对新收到的试验报告运行的批处理端点。提取的实体加载到药物警戒数据库，安全分析师审查标记的不良事件。微调后的模型在实体提取上达到 94% 的 F1 分数，而通用 NER 模型为 62%——改进最大的是领域特定实体，如药物化合物名称和医疗器械标识符，这些是通用模型完全遗漏的。