Ertas 助力文档分类

微调 AI 模型，按类型、部门、紧急程度或自定义分类体系自动分类文档——达到通用模型无法企及的准确度。

The Challenge

组织每天处理数千份文档——合同、发票、信函、报告、申请和合规申报——将每份文档路由到正确的团队或工作流取决于准确的分类。手动分类速度慢、不一致且难以规模化。当一份被错误路由的文档可能延误法律申报或错失时间敏感的商业机会时，错误成本是巨大的。

通用 AI 模型在专业领域的文档分类上表现不佳，因为它们缺乏对组织特定文档分类体系的了解。通用模型可能能区分发票和合同，但它无法可靠地区分主服务协议和工作说明书，或区分监管申报和内部合规备忘录。这些细粒度的区分需要只能来自在组织实际文档语料库上训练的领域知识——这正是微调设计要解决的任务。

The Solution

Ertas 使组织能够使用自有档案中的真实示例在自己的文档分类体系上微调分类模型。通过 Ertas Studio，团队以 JSONL 格式上传标记的文档样本——每条记录将文档文本映射到其正确的类别——并训练一个轻量级 LoRA 适配器，教模型识别其分类体系中区分每种文档类型的特定模式、词汇和结构线索。

微调后的模型可以通过 Ollama、vLLM 或 Ertas Cloud 作为分类端点部署，以亚秒级延迟实时处理传入文档。由于模型运行在您的基础设施上，敏感文档内容永远不会离开您的网络。Ertas Vault 确保所有训练数据和模型工件经过加密和访问控制，满足受监管行业的数据治理要求。随着文档分类体系的演变——添加新类别、拆分或合并现有类别——团队可以在 Ertas Studio 中用更新的示例重新训练模型并重新部署，无需任何应用变更。

Key Features

Studio

自定义分类体系训练

使用标记示例在组织的精确文档分类体系上训练分类模型。支持层级分类、多标签分类和按类别的置信度评分。

Hub

预训练文档模型

从 Hub 上已经理解文档结构——页眉、页脚、表格、签名——的基础模型开始，让您的微调专注于分类准确性而非基本文档理解。

Cloud

实时分类 API

通过 Cloud 将您的分类器部署为低延迟 REST 端点。在文档到达时以亚秒级分类进行处理，并自动路由到下游工作流。

Vault

安全文档处理

Vault 确保所有训练文档和推理数据在静态和传输中都经过加密。可配置的保留策略在分类后自动清除已处理的文档。

Example Workflow

一家大型保险公司每天通过电子邮件、传真和网络门户渠道收到 10,000 多份文档。文档包括新理赔、保单修改、医疗记录、理赔员报告和法律信函——每种都需要路由到不同的部门。团队从档案中导出 50,000 个标记的文档示例并上传到 Ertas Vault。在 Ertas Studio 中，他们使用 LoRA 适配器针对 28 类分类体系微调 7B 模型。训练后，模型在保留测试集上达到 96% 的分类准确率——相比之下通用模型为 71%。分类器作为 API 端点部署在文档接收系统后面，自动将每份传入文档以置信度分数路由到正确的部门队列。低于置信度阈值的文档被标记供人工审查，创建一个为未来模型改进生成额外训练数据的反馈循环。