Ertas 助力发票与收据处理

    微调模型,从组织收到的任何格式的发票和收据中提取项目明细、金额、日期、税务详情和供应商信息。

    The Challenge

    应付账款团队处理来自数百个供应商的发票,每个供应商有不同的布局、术语和详细程度。提取结构化数据——供应商名称、发票号码、项目明细、数量、单价、税额、付款条款和银行详情——从这些多样的格式中是繁琐的手动工作,容易出错。金额字段中的一次转录错误可能导致付款差异、供应商纠纷和会计对账问题。

    基于模板的提取工具对格式一致的大批量供应商有效,但对发票布局独特的长尾供应商则无效。基于机器学习的提取工具改善了覆盖范围,但仍然在手写发票、有 OCR 伪影的扫描文档、具有复杂项目表格的多页发票和多语言发票上表现不佳。提取工具的交付与应付团队的需求之间的准确度差距意味着每张发票仍需人工验证——这使自动化的目的落空。

    The Solution

    Ertas 使应付账款团队能够在其特定的发票语料库上微调提取模型,训练模型处理他们遇到的精确供应商格式、布局变化和字段命名规范。通过 Ertas Studio,团队上传标注的发票 JSONL——每条记录包含发票的 OCR 文本和对应的结构化数据字段——并训练一个将非结构化发票文本映射到与其 ERP 系统字段架构匹配的干净结构化输出的模型。

    微调后的模型处理通用工具遗漏的供应商特定细节:将「净额」而非「小计」列出的供应商,在项目价格中内含税而非单独列出的供应商,使用逗号作为小数分隔符的欧洲供应商。由于模型从组织的实际发票中学习,它反映了真实的格式分布和边缘案例——而非合成训练集。通过 Ertas Cloud 或本地通过 Ollama 部署,模型在发票到达时进行处理,输出可直接导入 ERP 的结构化数据。低于置信度阈值的发票被路由到人工审查,创建持续模型改进的反馈循环。

    Key Features

    Studio

    自定义字段提取训练

    使用 Studio 在您 ERP 系统的特定字段架构上训练提取模型。将任何发票格式映射到您的精确数据结构,包括自定义字段、计算总额和多币种支持。

    Hub

    文档理解模型

    从 Hub 上理解文档布局、表格结构和常见财务术语的模型开始——让微调专注于您的供应商特定提取准确性。

    Cloud

    发票处理 API

    通过 Cloud 部署为提取 API,接受发票文本(OCR 后)并返回与您 ERP 导入架构匹配的结构化 JSON,附带每个字段的置信度分数。

    Vault

    财务数据保护

    Vault 确保所有发票数据——包括供应商银行详情、付款金额和账号——在静态和传输中经过加密,具有可配置的保留策略。

    Example Workflow

    一家建筑公司的应付账款部门每月处理来自 400 多个供应商——材料供应商、分包商、设备租赁公司和专业服务公司——的 3,000 张发票。团队标注 8,000 张发票的结构化字段映射并上传到 Ertas Vault。在 Ertas Studio 中,他们针对其 ERP 的 22 字段发票架构(包括建筑计费特有的项目代码、成本类别和保留金额)微调模型。模型作为 API 端点与其发票接收工作流集成部署。传入的发票经过 OCR 处理后发送到模型,返回与 ERP 导入格式匹配的结构化数据。模型以高置信度处理 78% 的发票且无需人工干预,路由 18% 进行快速验证(通常只有一两个模糊字段),标记 4% 进行完整的手动审查。月度处理时间从 120 人时降至 35 人时,数据输入错误减少 90%。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.