SLM 微调用于文档处理：将企业 PDF 转化为结构化数据

每个企业都有 PDF 问题。建筑公司积累了数十年的工程量清单和检查报告。律所维护着数十万份合同档案。医疗机构累积了临床笔记和实验室结果。银行处理数以百万计的财务报表。

这些文档中的信息很有价值。它们存储的格式则不然。PDF 设计用于人类阅读，而非机器处理。

通用大语言模型可以从 PDF 中提取数据，但准确率只有 65-75%，且规模成本高昂。

微调的小语言模型解决了这两个问题。准确率足以用于生产，成本低廉足以处理数十万份文档。

微调带来的变化

文档类型	通用 7B 模型	微调 7B 模型	标注示例
建筑 BOQ 行项	~70% 字段准确率	95%+ 字段准确率	500
法律合同条款	~65% 条款识别	93%+ 条款识别	800
临床笔记 → ICD-10 编码	~60% 编码准确率	92%+ 编码准确率	1,000
财务报表 → 字段	~72% 字段准确率	96%+ 字段准确率	600

100,000 份文档人工处理：50,000 人时，$1.25M。微调方案：500 个标注示例（250 小时专家时间 ~$6,250）+ 计算 ~$5,000。总计不到 $7,000。178 倍成本降低。

在每个文档处理项目中，标注阶段消耗 60-70% 的总项目时间。它需要昂贵且繁忙的领域专家。这个将原始企业文档转化为干净、标注的训练数据的管道决定了项目的成败。