工程量清单数据提取：建筑AI项目指南

工程量清单是建筑中信息最密集的文档之一。每个行项编码了一个规格说明、一个数量、一个计量单位，以及在完成的项目中的单价。综合来看，一家公司的历史BOQ档案代表了多年积累的成本知识，校准到特定的项目类型、位置和市场条件。

对于建筑AI来说，该档案是等待解锁的训练数据。主要障碍是BOQ文档是为人类读者和工程量计算软件设计的，而不是为机器学习管道设计的。

BOQ包含什么以及为什么对AI重要

工程量清单是在建筑项目的投标前或投标后阶段产生的结构化成本和数量文档。

每个行项编码：

项目编码：层次引用编号（如03.04.12）
描述：工作的技术规格说明
数量：测量量（如127.5）
单位：计量单位（如m3、m2、Nr）
单价：已完成项目中的单位价格
金额：数量 × 单价

来自已完成项目的100,000个此类行项的语料库是建筑知识的密集结构化表示——对于训练建筑估算模型来说远比通用网络文本有用。

为什么提取比看起来更难

BOQ文档由工程量计算软件（CostX、CANDY、Buildsoft等）生成并导出为PDF分发。问题是PDF是一种展示格式，不是数据格式。

列对齐问题。 看起来整洁的表格在底层PDF中可能将每个单元格的文本存储为单独定位的文本元素，没有与邻居的结构关系。

多行描述。 长描述在同一单元格内跨越多行。每行是一个单独的文本片段。

跨页延续。 BOQ文档通常有数百页。节可能从第47页开始延续到第83页。

光栅化PDF。 一些BOQ是扫描的纸质文档，在任何表格提取之前需要OCR。

提取方法

BOQ提取管道有四个子阶段：结构检测、行项解析、标准化和交叉引用提取。

用于AI训练的输出格式

JSONL用于微调估算模型：

&#123;"item_code": "03.04.12", "description": "钢筋混凝土，等级C35/45，地面层板上方的柱子中", "quantity": 127.5, "unit": "m3", "rate": 285.00, "project_type": "办公", "region": "东南部", "date": "2024-Q2"&#125;

CSV用于成本分析。 表格格式的相同记录。

分块文本用于RAG。 BOQ行项可以作为文本块嵌入到检索系统中。

建筑AI的预期数据集大小

最小可行数据集：来自至少10个完成项目的10,000个行项
有用数据集：来自30多个跨多种项目类型的50,000个行项
强数据集：来自80多个具有完整单价数据和项目元数据的150,000多个行项

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

工程量清单数据提取：建筑AI项目指南

BOQ包含什么以及为什么对AI重要

为什么提取比看起来更难

提取方法

用于AI训练的输出格式

建筑AI的预期数据集大小

相关阅读

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

如何将工程量清单转换为AI训练数据

合同条款提取：法律AI数据准备指南

如何确定AI数据准备项目范围（RFP模板）