Back to blog
    工程量清单数据提取:建筑AI项目指南
    建筑BOQ数据提取企业AIsegment:enterprise

    工程量清单数据提取:建筑AI项目指南

    工程量清单文档是密集的混合格式文件,包含建筑AI的关键领域知识。以下是如何在本地提取和结构化BOQ数据用于模型训练。

    EErtas Team·

    工程量清单是建筑中信息最密集的文档之一。每个行项编码了一个规格说明、一个数量、一个计量单位,以及在完成的项目中的单价。综合来看,一家公司的历史BOQ档案代表了多年积累的成本知识,校准到特定的项目类型、位置和市场条件。

    对于建筑AI来说,该档案是等待解锁的训练数据。主要障碍是BOQ文档是为人类读者和工程量计算软件设计的,而不是为机器学习管道设计的。

    BOQ包含什么以及为什么对AI重要

    工程量清单是在建筑项目的投标前或投标后阶段产生的结构化成本和数量文档。

    每个行项编码:

    • 项目编码:层次引用编号(如03.04.12)
    • 描述:工作的技术规格说明
    • 数量:测量量(如127.5)
    • 单位:计量单位(如m3、m2、Nr)
    • 单价:已完成项目中的单位价格
    • 金额:数量 × 单价

    来自已完成项目的100,000个此类行项的语料库是建筑知识的密集结构化表示——对于训练建筑估算模型来说远比通用网络文本有用。

    为什么提取比看起来更难

    BOQ文档由工程量计算软件(CostX、CANDY、Buildsoft等)生成并导出为PDF分发。问题是PDF是一种展示格式,不是数据格式。

    列对齐问题。 看起来整洁的表格在底层PDF中可能将每个单元格的文本存储为单独定位的文本元素,没有与邻居的结构关系。

    多行描述。 长描述在同一单元格内跨越多行。每行是一个单独的文本片段。

    跨页延续。 BOQ文档通常有数百页。节可能从第47页开始延续到第83页。

    光栅化PDF。 一些BOQ是扫描的纸质文档,在任何表格提取之前需要OCR。

    提取方法

    BOQ提取管道有四个子阶段:结构检测、行项解析、标准化和交叉引用提取。

    用于AI训练的输出格式

    JSONL用于微调估算模型:

    {"item_code": "03.04.12", "description": "钢筋混凝土,等级C35/45,地面层板上方的柱子中", "quantity": 127.5, "unit": "m3", "rate": 285.00, "project_type": "办公", "region": "东南部", "date": "2024-Q2"}

    CSV用于成本分析。 表格格式的相同记录。

    分块文本用于RAG。 BOQ行项可以作为文本块嵌入到检索系统中。

    建筑AI的预期数据集大小

    • 最小可行数据集:来自至少10个完成项目的10,000个行项
    • 有用数据集:来自30多个跨多种项目类型的50,000个行项
    • 强数据集:来自80多个具有完整单价数据和项目元数据的150,000多个行项

    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相关阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading