
bill-of-quantitiesconstructiondata-extractiontraining-dataengineeringdocument-processingfine-tuning
從工程量清單中提取 AI 訓練數據:完整指南
如何將工程量清單(BOQ)文件轉換為結構化 AI 訓練數據——包含四個提取子階段、品質檢查和輸出格式,適用於建築與工程 AI 應用程序。
EErtas Team·
工程量清單(BOQ)是建築和工程行業中最重要——也是格式最混亂的——文件類型之一。每個承包商、顧問公司和業主都有自己的格式、命名慣例和層次結構。這種格式多樣性正是使 AI 訓練數據從 BOQ 中提取如此有價值的原因——以及如此困難的原因。
本指南詳細介紹了將 BOQ 文件轉換為結構化 AI 訓練數據所需的四個提取子階段、每個階段的品質檢查,以及最終輸出格式,適用於三個主要的下游 AI 用例。
BOQ 文件的結構
在討論提取之前,了解你要處理的內容至關重要。
工程量清單通常包含:
層次結構
- 部分(Division / Section):主要工作類別(土木工程、結構工程、機電工程等)
- 子部分:特定工作類型
- 項目代碼:層次識別符(如 02.03.01.A)
- 行項目:最小的可報價工作單元
每個行項目的欄位
- 項目代碼(Item Code)
- 描述(Description):通常是多行文字
- 數量(Quantity):數值
- 單位(Unit):m、m²、m³、kg、噸、個等
- 單價(Rate):每單位費用(有時留空供投標)
- 總價(Amount):數量 × 單價
常見複雜性
- 跨頁的描述
- 嵌套的條件項目(「如果 X,則加上 Y」)
- 不一致的單位格式(m² vs sqm vs sq.m.)
- 注釋和假設(通常在頁面底部或側邊)
- 引用規範的交叉引用
四個提取子階段
階段 1:結構偵測
目標是在做任何實質性提取之前,先理解文件的組織方式。
此階段做什麼:
- 識別頁面佈局類型(表格式、段落式、混合式)
- 偵測列結構和標題行
- 識別分層邊界(新部分從哪裡開始)
- 確定項目代碼格式(格式常因文件而異)
品質檢查: