
Cómo Convertir Presupuestos de Cantidades en Datos de Entrenamiento de IA
Una guía técnica para convertir presupuestos de cantidades (BOQs) de formatos variados en datos de entrenamiento de IA estructurados — cubriendo extracción de tablas, normalización, etiquetado y exportación.
Los presupuestos de cantidades (BOQs) son la columna vertebral de la estimación de costos en construcción. Listan cada material, partida de mano de obra y actividad en un proyecto, con cantidades, tarifas unitarias y montos. Para aplicaciones de IA en construcción — pronóstico de costos, estimación automatizada, verificación de mediciones — los BOQs son la fuente principal de datos de entrenamiento.
El problema: los BOQs vienen en formatos tremendamente inconsistentes, y convertirlos en datos de entrenamiento estructurados requiere manejar variación de formatos, jerarquías anidadas y terminología específica del dominio. Esta guía cubre el pipeline práctico.
El Problema de Formato de los BOQ
Una sola empresa de construcción podría tener BOQs en todos estos formatos:
- Hojas de cálculo de Excel con disposiciones de columnas variables, celdas combinadas y secciones codificadas por color
- Exportaciones PDF de software de estimación (CostX, Bluebeam, PlanSwift)
- Documentos de papel escaneados de proyectos más antiguos
- Exportaciones CSV de sistemas ERP
- Documentos de Word con tablas creadas manualmente
Incluso dentro del mismo formato, la estructura varía:
BOQ del Contratista A: | Item No | Description | Unit | Qty | Rate | Amount |
BOQ del Contratista B: | Ref | Work Item | UOM | Quantity | Unit Price | Total Price | Remarks |
BOQ del Contratista C: | S/N | Trade | Description of Works | Unit | Estimated Qty | Rate (USD) | Amount (USD) |
La misma información, diferentes nombres de columnas, diferente orden, diferente granularidad. Multiplica esto por cientos de proyectos y la escala del desafío de normalización se vuelve clara.
Etapa 1 del Pipeline: Ingesta y Extracción de Tablas
Para archivos Excel/CSV
- Analizar hojas de trabajo, identificando filas de encabezado (que no siempre son la fila 1)
- Manejar celdas combinadas (los encabezados de sección a menudo abarcan múltiples columnas)
- Detectar y preservar la jerarquía (secciones, subsecciones, partidas, sub-partidas)
- Manejar múltiples hojas de BOQ en un solo libro de trabajo
Para archivos PDF
- Detección de tablas usando análisis de disposición (identificando estructuras de cuadrícula, columnas alineadas)
- Extracción de celdas con manejo de contenido multilínea
- Identificación de encabezados (distinguiendo encabezados de columna de filas de datos)
- Detección de continuación de página (tablas que abarcan múltiples páginas)
Para documentos escaneados
- OCR con procesamiento consciente de tablas
- Detección de líneas para identificación de cuadrícula de tablas
- Puntuación de confianza de caracteres (marcando extracciones de baja confianza para revisión)
- Manejo de anotaciones manuscritas junto con texto impreso
Etapa 2 del Pipeline: Normalización
Una vez extraídas las tablas, los datos sin procesar necesitan normalización:
Mapeo de Columnas
Mapear nombres de columnas variados a un esquema estándar:
- "Description" / "Work Item" / "Description of Works" →
description - "Unit" / "UOM" / "U/M" →
unit - "Qty" / "Quantity" / "Estimated Qty" →
quantity - "Rate" / "Unit Price" / "Unit Rate" →
unit_rate - "Amount" / "Total Price" / "Total" →
amount
Estandarización de Unidades
La construcción usa numerosas abreviaciones de unidades de manera inconsistente:
- "m3" / "cu.m" / "CUM" / "cubic meter" →
m3 - "sqm" / "sq.m" / "SQM" / "m2" →
m2 - "nr" / "no" / "nos" / "each" / "ea" →
nr - "rm" / "r.m" / "running meter" / "lm" →
rm
Reconstrucción de Jerarquía
Las partidas de BOQ son jerárquicas, pero la jerarquía a menudo es implícita:
- Los números de sección (1.0, 1.1, 1.1.1) codifican relaciones padre-hijo
- Los niveles de indentación indican jerarquía en algunos formatos
- El formato de negrita/tamaño de fuente distingue secciones de partidas
- Las filas de "Total" y "Sub-total" indican límites de jerarquía
Reconstruir esta jerarquía es esencial — proporciona contexto para cada partida. "Concreto" bajo "Cimentaciones" es diferente de "Concreto" bajo "Superestructura."
Manejo Numérico
- Eliminar separadores de miles (que varían por localización: comas, puntos, espacios)
- Analizar símbolos de moneda y estandarizar
- Manejar campos calculados (Monto = Cantidad x Tarifa) y marcar inconsistencias
- Convertir entre sistemas de medida cuando sea necesario
Etapa 3 del Pipeline: Etiquetado
Con los datos normalizados, los expertos del dominio etiquetan los registros:
Clasificación por Oficio
Cada partida de BOQ se mapea a un oficio de construcción:
- Civil/estructural, mecánico, eléctrico, plomería, HVAC, acabados, paisajismo, etc.
- Esta clasificación permite modelos de costos específicos por oficio
Material vs. Mano de Obra vs. Equipo
Las partidas de BOQ a menudo agrupan estos, pero los modelos de IA se benefician de la distinción:
- "Suministro e instalación de acero estructural" → material + mano de obra
- "Alquiler de grúa para montaje de acero" → equipo
- "Acero de refuerzo Grado 60" → material
Codificación Estandarizada de Partidas
Mapeo a sistemas de clasificación estándar donde sea aplicable:
- UniFormat (para elementos de edificación)
- MasterFormat (para resultados de trabajo)
- Sistemas de codificación específicos de la empresa
Indicadores de Calidad
- Completitud (¿la partida tiene todos los campos requeridos?)
- Consistencia (¿Monto = Cantidad x Tarifa?)
- Razonabilidad (¿la tarifa está dentro de los rangos esperados para este tipo de partida?)
Etapa 4 del Pipeline: Exportación
Los datos de BOQ etiquetados y normalizados se exportan a diferentes formatos dependiendo del caso de uso de IA posterior:
Para modelos de estimación de costos (JSONL):
{"description": "Supply and fix reinforcement steel...", "trade": "structural", "unit": "kg", "rate_usd_per_unit": 1.85, "context": "foundations/piling"}
Para clasificación de documentos (JSONL):
{"text": "1.1.3 Excavation in rock...", "label": "civil_earthworks"}
Para bases de conocimiento RAG (texto fragmentado): Fragmentos estructurados con metadatos de oficio/sección para generación aumentada por recuperación.
El Requisito del Experto de Dominio
Este pipeline no puede ser ejecutado solo por ingenieros de ML. Las reglas de normalización, clasificaciones por oficio y juicios de calidad requieren conocimiento de dominio de construcción:
- ¿"concrete class C30" es lo mismo que "30 MPa concrete"? (Sí, pero solo un ingeniero estructural lo sabría.)
- ¿Debería incluirse "provisional sum for unforeseen ground conditions" en los datos de entrenamiento? (Depende del propósito del modelo.)
- ¿Es razonable una tarifa de $500/m3 para concreto? (Depende de la región, tipo de proyecto y año.)
Por eso la herramienta de preparación de datos necesita ser accesible para ingenieros de cantidades y gerentes de proyectos — no estar encerrada detrás de scripts de Python e interfaces de línea de comandos. Plataformas como Ertas Data Suite ponen a los expertos de dominio directamente en el flujo de etiquetado, que es donde su conocimiento tiene el mayor impacto en la calidad de los datos de entrenamiento.
Para Comenzar
Si tienes una colección de BOQs y quieres construir datos de entrenamiento de IA:
- Comienza con archivos nativamente digitales (Excel/CSV) — son más fáciles de procesar que PDFs escaneados
- Define tu esquema objetivo antes de comenzar a procesar
- Involucra a un ingeniero de cantidades en el diseño del esquema de etiquetado
- Comienza con un solo tipo de proyecto para establecer el pipeline, luego escala
- Espera iteración — el primer paso revelará variaciones de formato que no anticipaste
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Training AI on Financial Statements: Data Extraction and Labeling On-Premise
How to extract and label financial statement data for AI training — parsing XBRL, extracting tables from PDFs, handling format variation, and building classification models for financial analysis.

Bill of Quantities Data Extraction: A Guide for Construction AI Projects
Bill of quantities documents are dense, mixed-format files that hold critical domain knowledge for construction AI. Here's how to extract and structure BOQ data for model training — on-premise.

Claims Processing AI: Preparing Unstructured Documents for Model Training
A practical guide to preparing insurance claims data for AI model training — from extracting structured data from claim forms to building datasets for fraud detection and auto-adjudication.