Cómo Convertir Presupuestos de Cantidades en Datos de Entrenamiento de IA

Los presupuestos de cantidades (BOQs) son la columna vertebral de la estimación de costos en construcción. Listan cada material, partida de mano de obra y actividad en un proyecto, con cantidades, tarifas unitarias y montos. Para aplicaciones de IA en construcción — pronóstico de costos, estimación automatizada, verificación de mediciones — los BOQs son la fuente principal de datos de entrenamiento.

El problema: los BOQs vienen en formatos tremendamente inconsistentes, y convertirlos en datos de entrenamiento estructurados requiere manejar variación de formatos, jerarquías anidadas y terminología específica del dominio. Esta guía cubre el pipeline práctico.

El Problema de Formato de los BOQ

Una sola empresa de construcción podría tener BOQs en todos estos formatos:

Hojas de cálculo de Excel con disposiciones de columnas variables, celdas combinadas y secciones codificadas por color
Exportaciones PDF de software de estimación (CostX, Bluebeam, PlanSwift)
Documentos de papel escaneados de proyectos más antiguos
Exportaciones CSV de sistemas ERP
Documentos de Word con tablas creadas manualmente

Incluso dentro del mismo formato, la estructura varía:

La misma información, diferentes nombres de columnas, diferente orden, diferente granularidad. Multiplica esto por cientos de proyectos y la escala del desafío de normalización se vuelve clara.

Etapa 1 del Pipeline: Ingesta y Extracción de Tablas

Para archivos Excel/CSV

Analizar hojas de trabajo, identificando filas de encabezado (que no siempre son la fila 1)
Manejar celdas combinadas (los encabezados de sección a menudo abarcan múltiples columnas)
Detectar y preservar la jerarquía (secciones, subsecciones, partidas, sub-partidas)
Manejar múltiples hojas de BOQ en un solo libro de trabajo

Para archivos PDF

Detección de tablas usando análisis de disposición (identificando estructuras de cuadrícula, columnas alineadas)
Extracción de celdas con manejo de contenido multilínea
Identificación de encabezados (distinguiendo encabezados de columna de filas de datos)
Detección de continuación de página (tablas que abarcan múltiples páginas)

Para documentos escaneados

OCR con procesamiento consciente de tablas
Detección de líneas para identificación de cuadrícula de tablas
Puntuación de confianza de caracteres (marcando extracciones de baja confianza para revisión)
Manejo de anotaciones manuscritas junto con texto impreso

Etapa 2 del Pipeline: Normalización

Una vez extraídas las tablas, los datos sin procesar necesitan normalización:

Mapeo de Columnas

Mapear nombres de columnas variados a un esquema estándar:

"Description" / "Work Item" / "Description of Works" → description
"Unit" / "UOM" / "U/M" → unit
"Qty" / "Quantity" / "Estimated Qty" → quantity
"Rate" / "Unit Price" / "Unit Rate" → unit_rate
"Amount" / "Total Price" / "Total" → amount

Estandarización de Unidades

La construcción usa numerosas abreviaciones de unidades de manera inconsistente:

"m3" / "cu.m" / "CUM" / "cubic meter" → m3
"sqm" / "sq.m" / "SQM" / "m2" → m2
"nr" / "no" / "nos" / "each" / "ea" → nr
"rm" / "r.m" / "running meter" / "lm" → rm

Reconstrucción de Jerarquía

Las partidas de BOQ son jerárquicas, pero la jerarquía a menudo es implícita:

Los números de sección (1.0, 1.1, 1.1.1) codifican relaciones padre-hijo
Los niveles de indentación indican jerarquía en algunos formatos
El formato de negrita/tamaño de fuente distingue secciones de partidas
Las filas de "Total" y "Sub-total" indican límites de jerarquía

Reconstruir esta jerarquía es esencial — proporciona contexto para cada partida. "Concreto" bajo "Cimentaciones" es diferente de "Concreto" bajo "Superestructura."

Manejo Numérico

Eliminar separadores de miles (que varían por localización: comas, puntos, espacios)
Analizar símbolos de moneda y estandarizar
Manejar campos calculados (Monto = Cantidad x Tarifa) y marcar inconsistencias
Convertir entre sistemas de medida cuando sea necesario

Etapa 3 del Pipeline: Etiquetado

Con los datos normalizados, los expertos del dominio etiquetan los registros:

Clasificación por Oficio

Cada partida de BOQ se mapea a un oficio de construcción:

Civil/estructural, mecánico, eléctrico, plomería, HVAC, acabados, paisajismo, etc.
Esta clasificación permite modelos de costos específicos por oficio

Material vs. Mano de Obra vs. Equipo

Las partidas de BOQ a menudo agrupan estos, pero los modelos de IA se benefician de la distinción:

"Suministro e instalación de acero estructural" → material + mano de obra
"Alquiler de grúa para montaje de acero" → equipo
"Acero de refuerzo Grado 60" → material

Codificación Estandarizada de Partidas

Mapeo a sistemas de clasificación estándar donde sea aplicable:

UniFormat (para elementos de edificación)
MasterFormat (para resultados de trabajo)
Sistemas de codificación específicos de la empresa

Indicadores de Calidad

Completitud (¿la partida tiene todos los campos requeridos?)
Consistencia (¿Monto = Cantidad x Tarifa?)
Razonabilidad (¿la tarifa está dentro de los rangos esperados para este tipo de partida?)

Etapa 4 del Pipeline: Exportación

Los datos de BOQ etiquetados y normalizados se exportan a diferentes formatos dependiendo del caso de uso de IA posterior:

Para modelos de estimación de costos (JSONL):

{"description": "Supply and fix reinforcement steel...", "trade": "structural", "unit": "kg", "rate_usd_per_unit": 1.85, "context": "foundations/piling"}

Para clasificación de documentos (JSONL):

{"text": "1.1.3 Excavation in rock...", "label": "civil_earthworks"}

Para bases de conocimiento RAG (texto fragmentado): Fragmentos estructurados con metadatos de oficio/sección para generación aumentada por recuperación.

El Requisito del Experto de Dominio

Este pipeline no puede ser ejecutado solo por ingenieros de ML. Las reglas de normalización, clasificaciones por oficio y juicios de calidad requieren conocimiento de dominio de construcción:

¿"concrete class C30" es lo mismo que "30 MPa concrete"? (Sí, pero solo un ingeniero estructural lo sabría.)
¿Debería incluirse "provisional sum for unforeseen ground conditions" en los datos de entrenamiento? (Depende del propósito del modelo.)
¿Es razonable una tarifa de $500/m3 para concreto? (Depende de la región, tipo de proyecto y año.)

Por eso la herramienta de preparación de datos necesita ser accesible para ingenieros de cantidades y gerentes de proyectos — no estar encerrada detrás de scripts de Python e interfaces de línea de comandos. Plataformas como Ertas Data Suite ponen a los expertos de dominio directamente en el flujo de etiquetado, que es donde su conocimiento tiene el mayor impacto en la calidad de los datos de entrenamiento.

Para Comenzar

Si tienes una colección de BOQs y quieres construir datos de entrenamiento de IA:

Comienza con archivos nativamente digitales (Excel/CSV) — son más fáciles de procesar que PDFs escaneados
Define tu esquema objetivo antes de comenzar a procesar
Involucra a un ingeniero de cantidades en el diseño del esquema de etiquetado
Comienza con un solo tipo de proyecto para establecer el pipeline, luego escala
Espera iteración — el primer paso revelará variaciones de formato que no anticipaste