Back to blog
    Cómo Convertir Presupuestos de Cantidades en Datos de Entrenamiento de IA
    boqdata-extractionconstructiontraining-datadata-preparationsegment:enterprise

    Cómo Convertir Presupuestos de Cantidades en Datos de Entrenamiento de IA

    Una guía técnica para convertir presupuestos de cantidades (BOQs) de formatos variados en datos de entrenamiento de IA estructurados — cubriendo extracción de tablas, normalización, etiquetado y exportación.

    EErtas Team·

    Los presupuestos de cantidades (BOQs) son la columna vertebral de la estimación de costos en construcción. Listan cada material, partida de mano de obra y actividad en un proyecto, con cantidades, tarifas unitarias y montos. Para aplicaciones de IA en construcción — pronóstico de costos, estimación automatizada, verificación de mediciones — los BOQs son la fuente principal de datos de entrenamiento.

    El problema: los BOQs vienen en formatos tremendamente inconsistentes, y convertirlos en datos de entrenamiento estructurados requiere manejar variación de formatos, jerarquías anidadas y terminología específica del dominio. Esta guía cubre el pipeline práctico.

    El Problema de Formato de los BOQ

    Una sola empresa de construcción podría tener BOQs en todos estos formatos:

    • Hojas de cálculo de Excel con disposiciones de columnas variables, celdas combinadas y secciones codificadas por color
    • Exportaciones PDF de software de estimación (CostX, Bluebeam, PlanSwift)
    • Documentos de papel escaneados de proyectos más antiguos
    • Exportaciones CSV de sistemas ERP
    • Documentos de Word con tablas creadas manualmente

    Incluso dentro del mismo formato, la estructura varía:

    BOQ del Contratista A: | Item No | Description | Unit | Qty | Rate | Amount |

    BOQ del Contratista B: | Ref | Work Item | UOM | Quantity | Unit Price | Total Price | Remarks |

    BOQ del Contratista C: | S/N | Trade | Description of Works | Unit | Estimated Qty | Rate (USD) | Amount (USD) |

    La misma información, diferentes nombres de columnas, diferente orden, diferente granularidad. Multiplica esto por cientos de proyectos y la escala del desafío de normalización se vuelve clara.

    Etapa 1 del Pipeline: Ingesta y Extracción de Tablas

    Para archivos Excel/CSV

    • Analizar hojas de trabajo, identificando filas de encabezado (que no siempre son la fila 1)
    • Manejar celdas combinadas (los encabezados de sección a menudo abarcan múltiples columnas)
    • Detectar y preservar la jerarquía (secciones, subsecciones, partidas, sub-partidas)
    • Manejar múltiples hojas de BOQ en un solo libro de trabajo

    Para archivos PDF

    • Detección de tablas usando análisis de disposición (identificando estructuras de cuadrícula, columnas alineadas)
    • Extracción de celdas con manejo de contenido multilínea
    • Identificación de encabezados (distinguiendo encabezados de columna de filas de datos)
    • Detección de continuación de página (tablas que abarcan múltiples páginas)

    Para documentos escaneados

    • OCR con procesamiento consciente de tablas
    • Detección de líneas para identificación de cuadrícula de tablas
    • Puntuación de confianza de caracteres (marcando extracciones de baja confianza para revisión)
    • Manejo de anotaciones manuscritas junto con texto impreso

    Etapa 2 del Pipeline: Normalización

    Una vez extraídas las tablas, los datos sin procesar necesitan normalización:

    Mapeo de Columnas

    Mapear nombres de columnas variados a un esquema estándar:

    • "Description" / "Work Item" / "Description of Works" → description
    • "Unit" / "UOM" / "U/M" → unit
    • "Qty" / "Quantity" / "Estimated Qty" → quantity
    • "Rate" / "Unit Price" / "Unit Rate" → unit_rate
    • "Amount" / "Total Price" / "Total" → amount

    Estandarización de Unidades

    La construcción usa numerosas abreviaciones de unidades de manera inconsistente:

    • "m3" / "cu.m" / "CUM" / "cubic meter" → m3
    • "sqm" / "sq.m" / "SQM" / "m2" → m2
    • "nr" / "no" / "nos" / "each" / "ea" → nr
    • "rm" / "r.m" / "running meter" / "lm" → rm

    Reconstrucción de Jerarquía

    Las partidas de BOQ son jerárquicas, pero la jerarquía a menudo es implícita:

    • Los números de sección (1.0, 1.1, 1.1.1) codifican relaciones padre-hijo
    • Los niveles de indentación indican jerarquía en algunos formatos
    • El formato de negrita/tamaño de fuente distingue secciones de partidas
    • Las filas de "Total" y "Sub-total" indican límites de jerarquía

    Reconstruir esta jerarquía es esencial — proporciona contexto para cada partida. "Concreto" bajo "Cimentaciones" es diferente de "Concreto" bajo "Superestructura."

    Manejo Numérico

    • Eliminar separadores de miles (que varían por localización: comas, puntos, espacios)
    • Analizar símbolos de moneda y estandarizar
    • Manejar campos calculados (Monto = Cantidad x Tarifa) y marcar inconsistencias
    • Convertir entre sistemas de medida cuando sea necesario

    Etapa 3 del Pipeline: Etiquetado

    Con los datos normalizados, los expertos del dominio etiquetan los registros:

    Clasificación por Oficio

    Cada partida de BOQ se mapea a un oficio de construcción:

    • Civil/estructural, mecánico, eléctrico, plomería, HVAC, acabados, paisajismo, etc.
    • Esta clasificación permite modelos de costos específicos por oficio

    Material vs. Mano de Obra vs. Equipo

    Las partidas de BOQ a menudo agrupan estos, pero los modelos de IA se benefician de la distinción:

    • "Suministro e instalación de acero estructural" → material + mano de obra
    • "Alquiler de grúa para montaje de acero" → equipo
    • "Acero de refuerzo Grado 60" → material

    Codificación Estandarizada de Partidas

    Mapeo a sistemas de clasificación estándar donde sea aplicable:

    • UniFormat (para elementos de edificación)
    • MasterFormat (para resultados de trabajo)
    • Sistemas de codificación específicos de la empresa

    Indicadores de Calidad

    • Completitud (¿la partida tiene todos los campos requeridos?)
    • Consistencia (¿Monto = Cantidad x Tarifa?)
    • Razonabilidad (¿la tarifa está dentro de los rangos esperados para este tipo de partida?)

    Etapa 4 del Pipeline: Exportación

    Los datos de BOQ etiquetados y normalizados se exportan a diferentes formatos dependiendo del caso de uso de IA posterior:

    Para modelos de estimación de costos (JSONL):

    {"description": "Supply and fix reinforcement steel...", "trade": "structural", "unit": "kg", "rate_usd_per_unit": 1.85, "context": "foundations/piling"}
    

    Para clasificación de documentos (JSONL):

    {"text": "1.1.3 Excavation in rock...", "label": "civil_earthworks"}
    

    Para bases de conocimiento RAG (texto fragmentado): Fragmentos estructurados con metadatos de oficio/sección para generación aumentada por recuperación.

    El Requisito del Experto de Dominio

    Este pipeline no puede ser ejecutado solo por ingenieros de ML. Las reglas de normalización, clasificaciones por oficio y juicios de calidad requieren conocimiento de dominio de construcción:

    • ¿"concrete class C30" es lo mismo que "30 MPa concrete"? (Sí, pero solo un ingeniero estructural lo sabría.)
    • ¿Debería incluirse "provisional sum for unforeseen ground conditions" en los datos de entrenamiento? (Depende del propósito del modelo.)
    • ¿Es razonable una tarifa de $500/m3 para concreto? (Depende de la región, tipo de proyecto y año.)

    Por eso la herramienta de preparación de datos necesita ser accesible para ingenieros de cantidades y gerentes de proyectos — no estar encerrada detrás de scripts de Python e interfaces de línea de comandos. Plataformas como Ertas Data Suite ponen a los expertos de dominio directamente en el flujo de etiquetado, que es donde su conocimiento tiene el mayor impacto en la calidad de los datos de entrenamiento.

    Para Comenzar

    Si tienes una colección de BOQs y quieres construir datos de entrenamiento de IA:

    1. Comienza con archivos nativamente digitales (Excel/CSV) — son más fáciles de procesar que PDFs escaneados
    2. Define tu esquema objetivo antes de comenzar a procesar
    3. Involucra a un ingeniero de cantidades en el diseño del esquema de etiquetado
    4. Comienza con un solo tipo de proyecto para establecer el pipeline, luego escala
    5. Espera iteración — el primer paso revelará variaciones de formato que no anticipaste

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading