
¿Cuánto Tiempo Toma Realmente la Preparación de Datos de IA Empresarial?
Benchmarks honestos para cronogramas de preparación de datos de IA — por tipo de datos, volumen y complejidad del pipeline — y los mayores sumideros de tiempo que retrasan los proyectos empresariales de IA.
La respuesta honesta es: más de lo que has presupuestado. Casi universalmente.
La estadística del 60-80% — la proporción del tiempo de proyecto de ML que se dedica a la preparación de datos — es ampliamente citada, ocasionalmente cuestionada y consistentemente confirmada por equipos que han pasado por un proyecto real de IA empresarial. Lo que la estadística no captura es lo que eso significa para la planificación del proyecto.
Si la preparación de datos toma el 60-80% del tiempo total del proyecto, y tu proyecto tiene un plazo de 6 meses, entonces tienes aproximadamente 3.5 a 5 meses para la preparación de datos sola. No para entrenamiento del modelo. No para evaluación e iteración. No para despliegue. Solo para poner los datos en una forma que permita que el entrenamiento comience.
La mayoría de los planes de proyecto no reflejan esto. La mayoría de los planes de proyecto asignan 3-4 semanas para "preprocesamiento de datos" y 4-5 meses para todo lo demás. El descubrimiento de que el cronograma está invertido típicamente sucede en la semana 6, cuando la primera pasada de preparación de datos se ha completado y la calidad del output aún no es apta para entrenamiento.
Este artículo te da benchmarks concretos para que puedas planificar basándote en números realistas.
Las Variables Que Impulsan el Cronograma
El cronograma varía enormemente dependiendo de cuatro factores:
1. Calidad del formato fuente. Los PDFs nativos de sistemas modernos de gestión de documentos se parsean limpia y rápidamente. Los documentos escaneados de archivos de los años 90 requieren OCR, corrección de inclinación y revisión manual de calidad. El mismo corpus nominal de "1,000 documentos" puede tomar 8 horas de procesar si es nativo, o 40+ horas si es escaneado.
2. Volumen de datos. No solo cantidad de archivos, sino volumen total de texto. 10,000 formularios cortos es un problema diferente de 10,000 reportes técnicos densos.
3. Complejidad del etiquetado. Clasificar documentos en 5 categorías a nivel de documento es rápido. Anotar entidades nombradas a nivel de token a través de un dominio especializado (terminología clínica, cláusulas legales, componentes de ingeniería) es lento.
4. Composición del equipo y herramientas. Limpieza manual basada en hojas de cálculo vs. pipelines de deduplicación automatizados. Expertos de dominio que pueden acceder a herramientas de anotación independientemente vs. expertos de dominio que requieren un ingeniero de ML para asistirlos. Estos multiplicadores son grandes.
Benchmarks de Tiempo por Etapa
Ingestión
El tiempo de ingestión está determinado principalmente por formato y requisitos de OCR.
| Formato Fuente | Páginas por Hora (automatizado) | Tasa de Error | Revisión Manual Requerida |
|---|---|---|---|
| PDF nativo (diseño limpio) | 5,000-15,000 | inferior al 1% | Mínima |
| PDF nativo (multi-columna complejo) | 1,000-3,000 | 2-5% | Validación de tablas |
| PDF escaneado (buena calidad, 300+ DPI) | 500-1,500 | 2-8% | Verificación aleatoria |
| PDF escaneado (pobre calidad, mixto) | 100-400 | 10-25% | Significativa |
| Word (.docx) | 10,000-30,000 | inferior al 1% | Mínima |
| Excel (.xlsx, simple) | 5,000-20,000 hojas | 1-3% | Validación de encabezados |
| Transcripciones de audio | 2-5x tiempo real + revisión | 5-15% | Correcciones de hablante/término |
Estas son tasas de procesamiento automatizado. Agrega tiempo de configuración — configuración del pipeline, validación de muestras, ajuste de parámetros — de 4-16 horas por tipo de corpus antes de que comience la ejecución principal.
Limpieza
El tiempo de limpieza es más difícil de estimar porque depende de la tasa de error de la ingestión y los requisitos de cumplimiento.
| Tarea | Estimación de Tiempo |
|---|---|
| Deduplicación automatizada (50K registros) | 1-4 horas de cómputo + 2-4 horas de validación |
| Redacción de PII/PHI (patrones estándar) | 2-8 horas de cómputo + 4-8 horas de revisión de muestra de auditoría |
| Puntuación de calidad y filtrado | 2-6 horas de cómputo + 2-4 horas de calibración de umbrales |
| Limpieza manual de artefactos OCR | 1-3 minutos por página con errores significativos |
El componente de limpieza manual es el impredecible. Si la calidad del OCR es pobre en una fracción significativa de documentos, la corrección manual se convierte en el impulsor del cronograma. Un corpus de 10,000 páginas con 5% de tasa de error a nivel de página tiene 500 páginas que requieren atención manual — a 2 minutos por página, eso son más de 16 horas de trabajo manual por anotador.
Etiquetado
El etiquetado es casi siempre la etapa más larga, y casi siempre la más subestimada.
| Tarea | Tiempo por Registro | 10,000 Registros |
|---|---|---|
| Clasificación de documentos (5 clases) | 15-30 segundos | 40-80 horas |
| Clasificación de documentos (20+ clases) | 30-90 segundos | 80-250 horas |
| Etiquetado NER (3-5 tipos de entidad) | 2-5 minutos | 330-830 horas |
| Etiquetado NER (10+ tipos de entidad, técnico) | 5-15 minutos | 830-2,500 horas |
| Anotación de bounding box (objetos simples) | 1-3 minutos | 165-500 horas |
| Generación de pares Q&A por pasaje | 10-20 minutos | 1,650-3,300 horas |
| Escritura de pares de instruction fine-tuning | 15-45 minutos | 2,500-7,500 horas |
Estos tiempos asumen expertos de dominio calibrados y trabajando eficientemente. Para las primeras sesiones de etiquetado antes de la calibración, agrega 30-50% por inconsistencia y retrabajo.
A estas tasas, etiquetar 10,000 registros para una tarea NER compleja requiere 800-2,500 horas de tiempo de anotación experta. A 40 horas por semana para un solo anotador, eso son 20-63 semanas. La mayoría de los proyectos no pueden esperar tanto, lo que significa: contratar múltiples anotadores, reducir alcance, o usar aumento para expandir un conjunto etiquetado más pequeño de alta calidad.
Aumento
El aumento automatizado usando un LLM local corre a velocidad de inferencia del modelo — típicamente 50-500 registros sintéticos por hora dependiendo de la longitud del registro y el hardware. La configuración y revisión de calidad de ejemplos sintéticos agrega 4-16 horas. Esta es usualmente la etapa más rápida.
Exportación
La exportación es típicamente rápida — horas, no días — asumiendo que el formato está correctamente especificado y la validación está automatizada. Las fallas de validación de formato (errores de esquema, problemas de codificación) pueden agregar tiempo de depuración de 4-16 horas si se descubren tarde.
El Costo Compuesto de Saltarse la Limpieza
Los equipos que se saltan o apuran la limpieza — para cumplir una fecha límite o porque la limpieza "parece overhead" — enfrentan un problema compuesto.
Un modelo entrenado con datos con 10% de registros casi duplicados aprende a reproducir contenido común con confianza inflada. Un modelo entrenado con datos con 2% de contaminación de PII producirá PII en producción. Un modelo entrenado con datos con 5% de corrupción OCR producirá outputs que incluyen artefactos de corrupción.
El costo no es solo el tiempo de limpieza en sí — es el ciclo completo de entrenar-evaluar-diagnosticar-corregir-reentrenar que sigue. Si el problema de limpieza no se identifica hasta la evaluación del modelo (semanas después de que comenzó el entrenamiento), el tiempo total agregado es: tiempo para identificar el problema de datos + tiempo de limpieza + tiempo de reentrenamiento + tiempo de reevaluación. Esto es consistentemente 2-4x más largo que abordar la limpieza en la etapa correcta.
Donde los Equipos Consistentemente Subestiman
Calidad de OCR en documentos escaneados heredados. Los equipos que no han auditado la calidad real de escaneo de su archivo antes de planificar frecuentemente asumen que el OCR será "suficientemente bueno". El OCR en documentos escaneados a 150 DPI con inclinación, desvanecimiento de tinta y calidad de impresión mixta no es suficientemente bueno para datos de entrenamiento de IA. El descubrimiento de esto sucede después de la fase de ingestión, cuando la fase de limpieza revela la tasa de error.
Tasas de casi-duplicados en archivos acumulados. Los archivos de documentos empresariales no están curados. Los documentos se acumulan a través de adjuntos de email, versiones guardadas, instanciaciones de plantillas y copiar-pegar. Antes de la deduplicación, el volumen efectivo de datos de entrenamiento es frecuentemente 60-75% del volumen aparente.
Tiempo de consistencia de etiquetas y calibración. Los equipos asumen que los expertos de dominio naturalmente estarán de acuerdo en las etiquetas. Rara vez lo hacen en la primera pasada. Calibración — definir el esquema de etiquetas precisamente, ejecutar anotación de prueba, medir acuerdo inter-anotador, adjudicar desacuerdos, re-anotar con el esquema refinado — toma 2-6 semanas antes de que comience la ejecución de anotación principal.
Requisitos de formato para el framework objetivo. Descubrir que el framework de entrenamiento requiere un esquema JSONL específico que no coincide con el formato de exportación, después de que el etiquetado está completo, requiere trabajo de reformateo y a veces reetiquetado si el cambio de esquema afecta cómo las anotaciones se mapean al output.
Una Tabla de Benchmark Aproximada
| Tamaño del Corpus | Formato | Tipo de Anotación | Tiempo Estimado Total de Prep |
|---|---|---|---|
| 1,000 documentos | PDF nativo, simple | Clasificación de documentos | 2-4 semanas |
| 1,000 documentos | PDF escaneado | Clasificación de documentos | 4-8 semanas |
| 10,000 documentos | PDF nativo, mixto | NER (5 tipos de entidad) | 3-6 meses |
| 10,000 documentos | PDF escaneado | NER (5 tipos de entidad) | 5-10 meses |
| 50,000 documentos | Formatos mixtos | Pares de instruction fine-tuning | 6-18 meses |
| 100,000+ documentos | Formatos mixtos | Etiquetas multi-tarea | 12+ meses |
Estas estimaciones asumen un equipo pequeño (2-4 personas incluyendo al menos 1 ingeniero de ML y disponibilidad de expertos de dominio). Equipos más grandes reducen el tiempo calendario proporcionalmente, sujeto a la sobrecarga de consistencia de anotación.
Cómo las Herramientas Afectan el Cronograma
Los procesos manuales — scripts de Python para limpieza, revisión de calidad basada en hojas de cálculo, herramientas de anotación improvisadas — producen cronogramas 2-4x más largos de manera confiable que pipelines automatizados con compuertas de calidad integradas.
Los efectos compuestos:
- La deduplicación manual toma días; la deduplicación automatizada toma horas
- La revisión manual de PII requiere leer cada documento; la detección automatizada con muestreo de auditoría humana requiere leer 5-10%
- Las herramientas de anotación que requieren configuración de ingeniero de ML para cada sesión de anotador duplican el tiempo efectivo de anotación
- Los scripts de conversión de formato que necesitan reescribirse para cada nuevo objetivo de exportación agregan días a la etapa de exportación
La automatización del pipeline no es un lujo para proyectos grandes. Para un equipo de 3 intentando preparar un corpus de NER de 10,000 documentos, la diferencia entre un pipeline bien equipado y un proceso manual es la diferencia entre un proyecto de 3 meses y un proyecto de 9 meses.
Ertas Data Suite automatiza las etapas de ingestión, limpieza, deduplicación y redacción de PII, y proporciona una interfaz de anotación basada en navegador a la que los expertos de dominio pueden acceder sin instalación. Basándose en equipos que usan el pipeline, las etapas automatizadas solas reducen el tiempo total de preparación en 40-60% comparado con pipelines basados en scripts.
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
Lectura Relacionada
- Las Cinco Etapas de un Pipeline de Datos de IA Empresarial — Qué realmente sucede en cada etapa y dónde los equipos se atascan.
- La Guía Empresarial para Preparación de Datos de IA — La imagen estratégica completa, incluyendo cómo dimensionar un proyecto de preparación de datos antes de comenzar.
- El Costo de un Stack de Preparación de Datos Fragmentado — El costo compuesto de usar 3-7 herramientas separadas a través del pipeline.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

What Is AI Data Readiness? The Assessment Every Enterprise Skips
Most enterprises jump straight to model selection without assessing whether their data is actually usable for AI. Here's what AI data readiness means and how to assess it.

80% of Enterprise Data Is Unstructured — Here's What That Actually Means for AI
Unpacking the commonly cited statistic that 80-90% of enterprise data is unstructured — what types of data are trapped, what the opportunity cost is, and how it relates to AI adoption.

Build vs. Buy AI Data Preparation: The Real Cost Breakdown
The real math on building in-house AI data preparation pipelines vs. buying a platform — covering engineering costs, maintenance, tool licensing, and hidden integration expenses.