¿Cuánto Tiempo Toma Realmente la Preparación de Datos de IA Empresarial?

La respuesta honesta es: más de lo que has presupuestado. Casi universalmente.

La estadística del 60-80% — la proporción del tiempo de proyecto de ML que se dedica a la preparación de datos — es ampliamente citada, ocasionalmente cuestionada y consistentemente confirmada por equipos que han pasado por un proyecto real de IA empresarial. Lo que la estadística no captura es lo que eso significa para la planificación del proyecto.

Si la preparación de datos toma el 60-80% del tiempo total del proyecto, y tu proyecto tiene un plazo de 6 meses, entonces tienes aproximadamente 3.5 a 5 meses para la preparación de datos sola. No para entrenamiento del modelo. No para evaluación e iteración. No para despliegue. Solo para poner los datos en una forma que permita que el entrenamiento comience.

La mayoría de los planes de proyecto no reflejan esto. La mayoría de los planes de proyecto asignan 3-4 semanas para "preprocesamiento de datos" y 4-5 meses para todo lo demás. El descubrimiento de que el cronograma está invertido típicamente sucede en la semana 6, cuando la primera pasada de preparación de datos se ha completado y la calidad del output aún no es apta para entrenamiento.

Este artículo te da benchmarks concretos para que puedas planificar basándote en números realistas.

Las Variables Que Impulsan el Cronograma

El cronograma varía enormemente dependiendo de cuatro factores:

1. Calidad del formato fuente. Los PDFs nativos de sistemas modernos de gestión de documentos se parsean limpia y rápidamente. Los documentos escaneados de archivos de los años 90 requieren OCR, corrección de inclinación y revisión manual de calidad. El mismo corpus nominal de "1,000 documentos" puede tomar 8 horas de procesar si es nativo, o 40+ horas si es escaneado.

2. Volumen de datos. No solo cantidad de archivos, sino volumen total de texto. 10,000 formularios cortos es un problema diferente de 10,000 reportes técnicos densos.

3. Complejidad del etiquetado. Clasificar documentos en 5 categorías a nivel de documento es rápido. Anotar entidades nombradas a nivel de token a través de un dominio especializado (terminología clínica, cláusulas legales, componentes de ingeniería) es lento.

4. Composición del equipo y herramientas. Limpieza manual basada en hojas de cálculo vs. pipelines de deduplicación automatizados. Expertos de dominio que pueden acceder a herramientas de anotación independientemente vs. expertos de dominio que requieren un ingeniero de ML para asistirlos. Estos multiplicadores son grandes.

Benchmarks de Tiempo por Etapa

Ingestión

El tiempo de ingestión está determinado principalmente por formato y requisitos de OCR.

Formato Fuente	Páginas por Hora (automatizado)	Tasa de Error	Revisión Manual Requerida
PDF nativo (diseño limpio)	5,000-15,000	inferior al 1%	Mínima
PDF nativo (multi-columna complejo)	1,000-3,000	2-5%	Validación de tablas
PDF escaneado (buena calidad, 300+ DPI)	500-1,500	2-8%	Verificación aleatoria
PDF escaneado (pobre calidad, mixto)	100-400	10-25%	Significativa
Word (.docx)	10,000-30,000	inferior al 1%	Mínima
Excel (.xlsx, simple)	5,000-20,000 hojas	1-3%	Validación de encabezados
Transcripciones de audio	2-5x tiempo real + revisión	5-15%	Correcciones de hablante/término

Estas son tasas de procesamiento automatizado. Agrega tiempo de configuración — configuración del pipeline, validación de muestras, ajuste de parámetros — de 4-16 horas por tipo de corpus antes de que comience la ejecución principal.

Limpieza

El tiempo de limpieza es más difícil de estimar porque depende de la tasa de error de la ingestión y los requisitos de cumplimiento.

Tarea	Estimación de Tiempo
Deduplicación automatizada (50K registros)	1-4 horas de cómputo + 2-4 horas de validación
Redacción de PII/PHI (patrones estándar)	2-8 horas de cómputo + 4-8 horas de revisión de muestra de auditoría
Puntuación de calidad y filtrado	2-6 horas de cómputo + 2-4 horas de calibración de umbrales
Limpieza manual de artefactos OCR	1-3 minutos por página con errores significativos

El componente de limpieza manual es el impredecible. Si la calidad del OCR es pobre en una fracción significativa de documentos, la corrección manual se convierte en el impulsor del cronograma. Un corpus de 10,000 páginas con 5% de tasa de error a nivel de página tiene 500 páginas que requieren atención manual — a 2 minutos por página, eso son más de 16 horas de trabajo manual por anotador.

Etiquetado

El etiquetado es casi siempre la etapa más larga, y casi siempre la más subestimada.

Tarea	Tiempo por Registro	10,000 Registros
Clasificación de documentos (5 clases)	15-30 segundos	40-80 horas
Clasificación de documentos (20+ clases)	30-90 segundos	80-250 horas
Etiquetado NER (3-5 tipos de entidad)	2-5 minutos	330-830 horas
Etiquetado NER (10+ tipos de entidad, técnico)	5-15 minutos	830-2,500 horas
Anotación de bounding box (objetos simples)	1-3 minutos	165-500 horas
Generación de pares Q&A por pasaje	10-20 minutos	1,650-3,300 horas
Escritura de pares de instruction fine-tuning	15-45 minutos	2,500-7,500 horas

Estos tiempos asumen expertos de dominio calibrados y trabajando eficientemente. Para las primeras sesiones de etiquetado antes de la calibración, agrega 30-50% por inconsistencia y retrabajo.

A estas tasas, etiquetar 10,000 registros para una tarea NER compleja requiere 800-2,500 horas de tiempo de anotación experta. A 40 horas por semana para un solo anotador, eso son 20-63 semanas. La mayoría de los proyectos no pueden esperar tanto, lo que significa: contratar múltiples anotadores, reducir alcance, o usar aumento para expandir un conjunto etiquetado más pequeño de alta calidad.

Aumento

El aumento automatizado usando un LLM local corre a velocidad de inferencia del modelo — típicamente 50-500 registros sintéticos por hora dependiendo de la longitud del registro y el hardware. La configuración y revisión de calidad de ejemplos sintéticos agrega 4-16 horas. Esta es usualmente la etapa más rápida.

Exportación

La exportación es típicamente rápida — horas, no días — asumiendo que el formato está correctamente especificado y la validación está automatizada. Las fallas de validación de formato (errores de esquema, problemas de codificación) pueden agregar tiempo de depuración de 4-16 horas si se descubren tarde.

El Costo Compuesto de Saltarse la Limpieza

Los equipos que se saltan o apuran la limpieza — para cumplir una fecha límite o porque la limpieza "parece overhead" — enfrentan un problema compuesto.

Un modelo entrenado con datos con 10% de registros casi duplicados aprende a reproducir contenido común con confianza inflada. Un modelo entrenado con datos con 2% de contaminación de PII producirá PII en producción. Un modelo entrenado con datos con 5% de corrupción OCR producirá outputs que incluyen artefactos de corrupción.

El costo no es solo el tiempo de limpieza en sí — es el ciclo completo de entrenar-evaluar-diagnosticar-corregir-reentrenar que sigue. Si el problema de limpieza no se identifica hasta la evaluación del modelo (semanas después de que comenzó el entrenamiento), el tiempo total agregado es: tiempo para identificar el problema de datos + tiempo de limpieza + tiempo de reentrenamiento + tiempo de reevaluación. Esto es consistentemente 2-4x más largo que abordar la limpieza en la etapa correcta.

Donde los Equipos Consistentemente Subestiman

Calidad de OCR en documentos escaneados heredados. Los equipos que no han auditado la calidad real de escaneo de su archivo antes de planificar frecuentemente asumen que el OCR será "suficientemente bueno". El OCR en documentos escaneados a 150 DPI con inclinación, desvanecimiento de tinta y calidad de impresión mixta no es suficientemente bueno para datos de entrenamiento de IA. El descubrimiento de esto sucede después de la fase de ingestión, cuando la fase de limpieza revela la tasa de error.

Tasas de casi-duplicados en archivos acumulados. Los archivos de documentos empresariales no están curados. Los documentos se acumulan a través de adjuntos de email, versiones guardadas, instanciaciones de plantillas y copiar-pegar. Antes de la deduplicación, el volumen efectivo de datos de entrenamiento es frecuentemente 60-75% del volumen aparente.

Tiempo de consistencia de etiquetas y calibración. Los equipos asumen que los expertos de dominio naturalmente estarán de acuerdo en las etiquetas. Rara vez lo hacen en la primera pasada. Calibración — definir el esquema de etiquetas precisamente, ejecutar anotación de prueba, medir acuerdo inter-anotador, adjudicar desacuerdos, re-anotar con el esquema refinado — toma 2-6 semanas antes de que comience la ejecución de anotación principal.

Requisitos de formato para el framework objetivo. Descubrir que el framework de entrenamiento requiere un esquema JSONL específico que no coincide con el formato de exportación, después de que el etiquetado está completo, requiere trabajo de reformateo y a veces reetiquetado si el cambio de esquema afecta cómo las anotaciones se mapean al output.

Una Tabla de Benchmark Aproximada

Tamaño del Corpus	Formato	Tipo de Anotación	Tiempo Estimado Total de Prep
1,000 documentos	PDF nativo, simple	Clasificación de documentos	2-4 semanas
1,000 documentos	PDF escaneado	Clasificación de documentos	4-8 semanas
10,000 documentos	PDF nativo, mixto	NER (5 tipos de entidad)	3-6 meses
10,000 documentos	PDF escaneado	NER (5 tipos de entidad)	5-10 meses
50,000 documentos	Formatos mixtos	Pares de instruction fine-tuning	6-18 meses
100,000+ documentos	Formatos mixtos	Etiquetas multi-tarea	12+ meses

Estas estimaciones asumen un equipo pequeño (2-4 personas incluyendo al menos 1 ingeniero de ML y disponibilidad de expertos de dominio). Equipos más grandes reducen el tiempo calendario proporcionalmente, sujeto a la sobrecarga de consistencia de anotación.

Cómo las Herramientas Afectan el Cronograma

Los procesos manuales — scripts de Python para limpieza, revisión de calidad basada en hojas de cálculo, herramientas de anotación improvisadas — producen cronogramas 2-4x más largos de manera confiable que pipelines automatizados con compuertas de calidad integradas.

Los efectos compuestos:

La deduplicación manual toma días; la deduplicación automatizada toma horas
La revisión manual de PII requiere leer cada documento; la detección automatizada con muestreo de auditoría humana requiere leer 5-10%
Las herramientas de anotación que requieren configuración de ingeniero de ML para cada sesión de anotador duplican el tiempo efectivo de anotación
Los scripts de conversión de formato que necesitan reescribirse para cada nuevo objetivo de exportación agregan días a la etapa de exportación

La automatización del pipeline no es un lujo para proyectos grandes. Para un equipo de 3 intentando preparar un corpus de NER de 10,000 documentos, la diferencia entre un pipeline bien equipado y un proceso manual es la diferencia entre un proyecto de 3 meses y un proyecto de 9 meses.

Ertas Data Suite automatiza las etapas de ingestión, limpieza, deduplicación y redacción de PII, y proporciona una interfaz de anotación basada en navegador a la que los expertos de dominio pueden acceder sin instalación. Basándose en equipos que usan el pipeline, las etapas automatizadas solas reducen el tiempo total de preparación en 40-60% comparado con pipelines basados en scripts.

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

Lectura Relacionada

Las Cinco Etapas de un Pipeline de Datos de IA Empresarial — Qué realmente sucede en cada etapa y dónde los equipos se atascan.
La Guía Empresarial para Preparación de Datos de IA — La imagen estratégica completa, incluyendo cómo dimensionar un proyecto de preparación de datos antes de comenzar.
El Costo de un Stack de Preparación de Datos Fragmentado — El costo compuesto de usar 3-7 herramientas separadas a través del pipeline.