Cómo Auditar tus Datos No Estructurados para Potencial de IA

Antes de seleccionar un modelo, contratar un ingeniero de ML o comprar una GPU, necesitas responder una pregunta: ¿son tus datos utilizables para IA?

Una auditoría de datos no estructurados es el proceso de evaluar sistemáticamente lo que tienes, evaluar su calidad, estimar el esfuerzo para prepararlos e identificar bloqueadores. Esta guía proporciona un marco práctico para conducir la auditoría — algo que puedes completar en 1-2 semanas con personal existente.

Fase 1: Inventario (Días 1-3)

Localizar Todas las Fuentes de Datos

Los datos empresariales viven en más lugares de lo que cualquiera espera:

Servidores de archivos de red y dispositivos NAS
SharePoint / OneDrive / Google Drive
Archivos de correo electrónico (Exchange, Gmail)
Sistemas de gestión documental (SharePoint, M-Files, OpenText)
Aplicaciones de línea de negocio (ERP, CRM, HRIS)
Archivos físicos en papel (sí, todavía)
Discos duros individuales y almacenamiento local
Sistemas heredados programados para decomisión

Catalogar por Tipo

Para cada fuente, cuenta documentos por tipo:

Tipo de Documento	Cantidad	Formato	Digital/Escaneado	Tamaño Estimado
Contratos	12,400	PDF	70% digital / 30% escaneado	45 GB
Facturas	89,000	PDF, TIFF	40% digital / 60% escaneado	120 GB
Reportes	3,200	Word, PDF	95% digital	8 GB
Emails	450,000	MSG, EML	100% digital	65 GB
Hojas de cálculo	15,600	Excel, CSV	100% digital	12 GB

Evaluar Volumen

Total de documentos y tamaño total
Tasa de crecimiento (¿cuántos datos nuevos se acumulan por mes/año?)
Profundidad histórica (¿qué tan atrás llega el archivo?)
Cobertura (¿hay brechas en el archivo — años, departamentos o tipos de documentos faltantes?)

Fase 2: Evaluación de Calidad (Días 4-7)

Selección de Muestra

No intentes evaluar todo. Toma una muestra representativa:

100-500 documentos a través de tipos de documentos y períodos de tiempo
Incluye documentos de diferentes fuentes y departamentos
Incluye tanto documentos nativos digitales como escaneados
Pondera la muestra hacia los tipos de documentos más relevantes para tu caso de uso de IA

Dimensiones de Calidad

Calidad de Extracción: ¿Se puede extraer el contenido de forma confiable?

PDFs digitales: confianza de extracción de texto (generalmente alta)
Documentos escaneados: calidad de OCR (depende de la calidad del escaneo, resolución, antigüedad del documento)
Tablas: ¿Se pueden preservar las estructuras de tabla durante la extracción?
Imágenes: ¿Son las imágenes incrustadas relevantes y extraíbles?

Califica cada documento de muestra: Alta / Media / Baja calidad de extracción.

Completitud: ¿Cada documento contiene la información necesaria?

¿Están los campos requeridos poblados?
¿Las secciones están completas o truncadas?
¿Se incluyen adjuntos y apéndices?

Consistencia: ¿Cuánto varía el formato?

Mismo tipo de documento de diferentes fuentes — ¿qué tan similar es la estructura?
¿Cuántas variaciones de formato existen para cada tipo de documento?
¿Las convenciones de nomenclatura son lo suficientemente consistentes para clasificación automatizada?

Relevancia: ¿Cuánto de los datos realmente se relaciona con el caso de uso de IA objetivo?

¿Qué porcentaje de documentos son directamente útiles?
¿Qué porcentaje son tangencialmente útiles (proporcionan contexto pero no señal de entrenamiento)?
¿Qué porcentaje son irrelevantes (pueden excluirse)?

Resumen de Calidad

Produce una tarjeta de puntuación de calidad:

Tipo de Documento	Extracción	Completitud	Consistencia	Relevancia	General
Contratos	Alta	Alta	Media	Alta	Bueno
Facturas	Media	Alta	Baja	Media	Regular
Reportes heredados	Baja	Media	Baja	Alta	Necesita trabajo

Fase 3: Evaluación de Cumplimiento (Días 8-9)

Identificación de PII/PHI

Muestrea documentos en busca de datos sensibles:

Nombres personales, direcciones, números de teléfono, direcciones de email
Números de Seguro Social, identificaciones fiscales, números de cuenta
Información médica (diagnósticos, tratamientos, prescripciones)
Información financiera (ingresos, crédito, saldos de cuenta)
Datos biométricos (fotos con rostros identificables)

Estima la densidad de PII: ¿qué porcentaje de documentos contiene PII, y cuánto por documento?

Mapeo Regulatorio

Basándote en los hallazgos de PII y la industria, identifica las regulaciones aplicables:

GDPR (sujetos de datos de la UE)
HIPAA (información de salud)
EU AI Act (sistemas de IA de alto riesgo)
Específicas de la industria (SOX, PCAOB, ITAR, etc.)
Leyes de privacidad estatales/regionales

Restricciones de Procesamiento

¿Pueden los datos salir del edificio? (¿Requisitos de air-gap?)
¿Quién puede acceder a los datos? (¿Autorización, necesidad de conocer, privilegio profesional?)
¿Qué pista de auditoría se requiere?
¿Cuáles son las obligaciones de retención y destrucción de datos?

Fase 4: Estimación de Esfuerzo (Días 10-12)

Esfuerzo de Ingestión

Basándote en la evaluación de calidad:

Documentos digitales de alta calidad: Rápido (procesamiento por lotes)
Calidad mixta: Moderado (algo de revisión manual de resultados de extracción)
Documentos escaneados de baja calidad: Lento (revisión de calidad de OCR, corrección manual)

Esfuerzo de Etiquetado

Estima basándote en:

Número de registros a etiquetar
Complejidad del esquema de etiquetado (clasificación binaria vs. multi-etiqueta vs. extracción de entidades)
Experiencia de dominio requerida (generalista vs. especialista)
Tiempo estimado por registro (10 segundos para clasificación simple, 2-5 minutos para anotación compleja)
Ciclos de revisión (típicamente 2-3 pasadas para calidad)

Ejemplo: 10,000 documentos x 2 minutos por documento x 2 ciclos de revisión = ~670 horas de esfuerzo de etiquetado.

Cronograma

Produce un cronograma realista:

Fase	Esfuerzo	Duración
Ingestión	X documentos	Y semanas
Limpieza	Z registros	W semanas
Etiquetado	N registros	M semanas
Revisión de calidad	N registros	P semanas
Exportación	-	1 semana

Fase 5: Recomendaciones (Días 13-14)

Evaluación de Proceder / No Proceder

Basándote en la auditoría, recomienda una de:

Proceder: La calidad y volumen de datos soportan el caso de uso de IA. Define alcance y cronograma.
Proceder con salvedades: Los datos son utilizables pero requieren preparación significativa. Presupuesta de acuerdo.
Diferir: La calidad o volumen de datos es insuficiente. Invierte en recolección o mejora de datos antes de iniciar un proyecto de IA.
Pivotar: El caso de uso previsto no coincide con los datos disponibles. Considera casos de uso alternativos que se ajusten mejor a lo que tienes.

Ranking de Prioridad

Si se están considerando múltiples casos de uso de IA, ordénalos por preparación de datos — el caso de uso con los datos más listos debería ir primero, independientemente de cuál caso de uso parezca más valioso en papel.

El Entregable de la Auditoría

Produce un documento conciso (5-10 páginas) cubriendo:

Resumen del inventario de datos
Evaluación de calidad por tipo de documento
Requisitos y restricciones de cumplimiento
Estimaciones de esfuerzo y cronograma
Recomendación de proceder/no proceder con justificación

Este documento se convierte en la base para tu plan de proyecto de preparación de datos de IA. Sin él, estás planificando a ciegas.

Cuando estés listo para pasar de auditoría a preparación, plataformas como Ertas Data Suite manejan el pipeline completo — ingestión, limpieza, etiquetado, aumento y exportación — on-premise, con la pista de auditoría y documentación de cumplimiento incorporadas. Pero la auditoría va primero. Conoce tus datos antes de intentar prepararlos.