
Checklist de Preparación para IA en Industrias Reguladas (2026)
Un checklist accionable de preparación para IA dirigido a empresas en industrias reguladas — cubriendo inventario de datos, requisitos de cumplimiento, evaluación de infraestructura y capacidades del equipo.
Las empresas en industrias reguladas — salud, legal, finanzas, gobierno, construcción — enfrentan desafíos de adopción de IA que las empresas no reguladas no tienen. Los datos no pueden salir del edificio. Las pistas de auditoría son obligatorias. Los expertos de dominio deben mantenerse en el bucle. Los plazos de cumplimiento son inamovibles.
Este checklist cubre todo lo que una empresa regulada necesita evaluar antes de iniciar un proyecto de IA. Trabájalo antes de evaluar modelos, comprar GPUs o contratar ingenieros de ML.
1. Inventario de Datos
- Identificadas todas las fuentes de datos relevantes para el caso de uso de IA previsto
- Catalogados tipos de documentos, formatos y volúmenes para cada fuente
- Determinada la proporción entre documentos nativos digitales y escaneados
- Evaluado el rango de antigüedad y profundidad histórica de los datos disponibles
- Identificados datos almacenados en sistemas legacy o archivos físicos
- Estimado el volumen total de datos (GB/TB)
- Mapeada la propiedad de datos (qué departamento/equipo posee cada fuente de datos)
2. Evaluación de Calidad de Datos
- Extraída una muestra representativa (100-500 documentos)
- Evaluada la calidad de OCR para documentos escaneados
- Evaluada la completitud de documentos (¿están presentes las secciones requeridas?)
- Medida la consistencia de formato dentro de cada tipo de documento
- Identificados problemas de calidad (corrupción, páginas faltantes, secciones ilegibles)
- Estimado el porcentaje de datos utilizables para IA sin remediación
- Documentadas las brechas o limitaciones de datos conocidas
3. Privacidad y Datos Sensibles
- Identificados tipos de PII presentes en los datos (nombres, SSNs, direcciones, etc.)
- Identificada PHI si aplica (diagnósticos, tratamientos, identificadores de pacientes)
- Estimada la densidad de PII/PHI (¿qué porcentaje de documentos contiene datos sensibles?)
- Determinado si la anonimización o pseudonimización es factible
- Evaluado si los datos sensibles pueden procesarse in situ o deben ser redactados
- Identificados datos que no pueden usarse para entrenamiento de IA bajo ninguna circunstancia
4. Cumplimiento Regulatorio
- Identificadas todas las regulaciones aplicables (GDPR, HIPAA, EU AI Act, SOX, ITAR, etc.)
- Determinado si el sistema de IA previsto califica como "alto riesgo" bajo el EU AI Act
- Evaluada la base legal GDPR para usar datos personales en entrenamiento de IA
- Identificadas las implicaciones de transferencia de datos transfronteriza
- Determinados los requisitos de pista de auditoría para el marco regulatorio aplicable
- Evaluadas las obligaciones de retención y destrucción de datos
- Identificados requisitos de gobernanza de IA específicos de la industria (ej., PCAOB para auditoría, SR 11-7 para banca)
- Confirmado que el equipo de cumplimiento está al tanto y comprometido con el proyecto de IA
5. Evaluación de Infraestructura
- Determinado el modelo de despliegue: nube, on-premise o air-gapped
- Evaluados los recursos de cómputo on-premise existentes (disponibilidad de GPU, capacidad de almacenamiento)
- Evaluadas las restricciones de red (¿pueden los datos salir del edificio? ¿del segmento de red?)
- Identificados requisitos air-gapped (redes clasificadas, entornos de producción aislados)
- Evaluado si la infraestructura de TI existente puede soportar cargas de trabajo de preparación de datos
- Determinado si existe infraestructura Docker/K8s o si se prefieren herramientas de escritorio nativas
- Evaluadas las capacidades de respaldo y recuperación ante desastres para datos de entrenamiento de IA
6. Equipo y Experiencia
- Identificado quién tiene experiencia en ML/ingeniería de datos (o necesidad de contratar)
- Identificados expertos de dominio que participarán en el etiquetado (doctores, abogados, ingenieros, contadores)
- Evaluada la disponibilidad de expertos de dominio (¿pueden dedicar tiempo al etiquetado?)
- Determinado si los expertos de dominio pueden usar las herramientas de etiquetado propuestas (¿las herramientas requieren Python?)
- Identificado quién será responsable del proyecto de IA de principio a fin
- Evaluado si el personal de cumplimiento/legal necesita estar involucrado en la preparación de datos
- Determinadas las necesidades de capacitación para miembros del equipo no familiarizados con flujos de trabajo de IA
7. Definición del Caso de Uso
- Definida la aplicación específica de IA (no "usar IA" sino "clasificar reclamos entrantes por severidad")
- Identificado el usuario objetivo del sistema de IA (¿quién usará la salida?)
- Determinados los requisitos de precisión (¿cuál es la tasa de error aceptable?)
- Definidas las métricas de éxito (¿cómo medirás si la IA está funcionando?)
- Evaluado si el caso de uso requiere aprendizaje supervisado (datos etiquetados) o puede usar enfoques no supervisados/RAG
- Estimado el volumen de ejemplos etiquetados necesarios (¿cientos? ¿miles? ¿decenas de miles?)
- Identificado el formato de salida que el modelo necesita producir
8. Selección de Herramientas
- Evaluadas herramientas de preparación de datos contra requisitos de despliegue (on-premise, air-gapped)
- Evaluado si las herramientas soportan el pipeline completo o requieren integración de múltiples herramientas
- Confirmado que las herramientas generan pistas de auditoría que satisfacen requisitos regulatorios
- Verificado que las herramientas son accesibles para expertos de dominio (no solo ingenieros de ML)
- Evaluado el soporte de formatos de exportación (JSONL, COCO/YOLO, CSV, texto chunkeado)
- Evaluada la viabilidad del proveedor y modelo de soporte
- Confirmado que las herramientas funcionan con tus tipos y volúmenes de datos
9. Cronograma y Presupuesto
- Estimado el cronograma de preparación de datos (típicamente 60-80% del tiempo total del proyecto)
- Presupuestado el tiempo de expertos de dominio (horas de etiquetado, ciclos de revisión)
- Presupuestada la infraestructura (cómputo, almacenamiento, herramientas)
- Presupuestada la posible remediación de datos (mejora de OCR, conversión de formato)
- Identificadas dependencias y bloqueadores (aprobaciones de cumplimiento, acceso a datos, disponibilidad de expertos)
- Establecidos hitos realistas con la preparación de datos como ruta crítica
10. Evaluación de Riesgos
- Identificado qué sucede si la calidad de datos es peor de lo esperado
- Planificados ajustes de alcance (comenzar más pequeño si es necesario)
- Evaluado el riesgo de proveedor/herramienta (¿qué pasa si la herramienta no funciona con tus datos?)
- Considerado el riesgo regulatorio (¿qué pasa si los requisitos cambian durante el proyecto?)
- Planificado el riesgo de rendimiento del modelo (¿qué pasa si los resultados no cumplen los requisitos de precisión?)
- Documentado el plan de contingencia (¿qué haces si el proyecto no funciona?)
Cómo Usar Este Checklist
Califica cada sección:
- Verde (Listo): Todos los ítems marcados, sin brechas significativas
- Amarillo (Factible): La mayoría de ítems marcados, las brechas son abordables con esfuerzo planificado
- Rojo (No Listo): Brechas importantes que deben resolverse antes de proceder
Umbral recomendado: No más de 2 secciones en rojo. Cualquier rojo en las secciones 3, 4 o 5 (privacidad, cumplimiento, infraestructura) debe resolverse antes de comenzar.
Qué Viene Después
Una vez que este checklist esté completo, tendrás una imagen clara de si tu organización está lista para iniciar un proyecto de IA en un entorno regulado. La salida del checklist alimenta directamente la planificación del proyecto — cronograma, presupuesto, asignación de recursos y selección de herramientas.
Para la fase de preparación de datos en sí, Ertas Data Suite maneja el pipeline desde la ingestión hasta la exportación, on-premise, con pistas de auditoría integradas y documentación de cumplimiento. Pero la evaluación de preparación viene primero — conoce tu punto de partida antes de planificar el viaje.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

EU AI Act Article 10 vs. Article 30: What Your Data Team Needs to Know
A detailed comparison of EU AI Act Articles 10 and 30 — the two most critical provisions for AI training data governance, documentation, and compliance.

EU AI Act Data Governance Checklist for High-Risk AI Systems
An actionable checklist covering data quality, bias detection, documentation, audit trails, and monitoring obligations for high-risk AI systems under the EU AI Act.

EU AI Act Training Data Compliance: The Complete Guide (2026)
Everything enterprises need to know about EU AI Act training data requirements — data quality, bias testing, documentation mandates, and the August 2026 deadline.