
Cómo construir un pipeline de redacción de PII para datos de entrenamiento de IA
Guía paso a paso para construir un pipeline de redacción de PII en las instalaciones que maneja correos electrónicos, teléfonos, SSN, direcciones e identificadores médicos — antes de que los datos entren a pipelines de entrenamiento de IA o RAG. Cumple con GDPR e HIPAA.
Un pipeline de redacción de PII es un flujo de trabajo automatizado de procesamiento de datos que detecta y elimina información de identificación personal de documentos antes de que esos datos entren en un conjunto de datos de entrenamiento de IA o en un sistema de generación aumentada por recuperación (RAG). Importa porque los modelos de IA entrenados con datos sin redactar pueden memorizar y reproducir PII — una violación de GDPR, HIPAA y la Ley de IA de la UE que crea exposición legal tanto para el proveedor de servicios como para el cliente final.
Tipos de PII: qué necesita ser redactado
No todo el PII tiene el mismo peso regulatorio. La siguiente tabla mapea los tipos comunes de PII a los marcos regulatorios y proporciona ejemplos concretos de lo que debe cubrir la detección.
| Tipo de PII | Ejemplos | Referencia regulatoria |
|---|---|---|
| Direcciones de correo electrónico | usuario@ejemplo.com, nombre.apellido@empresa.org | GDPR Art. 4, HIPAA Safe Harbor |
| Números de teléfono | +1-555-867-5309, (800) 555-0100, formatos internacionales | GDPR Art. 4, HIPAA Safe Harbor |
| Números de Seguro Social | 123-45-6789, 123456789 | HIPAA Safe Harbor, leyes estatales de privacidad de EE. UU. |
| Direcciones postales | 123 Calle Principal, Apt 4B, Ciudad, Estado CP | GDPR Art. 4, HIPAA Safe Harbor |
| Identificadores de registros médicos | MRN-00123456, formatos de ID de paciente | HIPAA Safe Harbor (18 identificadores) |
| Identificadores financieros | Números de tarjetas de crédito, IBAN, números de cuenta | PCI DSS, GDPR Art. 9 |
| Nombres | Nombres completos en contexto, combinados con otros datos | GDPR Art. 4 (contextual) |
| Direcciones IP | 192.168.1.1, direcciones IPv6 | GDPR (identifica directamente dispositivo/persona) |
| Fechas de nacimiento | 15/01/1985, 15 de enero de 1985 | HIPAA Safe Harbor |
Para datos de salud específicamente, el método Safe Harbor de HIPAA requiere la eliminación de las 18 categorías de información de salud protegida (PHI) antes de que los datos puedan considerarse desidentificados. Para los ciudadanos de la UE, el GDPR exige que los datos personales sean eliminados o seudonimizados hasta un estándar que haga inviable la reidentificación.
Paso a paso: construir el pipeline de redacción de PII
Los siguientes pasos usan los nombres de nodos de Ertas Data Suite directamente. Cada paso corresponde a uno o más nodos en el lienzo del pipeline.
Paso 1: Nodo de importación de archivos — cargar documentos fuente
Configura el nodo de Importación de archivos para apuntar a tu directorio de documentos fuente. Para proyectos empresariales, esto es típicamente un recurso compartido de red, una unidad montada en el sistema del cliente o una carpeta local.
Configuraciones clave:
- Ruta de origen: Directorio que contiene documentos sin procesar
- Escaneo recursivo: Habilitar para procesar subdirectorios
- Filtro de tipo de archivo: Establecer en los formatos presentes en el archivo del cliente (PDF, DOCX, XLSX, TXT)
- Tamaño del lote: Configurar según la memoria disponible — 500–1000 documentos por lote es típico para archivos mixtos de PDF/Word
El nodo de importación de archivos pone en cola los documentos para el procesamiento posterior y pasa metadatos del archivo (ruta, nombre, tamaño, tipo) junto con el contenido sin procesar.
Paso 2: Analizar los documentos
Enruta cada archivo al nodo de analizador apropiado según el tipo:
Analizador PDF (integración con Docling) — maneja PDFs nativos con texto incrustado y PDFs escaneados mediante OCR. La extracción con conciencia del diseño preserva la estructura de tablas y los diseños multicolumna. Para documentos escaneados, configura el umbral de confianza de OCR — los registros por debajo del umbral son marcados por el Puntuador de calidad en el Paso 4.
Analizador Word — extrae texto de archivos .docx, preservando la estructura de secciones y el contenido de encabezados/pies de página donde estén presentes.
Analizador Excel — maneja archivos .xlsx, aplanando datos de hojas de cálculo en registros de texto a nivel de fila. Las referencias de celdas se resuelven antes de la detección de PII.
Después del análisis, todos los documentos entran al pipeline como registros de texto estructurado independientemente de su formato original.
Paso 3: Nodo PII Redactor — configurar tipos de entidades y método de redacción
El nodo PII Redactor es el núcleo del pipeline. Configúralo para el proyecto específico con el cliente:
Tipos de entidades a detectar — selecciona de las categorías disponibles:
EMAIL— direcciones de correo electrónicoPHONE— números de teléfono (formatos de EE. UU. e internacionales)SSN— Números de Seguro SocialADDRESS— direcciones postalesMEDICAL_ID— números de registro médico e identificadores de pacienteFINANCIAL— números de tarjetas de crédito, IBAN, números de cuenta bancariaPERSON_NAME— nombres completos (detección contextual)DATE_OF_BIRTH— fechas de nacimiento en formatos comunesIP_ADDRESS— direcciones IPv4 e IPv6
Método de redacción — tres opciones:
- Enmascarar: Reemplazar el PII detectado con una etiqueta (por ejemplo,
[EMAIL],[PHONE]). Preserva la estructura del documento y deja claro dónde ocurrió la redacción. Recomendado para datos de entrenamiento donde importa el recuento de tokens. - Reemplazar: Sustituir el PII detectado con marcadores de posición sintéticos (por ejemplo,
usuario@ejemplo.comse convierte encontacto@empresa.net). Útil cuando los modelos posteriores necesitan ejemplos de aspecto realista. - Eliminar: Borrar el PII detectado y el contexto circundante por completo. El más agresivo; usar para datos de mayor sensibilidad.
Umbral de confianza — establece la confianza mínima de detección (predeterminado 0.85). Los registros donde el PII se detecta por debajo de este umbral se marcan para revisión humana en lugar de ser redactados automáticamente.
Paso 4: Puntuador de calidad — verificar la completitud de la redacción
El nodo Puntuador de calidad ejecuta una verificación posterior a la redacción en cada documento procesado:
- Escaneo de PII residual: Vuelve a ejecutar la detección a un umbral de confianza más bajo para detectar cualquier PII que la redacción principal pueda haber omitido
- Puntuación de completitud: Calcula una puntuación de calidad por documento (0–1.0) basada en la confianza de detección, la cobertura y cualquier anomalía marcada
- Umbral de marcado: Los documentos por debajo de la puntuación configurada (predeterminado 0.90) se enrutan a una cola de revisión en lugar del paso de exportación
Los documentos que pasan el Puntuador de calidad proceden a la exportación. Los documentos que fallan se registran con su razón de fallo específica y se retienen para revisión humana o reprocesamiento.
Este paso es lo que te permite decirle a un cliente de industria regulada: "Cada documento en tu conjunto de datos de entrenamiento fue verificado para la completitud de PII, y cualquier documento que no cumplió el umbral de calidad fue revisado antes de su inclusión."
Paso 5: Exportar datos limpios y redactados
Elige el nodo de exportación apropiado según tu caso de uso posterior:
Exportador JSONL — genera un objeto JSON por línea en el formato requerido por la mayoría de los marcos de ajuste fino. Cada registro incluye el texto redactado, los metadatos del documento y la puntuación de calidad asignada en el Paso 4.
Exportador RAG — genera documentos redactados y fragmentados formateados para ingesta en una base de datos vectorial. Configura el tamaño del fragmento (tokens) y el solapamiento para que coincida con los requisitos de tu sistema de recuperación.
Ambos nodos de exportación añaden una entrada de registro de procesamiento para cada documento, registrando: ruta del archivo fuente, analizador utilizado, tipos de PII detectados, método de redacción aplicado, puntuación de calidad y marca de tiempo de exportación. Este registro es el rastro de auditoría.
Comparación: enfoques para la redacción de PII
| Criterio | Redacción manual | Scripts regex | API de redacción en la nube | Pipeline de Ertas |
|---|---|---|---|---|
| Precisión | Variable — error humano | Media — omite PII contextual | Alta — pero dependiente de la nube | Alta — confianza configurable |
| Velocidad (10K documentos) | Semanas | Horas | Horas | Horas |
| Rastro de auditoría | Ninguno (manual) | Ninguno (a menos que se registre) | Registros del proveedor | Integrado, exportable |
| Despliegue local | N/A | Sí | No | Sí |
| Escalabilidad | Baja | Media | Alta (nube) | Alta (local) |
La columna crítica para los clientes de industrias reguladas es Despliegue local. Una API de redacción en la nube procesa datos en los servidores del proveedor — para datos cubiertos por HIPAA, esto requiere un Acuerdo de Asociado de Negocios e introduce preguntas de residencia de datos. Para el PII de ciudadanos de la UE, introduce complicaciones de transferencia transfronteriza bajo GDPR.
La ejecución local elimina ambas. Los datos nunca salen del perímetro de red del cliente.
Consideraciones de conformidad
GDPR
Bajo el Artículo 4 del GDPR, los datos personales incluyen cualquier información relativa a una persona física identificada o identificable. El Artículo 25 (protección de datos por diseño) requiere que los sistemas que procesan datos personales implementen medidas técnicas apropiadas desde el principio. Un pipeline de redacción de PII que se ejecuta antes de que los datos entren al entrenamiento es una implementación directa de este principio.
El GDPR no especifica un método de redacción particular — el enmascaramiento, el reemplazo y la eliminación satisfacen el requisito si el resultado es que la reidentificación no es razonablemente posible. El rastro de auditoría generado por el pipeline proporciona evidencia de conformidad para las consultas de las autoridades supervisoras.
HIPAA
El método de desidentificación Safe Harbor de HIPAA requiere la eliminación de las 18 categorías de PHI. El nodo PII Redactor cubre las 18 categorías cuando está completamente configurado. La verificación posterior a la redacción del Puntuador de calidad proporciona el estándar de "ningún conocimiento real" requerido por HIPAA — el sistema de procesamiento verifica activamente que no quede PHI por encima del umbral.
Ley de IA de la UE
El Artículo 10 de la Ley de IA de la UE requiere que los datos de entrenamiento para sistemas de IA de alto riesgo estén sujetos a prácticas apropiadas de gobernanza de datos, incluido el examen de sesgos y errores. Los datos que incluyen PII sin redactar representan tanto un error (inclusión de datos que no deberían estar presentes) como un riesgo de sesgo (los modelos pueden aprender asociaciones que involucran características personales). La redacción de PII es una acción de conformidad directa bajo el Artículo 10.
Preguntas frecuentes
¿La redacción de PII ocurre antes o después del análisis?
La redacción ocurre después del análisis. El analizador (Analizador PDF, Analizador Word, etc.) debe primero extraer el texto sin procesar del documento fuente antes de que el PII Redactor pueda detectar y eliminar información sensible. No puedes ejecutar redacción en un archivo PDF binario — la ejecutas en el texto extraído de ese archivo. El pipeline impone este orden: Importación de archivos → Analizador → PII Redactor → Puntuador de calidad → Exportador.
¿Puedo personalizar qué tipos de PII se redactan?
Sí. El nodo PII Redactor tiene un interruptor por tipo de entidad. Puedes habilitar o deshabilitar categorías individuales (EMAIL, PHONE, SSN, etc.) según el contexto regulatorio del cliente. Por ejemplo, un cliente de servicios financieros puede requerir la redacción de identificadores financieros y SSN pero no de direcciones IP. Un cliente de salud requerirá las 18 categorías de PHI de HIPAA. La configuración se guarda como parte de la plantilla del pipeline, por lo que puedes mantener plantillas específicas del cliente para diferentes contextos regulatorios.
¿La redacción se registra para fines de auditoría?
Sí. Cada documento procesado a través del pipeline genera una entrada de registro que registra: la ruta del archivo fuente, qué tipos de PII se detectaron, el método de redacción aplicado, las puntuaciones de confianza para cada detección, la puntuación de calidad asignada por el Puntuador de calidad y la marca de tiempo. El registro completo de ejecución del pipeline es exportable como JSON o CSV. Este registro es el artefacto de evidencia principal para las auditorías de conformidad.
¿Funciona con PDFs escaneados?
Sí. El nodo Analizador PDF usa OCR para documentos escaneados. Para PDFs escaneados, primero se aplica OCR para extraer texto legible por máquina, que luego fluye al PII Redactor. El texto extraído por OCR lleva una puntuación de confianza; los documentos donde la confianza de OCR cae por debajo del umbral son marcados por el Puntuador de calidad. En la práctica, los escaneos limpios en blanco y negro se procesan bien; los escaneos de baja calidad o muy anotados pueden requerir revisión manual para un subconjunto de páginas.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Best RAG Pipeline With Built-In PII Redaction: Why Retrieval Without Redaction Is a Compliance Risk
Most RAG pipelines index raw documents with PII still intact. Once sensitive data is embedded in a vector store, it is retrievable by any query. Learn how to build a GDPR-safe RAG pipeline with PII redaction before embedding.

On-Premise PII and PHI Redaction Workflows for Multi-Industry Service Providers
Technical guide to building on-premise PII/PHI redaction pipelines that handle healthcare, legal, financial, and government data without cloud dependencies.

The Real Cost of Cloud Data Prep in Regulated Industries (2026)
Cloud data prep tools require compliance approvals that cost $50K–$150K and take 6–18 months. On-premise alternatives eliminate these costs entirely. Here's the TCO comparison regulated industries need.