Back to blog
    Cómo construir un pipeline de redacción de PII para datos de entrenamiento de IA
    pii-redactiondata-preparationcompliancegdprhipaadata-pipeline

    Cómo construir un pipeline de redacción de PII para datos de entrenamiento de IA

    Guía paso a paso para construir un pipeline de redacción de PII en las instalaciones que maneja correos electrónicos, teléfonos, SSN, direcciones e identificadores médicos — antes de que los datos entren a pipelines de entrenamiento de IA o RAG. Cumple con GDPR e HIPAA.

    EErtas Team·

    Un pipeline de redacción de PII es un flujo de trabajo automatizado de procesamiento de datos que detecta y elimina información de identificación personal de documentos antes de que esos datos entren en un conjunto de datos de entrenamiento de IA o en un sistema de generación aumentada por recuperación (RAG). Importa porque los modelos de IA entrenados con datos sin redactar pueden memorizar y reproducir PII — una violación de GDPR, HIPAA y la Ley de IA de la UE que crea exposición legal tanto para el proveedor de servicios como para el cliente final.

    Tipos de PII: qué necesita ser redactado

    No todo el PII tiene el mismo peso regulatorio. La siguiente tabla mapea los tipos comunes de PII a los marcos regulatorios y proporciona ejemplos concretos de lo que debe cubrir la detección.

    Tipo de PIIEjemplosReferencia regulatoria
    Direcciones de correo electrónicousuario@ejemplo.com, nombre.apellido@empresa.orgGDPR Art. 4, HIPAA Safe Harbor
    Números de teléfono+1-555-867-5309, (800) 555-0100, formatos internacionalesGDPR Art. 4, HIPAA Safe Harbor
    Números de Seguro Social123-45-6789, 123456789HIPAA Safe Harbor, leyes estatales de privacidad de EE. UU.
    Direcciones postales123 Calle Principal, Apt 4B, Ciudad, Estado CPGDPR Art. 4, HIPAA Safe Harbor
    Identificadores de registros médicosMRN-00123456, formatos de ID de pacienteHIPAA Safe Harbor (18 identificadores)
    Identificadores financierosNúmeros de tarjetas de crédito, IBAN, números de cuentaPCI DSS, GDPR Art. 9
    NombresNombres completos en contexto, combinados con otros datosGDPR Art. 4 (contextual)
    Direcciones IP192.168.1.1, direcciones IPv6GDPR (identifica directamente dispositivo/persona)
    Fechas de nacimiento15/01/1985, 15 de enero de 1985HIPAA Safe Harbor

    Para datos de salud específicamente, el método Safe Harbor de HIPAA requiere la eliminación de las 18 categorías de información de salud protegida (PHI) antes de que los datos puedan considerarse desidentificados. Para los ciudadanos de la UE, el GDPR exige que los datos personales sean eliminados o seudonimizados hasta un estándar que haga inviable la reidentificación.

    Paso a paso: construir el pipeline de redacción de PII

    Los siguientes pasos usan los nombres de nodos de Ertas Data Suite directamente. Cada paso corresponde a uno o más nodos en el lienzo del pipeline.

    Paso 1: Nodo de importación de archivos — cargar documentos fuente

    Configura el nodo de Importación de archivos para apuntar a tu directorio de documentos fuente. Para proyectos empresariales, esto es típicamente un recurso compartido de red, una unidad montada en el sistema del cliente o una carpeta local.

    Configuraciones clave:

    • Ruta de origen: Directorio que contiene documentos sin procesar
    • Escaneo recursivo: Habilitar para procesar subdirectorios
    • Filtro de tipo de archivo: Establecer en los formatos presentes en el archivo del cliente (PDF, DOCX, XLSX, TXT)
    • Tamaño del lote: Configurar según la memoria disponible — 500–1000 documentos por lote es típico para archivos mixtos de PDF/Word

    El nodo de importación de archivos pone en cola los documentos para el procesamiento posterior y pasa metadatos del archivo (ruta, nombre, tamaño, tipo) junto con el contenido sin procesar.

    Paso 2: Analizar los documentos

    Enruta cada archivo al nodo de analizador apropiado según el tipo:

    Analizador PDF (integración con Docling) — maneja PDFs nativos con texto incrustado y PDFs escaneados mediante OCR. La extracción con conciencia del diseño preserva la estructura de tablas y los diseños multicolumna. Para documentos escaneados, configura el umbral de confianza de OCR — los registros por debajo del umbral son marcados por el Puntuador de calidad en el Paso 4.

    Analizador Word — extrae texto de archivos .docx, preservando la estructura de secciones y el contenido de encabezados/pies de página donde estén presentes.

    Analizador Excel — maneja archivos .xlsx, aplanando datos de hojas de cálculo en registros de texto a nivel de fila. Las referencias de celdas se resuelven antes de la detección de PII.

    Después del análisis, todos los documentos entran al pipeline como registros de texto estructurado independientemente de su formato original.

    Paso 3: Nodo PII Redactor — configurar tipos de entidades y método de redacción

    El nodo PII Redactor es el núcleo del pipeline. Configúralo para el proyecto específico con el cliente:

    Tipos de entidades a detectar — selecciona de las categorías disponibles:

    • EMAIL — direcciones de correo electrónico
    • PHONE — números de teléfono (formatos de EE. UU. e internacionales)
    • SSN — Números de Seguro Social
    • ADDRESS — direcciones postales
    • MEDICAL_ID — números de registro médico e identificadores de paciente
    • FINANCIAL — números de tarjetas de crédito, IBAN, números de cuenta bancaria
    • PERSON_NAME — nombres completos (detección contextual)
    • DATE_OF_BIRTH — fechas de nacimiento en formatos comunes
    • IP_ADDRESS — direcciones IPv4 e IPv6

    Método de redacción — tres opciones:

    • Enmascarar: Reemplazar el PII detectado con una etiqueta (por ejemplo, [EMAIL], [PHONE]). Preserva la estructura del documento y deja claro dónde ocurrió la redacción. Recomendado para datos de entrenamiento donde importa el recuento de tokens.
    • Reemplazar: Sustituir el PII detectado con marcadores de posición sintéticos (por ejemplo, usuario@ejemplo.com se convierte en contacto@empresa.net). Útil cuando los modelos posteriores necesitan ejemplos de aspecto realista.
    • Eliminar: Borrar el PII detectado y el contexto circundante por completo. El más agresivo; usar para datos de mayor sensibilidad.

    Umbral de confianza — establece la confianza mínima de detección (predeterminado 0.85). Los registros donde el PII se detecta por debajo de este umbral se marcan para revisión humana en lugar de ser redactados automáticamente.

    Paso 4: Puntuador de calidad — verificar la completitud de la redacción

    El nodo Puntuador de calidad ejecuta una verificación posterior a la redacción en cada documento procesado:

    • Escaneo de PII residual: Vuelve a ejecutar la detección a un umbral de confianza más bajo para detectar cualquier PII que la redacción principal pueda haber omitido
    • Puntuación de completitud: Calcula una puntuación de calidad por documento (0–1.0) basada en la confianza de detección, la cobertura y cualquier anomalía marcada
    • Umbral de marcado: Los documentos por debajo de la puntuación configurada (predeterminado 0.90) se enrutan a una cola de revisión en lugar del paso de exportación

    Los documentos que pasan el Puntuador de calidad proceden a la exportación. Los documentos que fallan se registran con su razón de fallo específica y se retienen para revisión humana o reprocesamiento.

    Este paso es lo que te permite decirle a un cliente de industria regulada: "Cada documento en tu conjunto de datos de entrenamiento fue verificado para la completitud de PII, y cualquier documento que no cumplió el umbral de calidad fue revisado antes de su inclusión."

    Paso 5: Exportar datos limpios y redactados

    Elige el nodo de exportación apropiado según tu caso de uso posterior:

    Exportador JSONL — genera un objeto JSON por línea en el formato requerido por la mayoría de los marcos de ajuste fino. Cada registro incluye el texto redactado, los metadatos del documento y la puntuación de calidad asignada en el Paso 4.

    Exportador RAG — genera documentos redactados y fragmentados formateados para ingesta en una base de datos vectorial. Configura el tamaño del fragmento (tokens) y el solapamiento para que coincida con los requisitos de tu sistema de recuperación.

    Ambos nodos de exportación añaden una entrada de registro de procesamiento para cada documento, registrando: ruta del archivo fuente, analizador utilizado, tipos de PII detectados, método de redacción aplicado, puntuación de calidad y marca de tiempo de exportación. Este registro es el rastro de auditoría.

    Comparación: enfoques para la redacción de PII

    CriterioRedacción manualScripts regexAPI de redacción en la nubePipeline de Ertas
    PrecisiónVariable — error humanoMedia — omite PII contextualAlta — pero dependiente de la nubeAlta — confianza configurable
    Velocidad (10K documentos)SemanasHorasHorasHoras
    Rastro de auditoríaNinguno (manual)Ninguno (a menos que se registre)Registros del proveedorIntegrado, exportable
    Despliegue localN/ANo
    EscalabilidadBajaMediaAlta (nube)Alta (local)

    La columna crítica para los clientes de industrias reguladas es Despliegue local. Una API de redacción en la nube procesa datos en los servidores del proveedor — para datos cubiertos por HIPAA, esto requiere un Acuerdo de Asociado de Negocios e introduce preguntas de residencia de datos. Para el PII de ciudadanos de la UE, introduce complicaciones de transferencia transfronteriza bajo GDPR.

    La ejecución local elimina ambas. Los datos nunca salen del perímetro de red del cliente.

    Consideraciones de conformidad

    GDPR

    Bajo el Artículo 4 del GDPR, los datos personales incluyen cualquier información relativa a una persona física identificada o identificable. El Artículo 25 (protección de datos por diseño) requiere que los sistemas que procesan datos personales implementen medidas técnicas apropiadas desde el principio. Un pipeline de redacción de PII que se ejecuta antes de que los datos entren al entrenamiento es una implementación directa de este principio.

    El GDPR no especifica un método de redacción particular — el enmascaramiento, el reemplazo y la eliminación satisfacen el requisito si el resultado es que la reidentificación no es razonablemente posible. El rastro de auditoría generado por el pipeline proporciona evidencia de conformidad para las consultas de las autoridades supervisoras.

    HIPAA

    El método de desidentificación Safe Harbor de HIPAA requiere la eliminación de las 18 categorías de PHI. El nodo PII Redactor cubre las 18 categorías cuando está completamente configurado. La verificación posterior a la redacción del Puntuador de calidad proporciona el estándar de "ningún conocimiento real" requerido por HIPAA — el sistema de procesamiento verifica activamente que no quede PHI por encima del umbral.

    Ley de IA de la UE

    El Artículo 10 de la Ley de IA de la UE requiere que los datos de entrenamiento para sistemas de IA de alto riesgo estén sujetos a prácticas apropiadas de gobernanza de datos, incluido el examen de sesgos y errores. Los datos que incluyen PII sin redactar representan tanto un error (inclusión de datos que no deberían estar presentes) como un riesgo de sesgo (los modelos pueden aprender asociaciones que involucran características personales). La redacción de PII es una acción de conformidad directa bajo el Artículo 10.

    Preguntas frecuentes

    ¿La redacción de PII ocurre antes o después del análisis?

    La redacción ocurre después del análisis. El analizador (Analizador PDF, Analizador Word, etc.) debe primero extraer el texto sin procesar del documento fuente antes de que el PII Redactor pueda detectar y eliminar información sensible. No puedes ejecutar redacción en un archivo PDF binario — la ejecutas en el texto extraído de ese archivo. El pipeline impone este orden: Importación de archivos → Analizador → PII Redactor → Puntuador de calidad → Exportador.

    ¿Puedo personalizar qué tipos de PII se redactan?

    Sí. El nodo PII Redactor tiene un interruptor por tipo de entidad. Puedes habilitar o deshabilitar categorías individuales (EMAIL, PHONE, SSN, etc.) según el contexto regulatorio del cliente. Por ejemplo, un cliente de servicios financieros puede requerir la redacción de identificadores financieros y SSN pero no de direcciones IP. Un cliente de salud requerirá las 18 categorías de PHI de HIPAA. La configuración se guarda como parte de la plantilla del pipeline, por lo que puedes mantener plantillas específicas del cliente para diferentes contextos regulatorios.

    ¿La redacción se registra para fines de auditoría?

    Sí. Cada documento procesado a través del pipeline genera una entrada de registro que registra: la ruta del archivo fuente, qué tipos de PII se detectaron, el método de redacción aplicado, las puntuaciones de confianza para cada detección, la puntuación de calidad asignada por el Puntuador de calidad y la marca de tiempo. El registro completo de ejecución del pipeline es exportable como JSON o CSV. Este registro es el artefacto de evidencia principal para las auditorías de conformidad.

    ¿Funciona con PDFs escaneados?

    Sí. El nodo Analizador PDF usa OCR para documentos escaneados. Para PDFs escaneados, primero se aplica OCR para extraer texto legible por máquina, que luego fluye al PII Redactor. El texto extraído por OCR lleva una puntuación de confianza; los documentos donde la confianza de OCR cae por debajo del umbral son marcados por el Puntuador de calidad. En la práctica, los escaneos limpios en blanco y negro se procesan bien; los escaneos de baja calidad o muy anotados pueden requerir revisión manual para un subconjunto de páginas.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading