Ertas para Pipelines de Redacción de PII
Construye pipelines de redacción de PII on-premise que manejan correo electrónico, teléfono, SSN, direcciones e IDs médicos — con traza de auditoría completa y registro de cumplimiento. Diseñado para equipos de AI/ML que preparan datos de entrenamiento a partir de documentos empresariales sensibles.
The Challenge
Las organizaciones que manejan datos de clientes para proyectos de AI/ML deben redactar la PII antes de cualquier entrenamiento de modelos o ingestión en RAG. La redacción manual es lenta y propensa a errores. Los scripts basados en expresiones regulares omiten casos extremos. Las herramientas de redacción en la nube requieren una salida de datos que los clientes regulados prohíben.
The Solution
El nodo PII Redactor de Ertas Data Suite maneja correo electrónico, teléfono, SSN, direcciones e IDs médicos de forma determinista. Se ejecuta como parte de un pipeline visual — Importación de Archivos → Analizador → Redactor PII → Puntuador de Calidad → Exportador. Cada redacción se registra con marca de tiempo e ID del operador. Completamente on-prem.
Key Features
Detección de Entidades PII Configurable
Selecciona los tipos de entidades a detectar y elige el método de redacción — enmascarar, reemplazar o eliminar. Configura por pipeline para cumplir los requisitos de cumplimiento del cliente.
Redacción Integrada en el Pipeline
La redacción de PII como nodo en el pipeline visual, no como una herramienta independiente. Encadena con nodos de análisis, puntuación de calidad y exportación para flujos de trabajo de extremo a extremo.
Traza de Auditoría de Redacción
Cada entidad detectada y redactada se registra — tipo de entidad, ubicación, método de redacción, marca de tiempo y operador. Exportable para verificación de cumplimiento.
Verificación de Calidad
El nodo Quality Scorer downstream verifica la completitud de la redacción. Los documentos con posible PII omitida se marcan para revisión manual antes de la exportación.
Example Workflow
Un proveedor de servicios recibe documentos sanitarios del cliente para el entrenamiento de un modelo de NLP clínico. Construye un pipeline en Ertas Data Suite: Importación de Archivos → Analizador PDF → Redactor PII (configurado para IDs médicos, nombres de pacientes, direcciones) → Puntuador de Calidad → Exportador JSONL. El pipeline procesa 10.000 documentos en la estación de trabajo on-prem del cliente. La traza de auditoría se exporta al equipo de cumplimiento del cliente mostrando cada decisión de redacción. El JSONL limpio y anonimizado está listo para el entrenamiento del modelo de NLP clínico.
Compliance & Security
El Redactor PII soporta la minimización de datos requerida por el RGPD, el método de de-identificación Safe Harbor de la HIPAA y la documentación de gobernanza de datos del Artículo 30 de la Ley de IA de la UE. Todo el procesamiento se ejecuta on-prem sin salida de datos.
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.