
Benchmark de Precision de Redaccion de PII: Regex vs NER vs LLM vs Pipeline Hibrido
Benchmark que compara cinco enfoques de redaccion de PII: patrones regex, spaCy NER, transformer NER, basado en LLM y pipeline hibrido, midiendo precision, recall, puntuacion F1, velocidad y tasas de falsos positivos en 14 tipos de entidades.
La redaccion de PII es la etapa de mayor riesgo en cualquier pipeline de datos empresarial. Un error de parsing produce texto distorsionado. Un error de chunking degrada la calidad de recuperacion. Un fallo de redaccion de PII expone datos personales, lo que desencadena sanciones regulatorias, erosiona la confianza del cliente y genera responsabilidad legal.
A pesar de estos riesgos, la mayoria de los equipos seleccionan su enfoque de redaccion basandose en la conveniencia en lugar del rendimiento medido. Regex es rapido de implementar. Los modelos NER son faciles de importar. Los LLMs parecen capaces de todo. Pero, como se comparan realmente estos enfoques en las metricas que importan: precision, recall, tasa de falsos positivos y rendimiento.
Este benchmark proporciona la respuesta.
Enfoques Evaluados
Evaluamos cinco enfoques de redaccion de PII, cada uno representando una estrategia tecnica distinta:
Patrones Regex — coincidencia deterministica de patrones usando expresiones regulares para formatos de PII estructurados (SSN, numeros de telefono, direcciones de correo electronico, numeros de tarjetas de credito). Utilizamos una biblioteca de regex de grado de produccion con 47 patrones que cubren formatos de PII de EE.UU., Reino Unido y UE.
spaCy NER (en_core_web_trf) — el modelo de reconocimiento de entidades nombradas basado en transformers de spaCy, que identifica PERSON, ORG, GPE, DATE y otros tipos de entidades. Lo extendimos con reglas de entidades personalizadas para patrones especificos de PII.
Transformer NER (GLiNER) — un modelo NER generalista que acepta descripciones de tipos de entidades en tiempo de inferencia, permitiendo la deteccion zero-shot de categorias arbitrarias de PII sin fine-tuning. Probamos con prompts para los 14 tipos de entidades de PII.
Basado en LLM (clase GPT-4) — usando un modelo de lenguaje de frontera con un prompt estructurado que especifica categorias de PII y solicita anotaciones a nivel de entidad. Probamos con GPT-4o via API, reconociendo la ironia de enviar PII a una API en la nube para benchmarking de redaccion. En produccion, este enfoque usaria un LLM alojado localmente.
Pipeline Hibrido (Ertas) — un enfoque de dos pasadas: primero patrones regex para PII estructurado (SSN, telefono, correo electronico, tarjeta de credito), luego transformer NER para entidades contextuales (nombres, direcciones, terminos medicos, numeros de caso). El pipeline se ejecuta completamente on-premise sin dependencias de la nube.
Corpus de Prueba
Construimos un corpus de benchmark de 10,000 instancias de PII en 14 tipos de entidades, integradas en 1,200 documentos empresariales sinteticos:
| Tipo de Entidad | Cantidad | Ejemplos |
|---|---|---|
| Nombre de Persona | 1,500 | Nombres completos, nombres parciales, titulos con nombres |
| Direccion de Correo Electronico | 800 | Estandar, corporativo, ofuscado |
| Numero de Telefono | 800 | EE.UU., Reino Unido, internacional, extensiones |
| SSN | 600 | Estandar (XXX-XX-XXXX), sin guion, parcial |
| Direccion Fisica | 700 | Calle, apartado postal, apartamento, internacional |
| Fecha de Nacimiento | 500 | Multiples formatos de fecha |
| Tarjeta de Credito | 400 | Visa, Mastercard, Amex, con/sin espacios |
| Numero de Registro Medico | 400 | Formatos especificos de hospitales |
| Direccion IP | 300 | IPv4, IPv6, con contexto |
| Licencia de Conducir | 300 | Formatos especificos por estado |
| Numero de Pasaporte | 200 | Formatos de EE.UU., Reino Unido, UE |
| Cuenta Bancaria | 200 | Routing + cuenta, IBAN |
| Numero de Caso/Expediente | 200 | Legal, medico, seguros |
| Identificador Biometrico | 100 | IDs de dispositivos, referencias de registro |
Los documentos fueron disenados para incluir tanto PII obvio (campos independientes) como PII contextual (integrado en texto narrativo, tablas y notas al pie). Esto refleja documentos empresariales reales donde el PII aparece en ubicaciones esperadas y en contextos inesperados como firmas de correo electronico integradas en apendices de contratos.
La verdad de referencia fue anotada manualmente por dos revisores independientes con adjudicacion para desacuerdos.
Resultados del Benchmark
| Enfoque | Precision | Recall | Puntuacion F1 | Velocidad (docs/seg) | Tasa de Falsos Positivos |
|---|---|---|---|---|---|
| Patrones Regex | 99.1% | 72.4% | 83.9% | 145 | 0.9% |
| spaCy NER (en_core_web_trf) | 91.3% | 88.7% | 89.9% | 42 | 8.7% |
| Transformer NER (GLiNER) | 94.8% | 93.1% | 93.9% | 18 | 5.2% |
| Basado en LLM (clase GPT-4) | 96.2% | 95.8% | 96.0% | 2.1 | 3.8% |
| Pipeline Hibrido (Ertas) | 97.4% | 96.1% | 96.7% | 28 | 2.6% |
Analisis Detallado por Metrica
Precision: Lo que Marca, Es Realmente PII
La precision mide el porcentaje de elementos marcados que son genuinamente PII. Una precision baja significa que su sistema esta sobre-marcando, creando carga de revision y potencialmente redactando contenido que no es PII y que deberia preservarse.
Regex logro la precision mas alta (99.1%) porque la coincidencia de patrones produce muy pocos falsos positivos: si algo coincide con un patron de SSN, casi con certeza es un SSN. Los pocos falsos positivos provinieron de numeros que coinciden coincidentemente con patrones de PII (codigos de producto en formato SSN, por ejemplo).
spaCy tuvo la precision mas baja (91.3%) y la tasa de falsos positivos mas alta (8.7%). Su modelo de entidad PERSON frecuentemente marco nombres de organizaciones, nombres de productos y referencias de ubicacion como nombres de personas. "Washington" apareciendo como ciudad fue regularmente marcado como nombre de persona. "Amazon Web Services" activo las etiquetas PERSON y ORG de forma inconsistente.
El pipeline hibrido logro una precision del 97.4% al usar regex para patrones estructurados (donde la precision es inherentemente alta) y restringir transformer NER a tipos de entidades donde regex se queda corto (nombres, direcciones, referencias contextuales). Esta division del trabajo mantiene cada enfoque en su zona de fortaleza.
Recall: Del PII que Existe, Cuanto Detecto
El recall es la metrica critica para el cumplimiento normativo. El PII no detectado (falsos negativos) es el modo de fallo que desencadena acciones regulatorias.
El recall de regex fue solo del 72.4%, el mas bajo de todos los enfoques. Fallo en detectar tres categorias principales de PII casi por completo:
- Nombres de personas — ningun patron regex puede coincidir de forma confiable con la variedad infinita de nombres humanos
- Direcciones fisicas — los formatos de direccion son demasiado variables para la coincidencia deterministica de patrones
- Referencias contextuales — frases como "el paciente" o "mi cliente Sr. Johnson" requieren comprension del contexto, no coincidencia de patrones
Los enfoques basados en LLM lograron el recall mas alto (95.8%) porque los modelos de lenguaje comprenden el contexto. Identificaron correctamente PII en oraciones como "Por favor reenvie esto a Sarah en la oficina del centro" donde "Sarah" es PII pero ningun patron estructurado coincide.
El pipeline hibrido logro un recall del 96.1%, ligeramente superior al enfoque LLM, porque la pasada de regex captura patrones estructurados que el transformer NER ocasionalmente falla (SSNs sin guiones, numeros de telefono con extensiones), mientras que la pasada NER captura entidades contextuales que regex no puede coincidir. Las dos pasadas son complementarias en lugar de redundantes.
Desglose por Tipo de Entidad
Las puntuaciones F1 agregadas enmascaran una variacion significativa entre tipos de entidades:
| Tipo de Entidad | Regex F1 | spaCy F1 | GLiNER F1 | LLM F1 | Hibrido F1 |
|---|---|---|---|---|---|
| SSN | 99.2% | 82.1% | 94.3% | 97.8% | 99.4% |
| Correo Electronico | 99.5% | 78.4% | 91.2% | 96.1% | 99.5% |
| Telefono | 97.8% | 75.9% | 90.1% | 95.4% | 98.1% |
| Tarjeta de Credito | 98.9% | 71.3% | 88.7% | 94.2% | 99.0% |
| Nombre de Persona | 0.0% | 93.8% | 95.7% | 97.2% | 95.7% |
| Direccion | 12.4% | 87.3% | 92.8% | 96.3% | 93.1% |
| Registro Medico | 91.3% | 68.4% | 89.1% | 93.7% | 95.2% |
| Fecha de Nacimiento | 78.2% | 84.1% | 91.4% | 95.9% | 94.8% |
Este desglose revela el compromiso fundamental: regex domina las entidades estructuradas (SSN, correo electronico, telefono, tarjeta de credito) pero falla completamente en entidades contextuales (nombres de personas, direcciones). Los modelos NER manejan bien las entidades contextuales pero tienen un rendimiento inferior a regex en patrones estructurados.
El enfoque hibrido captura las fortalezas de ambos, logrando el F1 mas alto o cercano al mas alto para cada tipo de entidad.
Velocidad y Rendimiento
La velocidad de procesamiento determina si un enfoque de redaccion es viable para cargas de trabajo de produccion. Los pipelines de datos empresariales procesan miles a millones de documentos.
| Enfoque | Docs/seg | Tiempo para 100K docs | GPU Requerida |
|---|---|---|---|
| Regex | 145 | 11.5 minutos | No |
| spaCy NER | 42 | 39.7 minutos | Recomendada |
| GLiNER | 18 | 92.6 minutos | Si |
| LLM (clase GPT-4) | 2.1 | 13.2 horas | Si (o API) |
| Hibrido (Ertas) | 28 | 59.5 minutos | Recomendada |
El pipeline hibrido procesa 28 documentos por segundo, lo suficientemente rapido para el procesamiento por lotes de archivos empresariales pero no adecuado para redaccion en tiempo real por solicitud a alto volumen. La pasada de regex agrega latencia minima; la pasada de transformer NER es el cuello de botella del rendimiento.
La redaccion basada en LLM a 2.1 docs/seg es impractica para procesamiento por lotes a gran escala. Un archivo de 100,000 documentos tomaria mas de 13 horas. Es mas adecuada como pasada de verificacion en una muestra de documentos ya redactados que como mecanismo primario de redaccion.
Tasa de Falsos Positivos y Carga de Revision
Los falsos positivos crean costo operativo. Cada elemento marcado falsamente debe ser revisado por un humano si el pipeline de redaccion incluye un paso de revision, o redacta silenciosamente contenido que no es PII si no lo incluye.
Con la tasa de falsos positivos del 8.7% de spaCy, procesar 100,000 documentos con un promedio de 15 entidades marcadas por documento produciria aproximadamente 130,500 falsos positivos que requieren revision. Con la tasa del 2.6% del pipeline hibrido, ese numero baja a 39,000, una reduccion del 70% en la carga de revision.
Para pipelines completamente automatizados (sin revision humana), los falsos positivos significan perdida de informacion. Redactar un codigo de producto que coincide con un patron de numero de telefono, o redactar el nombre de una ciudad que coincide con un nombre de persona, degrada la calidad del documento para el procesamiento de IA posterior.
El Caso para Enfoques Hibridos
Los datos del benchmark apuntan claramente hacia arquitecturas hibridas como el enfoque optimo de produccion para la redaccion de PII. El razonamiento es directo:
El PII estructurado es un problema resuelto. Regex maneja SSNs, correos electronicos, numeros de telefono y tarjetas de credito con precision y recall casi perfectos. Usar NER o LLMs para estos tipos de entidades agrega latencia sin mejorar la precision.
El PII contextual requiere comprension. Nombres, direcciones y referencias contextuales no pueden ser capturados por coincidencia de patrones. Transformer NER proporciona la comprension semantica necesaria, con GLiNER y modelos similares logrando un F1 superior al 92% en tipos de entidades contextuales.
Las dos pasadas son complementarias. Regex captura lo que NER no detecta (formatos de SSN no estandar, extensiones de telefono), y NER captura lo que regex no puede intentar (nombres de personas, referencias contextuales). Ejecutar ambas pasadas en secuencia produce un resultado combinado que supera a cualquier enfoque por si solo.
Ertas implementa este enfoque hibrido en su nodo PII Redactor: la pasada de regex se ejecuta primero (deterministica, rapida, alta precision), luego la pasada de transformer NER procesa el texto restante para entidades contextuales. Ambas pasadas son visibles como sub-pasos en el pipeline, con puntuaciones de confianza por entidad registradas para fines de auditoria.
Recomendaciones por Caso de Uso
Industrias reguladas (salud, finanzas, legal): Use un enfoque hibrido con muestreo de revision humana. Apunte a un recall superior al 96% y una tasa de falsos positivos inferior al 3%. El costo del PII no detectado (sanciones regulatorias, notificacion de brechas) supera con creces el costo de la carga de revision por falsos positivos.
Proveedores de servicios que entregan a clientes empresariales: Use un enfoque hibrido con registro completo de auditoria. Los clientes en industrias reguladas requeriran evidencia de que la redaccion de PII se realizo sistematicamente. Las puntuaciones de confianza por entidad y los registros de procesamiento proporcionan esta evidencia.
Preparacion interna de datos de entrenamiento de IA: Use transformer NER (GLiNER o equivalente) si el presupuesto de revision es limitado. Su F1 del 93.9% con una tasa de falsos positivos del 5.2% proporciona un compromiso razonable entre precision y esfuerzo para equipos que no pueden implementar un pipeline hibrido completo.
Redaccion en tiempo real (por solicitud): Use solo regex. A 145 docs/seg, regex es el unico enfoque lo suficientemente rapido para procesamiento en tiempo real. Acepte la limitacion de recall del 72.4% y complemente con revision por lotes basada en NER en un calendario regular.
Notas Metodologicas
- Todos los benchmarks se ejecutaron en una unica estacion de trabajo (Intel i9-13900K, 64GB RAM, RTX 4090).
- spaCy uso el modelo en_core_web_trf (basado en transformers, la variante mas precisa).
- GLiNER uso el checkpoint gliner-large-v2.5.
- Los benchmarks de LLM usaron GPT-4o via API con prompting de salida estructurada. La latencia incluye el tiempo de ida y vuelta de la API.
- El pipeline hibrido (Ertas) se ejecuto completamente de forma local sin llamadas a APIs.
- Los tipos de entidades siguen el marco de desidentificacion NIST SP 800-188, extendido con identificadores medicos y legales.
- La tasa de falsos positivos se calcula como falsos positivos divididos entre (verdaderos negativos mas falsos positivos).
Para el benchmark completo del pipeline de datos empresariales incluyendo etapas de parsing, chunking y embedding, consulte nuestro informe de benchmark integral.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Enterprise Data Pipeline Benchmark Report 2026: Parsing, Redaction, Chunking, and Embedding Compared
A comprehensive benchmark comparing enterprise data pipeline approaches across document parsing accuracy, PII redaction reliability, chunking strategies, and embedding throughput — with methodology, results, and key findings for ML engineering teams.

PDF Parsing Accuracy Benchmark: Docling vs Unstructured vs Marker vs Visual Pipeline
Head-to-head benchmark comparing PDF parsing tools for AI training data — Docling (IBM), Unstructured.io, Marker (Datalab), and Ertas's visual pipeline approach — across table extraction, multi-column layout, scanned PDFs, and processing speed.

PII Exposure Risk Scorecard: Self-Assessment for AI Pipelines
A self-assessment scorecard with 10 scored risk factors for evaluating PII and PHI exposure in your AI data pipelines. Score your risk level and identify gaps before they become incidents.