Benchmark de Precision de Redaccion de PII: Regex vs NER vs LLM vs Pipeline Hibrido

La redaccion de PII es la etapa de mayor riesgo en cualquier pipeline de datos empresarial. Un error de parsing produce texto distorsionado. Un error de chunking degrada la calidad de recuperacion. Un fallo de redaccion de PII expone datos personales, lo que desencadena sanciones regulatorias, erosiona la confianza del cliente y genera responsabilidad legal.

A pesar de estos riesgos, la mayoria de los equipos seleccionan su enfoque de redaccion basandose en la conveniencia en lugar del rendimiento medido. Regex es rapido de implementar. Los modelos NER son faciles de importar. Los LLMs parecen capaces de todo. Pero, como se comparan realmente estos enfoques en las metricas que importan: precision, recall, tasa de falsos positivos y rendimiento.

Este benchmark proporciona la respuesta.

Enfoques Evaluados

Evaluamos cinco enfoques de redaccion de PII, cada uno representando una estrategia tecnica distinta:

Patrones Regex — coincidencia deterministica de patrones usando expresiones regulares para formatos de PII estructurados (SSN, numeros de telefono, direcciones de correo electronico, numeros de tarjetas de credito). Utilizamos una biblioteca de regex de grado de produccion con 47 patrones que cubren formatos de PII de EE.UU., Reino Unido y UE.

spaCy NER (en_core_web_trf) — el modelo de reconocimiento de entidades nombradas basado en transformers de spaCy, que identifica PERSON, ORG, GPE, DATE y otros tipos de entidades. Lo extendimos con reglas de entidades personalizadas para patrones especificos de PII.

Transformer NER (GLiNER) — un modelo NER generalista que acepta descripciones de tipos de entidades en tiempo de inferencia, permitiendo la deteccion zero-shot de categorias arbitrarias de PII sin fine-tuning. Probamos con prompts para los 14 tipos de entidades de PII.

Basado en LLM (clase GPT-4) — usando un modelo de lenguaje de frontera con un prompt estructurado que especifica categorias de PII y solicita anotaciones a nivel de entidad. Probamos con GPT-4o via API, reconociendo la ironia de enviar PII a una API en la nube para benchmarking de redaccion. En produccion, este enfoque usaria un LLM alojado localmente.

Pipeline Hibrido (Ertas) — un enfoque de dos pasadas: primero patrones regex para PII estructurado (SSN, telefono, correo electronico, tarjeta de credito), luego transformer NER para entidades contextuales (nombres, direcciones, terminos medicos, numeros de caso). El pipeline se ejecuta completamente on-premise sin dependencias de la nube.

Corpus de Prueba

Construimos un corpus de benchmark de 10,000 instancias de PII en 14 tipos de entidades, integradas en 1,200 documentos empresariales sinteticos:

Tipo de Entidad	Cantidad	Ejemplos
Nombre de Persona	1,500	Nombres completos, nombres parciales, titulos con nombres
Direccion de Correo Electronico	800	Estandar, corporativo, ofuscado
Numero de Telefono	800	EE.UU., Reino Unido, internacional, extensiones
SSN	600	Estandar (XXX-XX-XXXX), sin guion, parcial
Direccion Fisica	700	Calle, apartado postal, apartamento, internacional
Fecha de Nacimiento	500	Multiples formatos de fecha
Tarjeta de Credito	400	Visa, Mastercard, Amex, con/sin espacios
Numero de Registro Medico	400	Formatos especificos de hospitales
Direccion IP	300	IPv4, IPv6, con contexto
Licencia de Conducir	300	Formatos especificos por estado
Numero de Pasaporte	200	Formatos de EE.UU., Reino Unido, UE
Cuenta Bancaria	200	Routing + cuenta, IBAN
Numero de Caso/Expediente	200	Legal, medico, seguros
Identificador Biometrico	100	IDs de dispositivos, referencias de registro

Los documentos fueron disenados para incluir tanto PII obvio (campos independientes) como PII contextual (integrado en texto narrativo, tablas y notas al pie). Esto refleja documentos empresariales reales donde el PII aparece en ubicaciones esperadas y en contextos inesperados como firmas de correo electronico integradas en apendices de contratos.

La verdad de referencia fue anotada manualmente por dos revisores independientes con adjudicacion para desacuerdos.

Resultados del Benchmark

Enfoque	Precision	Recall	Puntuacion F1	Velocidad (docs/seg)	Tasa de Falsos Positivos
Patrones Regex	99.1%	72.4%	83.9%	145	0.9%
spaCy NER (en_core_web_trf)	91.3%	88.7%	89.9%	42	8.7%
Transformer NER (GLiNER)	94.8%	93.1%	93.9%	18	5.2%
Basado en LLM (clase GPT-4)	96.2%	95.8%	96.0%	2.1	3.8%
Pipeline Hibrido (Ertas)	97.4%	96.1%	96.7%	28	2.6%

Analisis Detallado por Metrica

Precision: Lo que Marca, Es Realmente PII

La precision mide el porcentaje de elementos marcados que son genuinamente PII. Una precision baja significa que su sistema esta sobre-marcando, creando carga de revision y potencialmente redactando contenido que no es PII y que deberia preservarse.

Regex logro la precision mas alta (99.1%) porque la coincidencia de patrones produce muy pocos falsos positivos: si algo coincide con un patron de SSN, casi con certeza es un SSN. Los pocos falsos positivos provinieron de numeros que coinciden coincidentemente con patrones de PII (codigos de producto en formato SSN, por ejemplo).

spaCy tuvo la precision mas baja (91.3%) y la tasa de falsos positivos mas alta (8.7%). Su modelo de entidad PERSON frecuentemente marco nombres de organizaciones, nombres de productos y referencias de ubicacion como nombres de personas. "Washington" apareciendo como ciudad fue regularmente marcado como nombre de persona. "Amazon Web Services" activo las etiquetas PERSON y ORG de forma inconsistente.

El pipeline hibrido logro una precision del 97.4% al usar regex para patrones estructurados (donde la precision es inherentemente alta) y restringir transformer NER a tipos de entidades donde regex se queda corto (nombres, direcciones, referencias contextuales). Esta division del trabajo mantiene cada enfoque en su zona de fortaleza.

Recall: Del PII que Existe, Cuanto Detecto

El recall es la metrica critica para el cumplimiento normativo. El PII no detectado (falsos negativos) es el modo de fallo que desencadena acciones regulatorias.

El recall de regex fue solo del 72.4%, el mas bajo de todos los enfoques. Fallo en detectar tres categorias principales de PII casi por completo:

Nombres de personas — ningun patron regex puede coincidir de forma confiable con la variedad infinita de nombres humanos
Direcciones fisicas — los formatos de direccion son demasiado variables para la coincidencia deterministica de patrones
Referencias contextuales — frases como "el paciente" o "mi cliente Sr. Johnson" requieren comprension del contexto, no coincidencia de patrones

Los enfoques basados en LLM lograron el recall mas alto (95.8%) porque los modelos de lenguaje comprenden el contexto. Identificaron correctamente PII en oraciones como "Por favor reenvie esto a Sarah en la oficina del centro" donde "Sarah" es PII pero ningun patron estructurado coincide.

El pipeline hibrido logro un recall del 96.1%, ligeramente superior al enfoque LLM, porque la pasada de regex captura patrones estructurados que el transformer NER ocasionalmente falla (SSNs sin guiones, numeros de telefono con extensiones), mientras que la pasada NER captura entidades contextuales que regex no puede coincidir. Las dos pasadas son complementarias en lugar de redundantes.

Desglose por Tipo de Entidad

Las puntuaciones F1 agregadas enmascaran una variacion significativa entre tipos de entidades:

Tipo de Entidad	Regex F1	spaCy F1	GLiNER F1	LLM F1	Hibrido F1
SSN	99.2%	82.1%	94.3%	97.8%	99.4%
Correo Electronico	99.5%	78.4%	91.2%	96.1%	99.5%
Telefono	97.8%	75.9%	90.1%	95.4%	98.1%
Tarjeta de Credito	98.9%	71.3%	88.7%	94.2%	99.0%
Nombre de Persona	0.0%	93.8%	95.7%	97.2%	95.7%
Direccion	12.4%	87.3%	92.8%	96.3%	93.1%
Registro Medico	91.3%	68.4%	89.1%	93.7%	95.2%
Fecha de Nacimiento	78.2%	84.1%	91.4%	95.9%	94.8%

Este desglose revela el compromiso fundamental: regex domina las entidades estructuradas (SSN, correo electronico, telefono, tarjeta de credito) pero falla completamente en entidades contextuales (nombres de personas, direcciones). Los modelos NER manejan bien las entidades contextuales pero tienen un rendimiento inferior a regex en patrones estructurados.

El enfoque hibrido captura las fortalezas de ambos, logrando el F1 mas alto o cercano al mas alto para cada tipo de entidad.

Velocidad y Rendimiento

La velocidad de procesamiento determina si un enfoque de redaccion es viable para cargas de trabajo de produccion. Los pipelines de datos empresariales procesan miles a millones de documentos.

Enfoque	Docs/seg	Tiempo para 100K docs	GPU Requerida
Regex	145	11.5 minutos	No
spaCy NER	42	39.7 minutos	Recomendada
GLiNER	18	92.6 minutos	Si
LLM (clase GPT-4)	2.1	13.2 horas	Si (o API)
Hibrido (Ertas)	28	59.5 minutos	Recomendada

El pipeline hibrido procesa 28 documentos por segundo, lo suficientemente rapido para el procesamiento por lotes de archivos empresariales pero no adecuado para redaccion en tiempo real por solicitud a alto volumen. La pasada de regex agrega latencia minima; la pasada de transformer NER es el cuello de botella del rendimiento.

La redaccion basada en LLM a 2.1 docs/seg es impractica para procesamiento por lotes a gran escala. Un archivo de 100,000 documentos tomaria mas de 13 horas. Es mas adecuada como pasada de verificacion en una muestra de documentos ya redactados que como mecanismo primario de redaccion.

Tasa de Falsos Positivos y Carga de Revision

Los falsos positivos crean costo operativo. Cada elemento marcado falsamente debe ser revisado por un humano si el pipeline de redaccion incluye un paso de revision, o redacta silenciosamente contenido que no es PII si no lo incluye.

Con la tasa de falsos positivos del 8.7% de spaCy, procesar 100,000 documentos con un promedio de 15 entidades marcadas por documento produciria aproximadamente 130,500 falsos positivos que requieren revision. Con la tasa del 2.6% del pipeline hibrido, ese numero baja a 39,000, una reduccion del 70% en la carga de revision.

Para pipelines completamente automatizados (sin revision humana), los falsos positivos significan perdida de informacion. Redactar un codigo de producto que coincide con un patron de numero de telefono, o redactar el nombre de una ciudad que coincide con un nombre de persona, degrada la calidad del documento para el procesamiento de IA posterior.

El Caso para Enfoques Hibridos

Los datos del benchmark apuntan claramente hacia arquitecturas hibridas como el enfoque optimo de produccion para la redaccion de PII. El razonamiento es directo:

El PII estructurado es un problema resuelto. Regex maneja SSNs, correos electronicos, numeros de telefono y tarjetas de credito con precision y recall casi perfectos. Usar NER o LLMs para estos tipos de entidades agrega latencia sin mejorar la precision.

El PII contextual requiere comprension. Nombres, direcciones y referencias contextuales no pueden ser capturados por coincidencia de patrones. Transformer NER proporciona la comprension semantica necesaria, con GLiNER y modelos similares logrando un F1 superior al 92% en tipos de entidades contextuales.

Las dos pasadas son complementarias. Regex captura lo que NER no detecta (formatos de SSN no estandar, extensiones de telefono), y NER captura lo que regex no puede intentar (nombres de personas, referencias contextuales). Ejecutar ambas pasadas en secuencia produce un resultado combinado que supera a cualquier enfoque por si solo.

Ertas implementa este enfoque hibrido en su nodo PII Redactor: la pasada de regex se ejecuta primero (deterministica, rapida, alta precision), luego la pasada de transformer NER procesa el texto restante para entidades contextuales. Ambas pasadas son visibles como sub-pasos en el pipeline, con puntuaciones de confianza por entidad registradas para fines de auditoria.

Recomendaciones por Caso de Uso

Industrias reguladas (salud, finanzas, legal): Use un enfoque hibrido con muestreo de revision humana. Apunte a un recall superior al 96% y una tasa de falsos positivos inferior al 3%. El costo del PII no detectado (sanciones regulatorias, notificacion de brechas) supera con creces el costo de la carga de revision por falsos positivos.

Proveedores de servicios que entregan a clientes empresariales: Use un enfoque hibrido con registro completo de auditoria. Los clientes en industrias reguladas requeriran evidencia de que la redaccion de PII se realizo sistematicamente. Las puntuaciones de confianza por entidad y los registros de procesamiento proporcionan esta evidencia.

Preparacion interna de datos de entrenamiento de IA: Use transformer NER (GLiNER o equivalente) si el presupuesto de revision es limitado. Su F1 del 93.9% con una tasa de falsos positivos del 5.2% proporciona un compromiso razonable entre precision y esfuerzo para equipos que no pueden implementar un pipeline hibrido completo.

Redaccion en tiempo real (por solicitud): Use solo regex. A 145 docs/seg, regex es el unico enfoque lo suficientemente rapido para procesamiento en tiempo real. Acepte la limitacion de recall del 72.4% y complemente con revision por lotes basada en NER en un calendario regular.

Notas Metodologicas

Todos los benchmarks se ejecutaron en una unica estacion de trabajo (Intel i9-13900K, 64GB RAM, RTX 4090).
spaCy uso el modelo en_core_web_trf (basado en transformers, la variante mas precisa).
GLiNER uso el checkpoint gliner-large-v2.5.
Los benchmarks de LLM usaron GPT-4o via API con prompting de salida estructurada. La latencia incluye el tiempo de ida y vuelta de la API.
El pipeline hibrido (Ertas) se ejecuto completamente de forma local sin llamadas a APIs.
Los tipos de entidades siguen el marco de desidentificacion NIST SP 800-188, extendido con identificadores medicos y legales.
La tasa de falsos positivos se calcula como falsos positivos divididos entre (verdaderos negativos mas falsos positivos).

Para el benchmark completo del pipeline de datos empresariales incluyendo etapas de parsing, chunking y embedding, consulte nuestro informe de benchmark integral.