Dataset de Reconocimiento de Entidades Nombradas Template

Plantilla para construir datasets de NER que entrenen modelos para identificar y clasificar entidades nombradas en texto específico de dominio.

NLP

Overview

Los datasets de Reconocimiento de Entidades Nombradas (NER) entrenan modelos de IA para identificar y clasificar fragmentos de texto que se refieren a entidades del mundo real — personas, organizaciones, ubicaciones, fechas, valores monetarios, productos, términos médicos, referencias legales y otros tipos de entidades específicas de dominio. NER es una capacidad fundamental de NLP que impulsa la extracción de información, la construcción de grafos de conocimiento, la indexación de documentos, la detección de PII y numerosas aplicaciones posteriores.

Si bien los modelos NER pre-entrenados manejan tipos de entidades comunes (persona, organización, ubicación) razonablemente bien, la mayoría de las aplicaciones empresariales requieren el reconocimiento de tipos de entidades específicos del dominio que los modelos generales pasan por alto. El NER financiero debe identificar símbolos bursátiles, organismos reguladores, instrumentos financieros y tipos de presentación. El NER legal debe reconocer citas de casos, referencias a estatutos, nombres de tribunales y términos técnicos legales. El NER de salud debe identificar nombres de medicamentos, dosificaciones, términos anatómicos y procedimientos clínicos. Estos tipos de entidades especializadas requieren datos de entrenamiento específicos del dominio.

Los datasets de NER usan el esquema de etiquetado BIO (o IOB2) a nivel de token: B-ENTITY marca el inicio de un fragmento de entidad, I-ENTITY marca los tokens de continuación dentro de una entidad y O marca los tokens que no son parte de ninguna entidad. Esquemas más expresivos como BIOES (que agregan Single para entidades de un solo token y End para el último token de entidades multi-token) pueden mejorar el rendimiento del modelo proporcionando información de límites más rica. La elección del esquema de etiquetado debe ser consistente en todo tu dataset.

Dataset Schema

typescript

// Token-level NER format
interface NERExample {
  tokens: string[];
  ner_tags: string[];     // BIO-tagged labels aligned with tokens
  metadata?: {
    source: string;
    domain: string;
    sentence_id: string;
  };
}

// Span-level NER format (alternative)
interface SpanNERExample {
  text: string;
  entities: {
    start: number;       // Character offset start
    end: number;         // Character offset end
    label: string;       // Entity type
    text: string;        // Entity surface form
  }[];
}

// Entity type definitions
interface EntitySchema {
  types: {
    name: string;        // e.g., "MEDICATION"
    description: string;
    examples: string[];
  }[];
}

Esquemas de datasets NER: formato BIO a nivel de token, formato a nivel de fragmento y definiciones de tipos de entidad

Sample Data

json

[
  {
    "tokens": ["Dr.", "Sarah", "Chen", "prescribed", "metformin", "500mg", "twice", "daily", "for", "type", "2", "diabetes", "at", "Memorial", "General", "Hospital", "."],
    "ner_tags": ["O", "B-PROVIDER", "I-PROVIDER", "O", "B-MEDICATION", "B-DOSAGE", "B-FREQUENCY", "I-FREQUENCY", "O", "B-CONDITION", "I-CONDITION", "I-CONDITION", "O", "B-FACILITY", "I-FACILITY", "I-FACILITY", "O"],
    "metadata": {"source": "clinical_notes", "domain": "healthcare", "sentence_id": "clinical_001"}
  },
  {
    "tokens": ["Apple", "Inc.", "reported", "Q4", "revenue", "of", "$89.5", "billion", ",", "exceeding", "Wall", "Street", "estimates", "by", "3.2%", "."],
    "ner_tags": ["B-ORG", "I-ORG", "O", "B-FISCAL_PERIOD", "O", "O", "B-MONETARY", "I-MONETARY", "O", "O", "B-ORG", "I-ORG", "O", "O", "B-PERCENTAGE", "O"],
    "metadata": {"source": "financial_news", "domain": "finance", "sentence_id": "finance_001"}
  },
  {
    "text": "The court cited Brown v. Board of Education, 347 U.S. 483 (1954) in its ruling on the equal protection claim filed in the Southern District of New York.",
    "entities": [
      {"start": 16, "end": 65, "label": "CASE_CITATION", "text": "Brown v. Board of Education, 347 U.S. 483 (1954)"},
      {"start": 100, "end": 122, "label": "LEGAL_CONCEPT", "text": "equal protection claim"},
      {"start": 137, "end": 164, "label": "COURT", "text": "Southern District of New York"}
    ]
  }
]

Ejemplos de NER de los dominios de salud (entidades clínicas), finanzas (entidades fiscales) y legal (citas de casos)

Data Collection Guide

Define tu esquema de tipos de entidad antes de que comience la anotación. Para cada tipo de entidad, documenta: el nombre del tipo, una definición clara, 5-10 ejemplos de complejidad variada, reglas de límites (¿debe incluirse "Dr." en una entidad PROVIDER? ¿deben incluirse los símbolos de moneda en los valores MONETARY?) y reglas de anidamiento (¿pueden las entidades solaparse o anidarse?). Las definiciones de límites ambiguas son la fuente principal de inconsistencia en la anotación.

Selecciona herramientas de anotación que soporten tu formato elegido y proporcionen flujos de trabajo eficientes para el marcado de entidades. Herramientas como Prodigy, Label Studio, BRAT y Doccano soportan anotación a nivel de fragmento con conversión a formato BIO. Para anotación de alto volumen, considera flujos de trabajo de aprendizaje activo donde el modelo identifica predicciones inciertas para revisión humana, enfocando el esfuerzo de los anotadores en los ejemplos más informativos.

Pre-anota el texto con un modelo NER existente y haz que los anotadores corrijan las predicciones en lugar de anotar desde cero. Esto es significativamente más rápido que la anotación manual desde una hoja en blanco, típicamente reduciendo el tiempo de anotación en un 40-60 por ciento. Asegura que los anotadores corrijan tanto falsos positivos (entidades incorrectamente identificadas) como falsos negativos (entidades no detectadas) para evitar sesgar el dataset corregido hacia los patrones de error del modelo de pre-anotación.

Quality Criteria

Mide la concordancia entre anotadores a nivel de entidad usando el puntaje F1 entre pares de anotadores. Dos anotadores deben anotar independientemente las mismas 200-300 oraciones, y el F1 a nivel de entidad debe superar 0.85 para que el dataset se considere confiable. Para tipos de entidades complejas (citas legales, procedimientos médicos), umbrales de concordancia más bajos de 0.75-0.80 pueden ser aceptables, pero indican la necesidad de guías de anotación más detalladas.

Valida la consistencia de los límites de entidad. Verifica que los anotadores sean consistentes sobre si incluir títulos (Dr., Mr.), sufijos (Inc., LLC) y delimitadores en los fragmentos de entidad. La inconsistencia de límites degrada significativamente el rendimiento del modelo porque recibe señales contradictorias sobre dónde comienzan y terminan las entidades. Ejecuta verificaciones automatizadas de consistencia comparando fragmentos de entidad en contextos similares.

Asegura una representación adecuada de cada tipo de entidad. Los tipos de entidades raros necesitan un mínimo de 200-300 instancias anotadas para que el modelo aprenda patrones de reconocimiento confiables. Si ciertos tipos de entidades aparecen raramente en texto natural, busca documentos donde aparezcan frecuentemente o crea ejemplos sintéticos que los incluyan en contextos realistas. Rastrea la frecuencia de tipos de entidad y marca cualquier tipo con menos de 100 ejemplos para aumento dirigido.

Using This Template with Ertas

Importa tu corpus de texto sin procesar a Ertas Data Suite para la evaluación de PII — irónicamente, los datos de entrenamiento NER para detección de PII deben manejarse con cuidado, ya que el texto fuente contiene información personal real. Usa el sistema de linaje de datos para rastrear qué documentos han sido anotados, por quién y en qué etapa de revisión de calidad se encuentran. Exporta el texto preparado para anotación en tu herramienta elegida.

Después de la anotación, reimporta el dataset etiquetado para conversión de formato y validación final de calidad. Exporta en formato CoNLL para entrenamiento de modelos de clasificación de tokens o en formato JSONL para fine-tuning de NER basado en LLM. El procesamiento on-premise asegura que el texto fuente sensible nunca salga de tu entorno controlado durante el pipeline de anotación.

Recommended Model

Para NER en producción con alto rendimiento, ajusta un modelo encoder (BERT, DeBERTa o RoBERTa) para clasificación de tokens. Estos modelos procesan texto a miles de tokens por segundo en CPU y proporcionan rendimiento de NER de vanguardia cuando se ajustan con datos específicos del dominio. DeBERTa-v3-base es actualmente la mejor opción para NER en inglés.

Para tareas de NER que requieren flexibilidad para agregar nuevos tipos de entidad sin reentrenar, ajusta un modelo generativo de 7B con prompts de NER basados en instrucciones. El modelo puede recibir instrucciones para identificar tipos de entidades específicos a través del prompt, permitiendo cambios en el esquema de entidades sin reentrenamiento del modelo. Exporta a GGUF para inferencia local.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →