CoNLL Format Guide

Formato de anotación basado en columnas para NER y etiquetado POS

Annotation

Specification

El formato CoNLL (Conference on Natural Language Learning) es una familia de formatos de anotación de texto basados en columnas utilizados principalmente para tareas de etiquetado de secuencias en NLP, incluyendo Reconocimiento de Entidades Nombradas (NER), etiquetado de Partes del Discurso (POS), chunking sintáctico y análisis de dependencias. El formato representa un token por línea con columnas separadas por tabulaciones o espacios, donde las líneas en blanco delimitan los límites de las oraciones. Diferentes tareas compartidas de CoNLL introdujeron esquemas de columnas ligeramente diferentes, siendo CoNLL-2003 (para NER) y CoNLL-U (para Dependencias Universales) las variantes más ampliamente utilizadas hoy en día.

En el formato CoNLL-2003 para NER, cada línea contiene cuatro columnas: el token (palabra), la etiqueta POS, la etiqueta de chunk sintáctico y la etiqueta de entidad nombrada. Las etiquetas de entidad usan el esquema de etiquetado IOB2 (Inside-Outside-Beginning) donde B-PER marca el inicio de una entidad de persona, I-PER continúa una entidad de persona y O marca tokens fuera de cualquier entidad. Otros tipos de entidad comunes incluyen ORG (organización), LOC (ubicación) y MISC (miscelánea). El esquema de etiquetado BIO es crítico para manejar entidades de múltiples tokens como "New York City" donde el primer token recibe B-LOC y los tokens subsiguientes reciben I-LOC.

CoNLL-U, el formato para treebanks de Dependencias Universales, extiende la estructura de columnas a diez campos: ID, FORM (palabra), LEMMA, UPOS (POS universal), XPOS (POS específico del idioma), FEATS (características morfológicas), HEAD (cabeza de dependencia), DEPREL (relación de dependencia), DEPS (dependencias mejoradas) y MISC. Los archivos CoNLL-U comienzan con líneas de comentario prefijadas con # que contienen metadatos como el ID de la oración y el texto original sin tokenizar. Este formato se ha convertido en el estándar para la anotación NLP multilingüe y es utilizado por más de 200 treebanks en más de 100 idiomas.

When to Use CoNLL

Usa el formato CoNLL cuando entrenes modelos de etiquetado de secuencias para NER, etiquetado POS, chunking o análisis de dependencias. La mayoría de los frameworks de NLP incluyendo spaCy, Flair, Hugging Face Transformers (a través de la biblioteca datasets) y Stanford NLP aceptan entrada en formato CoNLL. Si estás entrenando un modelo de clasificación a nivel de token, CoNLL es probablemente el formato de entrada esperado. También es el formato estándar para benchmarks de evaluación de NER y tareas compartidas.

Elige el formato CoNLL cuando tu tarea de anotación requiera etiquetas a nivel de token que se alineen con texto tokenizado por espacios en blanco. La estructura de un token por línea facilita calcular el acuerdo entre anotadores a nivel de token, identificar errores de anotación mediante inspección visual y aplicar scripts simples de procesamiento de texto para análisis de datos. CoNLL también es la opción natural cuando tu flujo de anotación produce salida de herramientas como BRAT, Prodigy o Label Studio que soportan exportación en formato CoNLL.

El formato CoNLL es menos adecuado para tareas que requieren anotaciones a nivel de carácter o de span con límites arbitrarios (usa formatos de anotación standoff en su lugar), para documentos donde los límites de las oraciones son ambiguos o irrelevantes, o para tareas que combinan etiquetas de token con metadatos a nivel de documento o relaciones entre oraciones. Para datasets muy grandes, el formato verboso de un token por línea resulta en archivos más grandes comparado con formatos basados en JSON que representan anotaciones como spans.

Schema / Structure

text

CoNLL-2003 NER Format (4 columns):
<token> <POS> <chunk> <NER_tag>

Tagging scheme: IOB2 (BIO)
  B-XXX  = Beginning of entity type XXX
  I-XXX  = Inside (continuation) of entity type XXX
  O      = Outside any entity

Common entity types:
  PER = Person, ORG = Organization
  LOC = Location, MISC = Miscellaneous

CoNLL-U Format (10 columns):
<ID> <FORM> <LEMMA> <UPOS> <XPOS> <FEATS> <HEAD> <DEPREL> <DEPS> <MISC>

Sentence boundaries: blank lines
Comment lines: start with #

Especificaciones de los formatos CoNLL-2003 y CoNLL-U con definiciones de columnas y esquema de etiquetado

Example Data

text

# CoNLL-2003 NER example
John B-NNP B-NP B-PER
Smith I-NNP I-NP I-PER
works VBZ B-VP O
at IN B-PP O
Google B-NNP B-NP B-ORG
in IN B-PP O
Mountain B-NNP B-NP B-LOC
View I-NNP I-NP I-LOC
, , O O
California B-NNP B-NP B-LOC
. . O O

He PRP B-NP O
joined VBD B-VP O
in IN B-PP O
2019 CD B-NP O
. . O O

# CoNLL-U example
# sent_id = 1
# text = The cat sat on the mat.
1	The	the	DET	DT	Definite=Def	2	det	_	_
2	cat	cat	NOUN	NN	Number=Sing	3	nsubj	_	_
3	sat	sit	VERB	VBD	Tense=Past	0	root	_	_
4	on	on	ADP	IN	_	6	case	_	_
5	the	the	DET	DT	Definite=Def	6	det	_	_
6	mat	mat	NOUN	NN	Number=Sing	3	obl	_	SpaceAfter=No
7	.	.	PUNCT	.	_	3	punct	_	_

Ejemplos de anotación NER en CoNLL-2003 y anotación de análisis de dependencias en CoNLL-U

Ertas Support

Ertas Data Suite soporta la importación y exportación en formato CoNLL para datos de entrenamiento de NER y etiquetado de secuencias. Puedes importar datasets anotados en CoNLL, aplicar redacción de PII a nivel de entidad (actualizando automáticamente las etiquetas BIO cuando se enmascaran entidades), validar la consistencia de etiquetas (verificando etiquetas I- sin etiquetas B- precedentes), y exportar datasets limpios en formato CoNLL listos para el entrenamiento de modelos. El sistema de linaje de datos rastrea las anotaciones a través de todo el pipeline de preparación.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →