CoNLL Format Guide

    用於 NER 和詞性標注的欄位式標註格式

    Annotation

    Specification

    CoNLL(Conference on Natural Language Learning,自然語言學習會議)格式是一系列基於欄位的文字標註格式,主要用於 NLP 中的序列標記任務,包括命名實體辨識(NER)、詞性(POS)標注、句法分塊和依存句法分析。該格式每行表示一個標記(token),使用制表符或空格分隔的欄位,空白行分隔句子邊界。不同的 CoNLL 共享任務引入了略有不同的欄位架構,其中 CoNLL-2003(用於 NER)和 CoNLL-U(用於通用依存關係)是目前最廣泛使用的變體。

    在 CoNLL-2003 NER 格式中,每行包含四個欄位:標記(詞)、POS 標籤、句法分塊標籤和命名實體標籤。實體標籤使用 IOB2(Inside-Outside-Beginning)標記方案,其中 B-PER 標記人名實體的開始,I-PER 延續人名實體,O 標記任何實體之外的標記。其他常見的實體類型包括 ORG(組織)、LOC(地點)和 MISC(雜項)。BIO 標記方案對於處理多標記實體至關重要,例如「New York City」,其中第一個標記獲得 B-LOC,後續標記獲得 I-LOC。

    CoNLL-U 是通用依存關係樹庫的格式,將欄位結構擴展到十個欄位:ID、FORM(詞)、LEMMA、UPOS(通用 POS)、XPOS(語言特定 POS)、FEATS(形態特徵)、HEAD(依存中心詞)、DEPREL(依存關係)、DEPS(增強依存)和 MISC。CoNLL-U 檔案以帶有 # 前綴的註解行開頭,包含中繼資料如句子 ID 和原始未分詞文字。此格式已成為多語言 NLP 標註的標準,被 100 多種語言的 200 多個樹庫使用。

    When to Use CoNLL

    當訓練用於 NER、POS 標注、分塊或依存句法分析的序列標記模型時,請使用 CoNLL 格式。大多數 NLP 框架包括 spaCy、Flair、Hugging Face Transformers(透過 datasets 程式庫)和 Stanford NLP 都接受 CoNLL 格式的輸入。如果您正在訓練標記分類模型,CoNLL 可能是預期的輸入格式。它也是 NER 評估基準和共享任務的標準格式。

    當您的標註任務需要與空格分詞文字對齊的標記級別標籤時,選擇 CoNLL 格式。每行一個標記的結構使在標記級別計算標註者間一致性、透過視覺檢查識別標註錯誤,以及應用簡單的文字處理腳本進行資料分析變得容易。當您的標註工作流程從支援 CoNLL 匯出的工具(如 BRAT、Prodigy 或 Label Studio)產生輸出時,CoNLL 也是自然的選擇。

    CoNLL 格式不太適合需要具有任意邊界的字元級或跨度級標註的任務(請改用獨立標註格式)、句子邊界不明確或無關的文件,或結合標記標籤與文件級中繼資料或跨句子關係的任務。對於非常大的資料集,冗長的每行一個標記格式導致檔案大小比以跨度表示標註的 JSON 格式更大。

    Schema / Structure

    text
    CoNLL-2003 NER Format (4 columns):
    <token> <POS> <chunk> <NER_tag>
    
    Tagging scheme: IOB2 (BIO)
      B-XXX  = Beginning of entity type XXX
      I-XXX  = Inside (continuation) of entity type XXX
      O      = Outside any entity
    
    Common entity types:
      PER = Person, ORG = Organization
      LOC = Location, MISC = Miscellaneous
    
    CoNLL-U Format (10 columns):
    <ID> <FORM> <LEMMA> <UPOS> <XPOS> <FEATS> <HEAD> <DEPREL> <DEPS> <MISC>
    
    Sentence boundaries: blank lines
    Comment lines: start with #
    CoNLL-2003 和 CoNLL-U 格式規格,包含欄位定義和標記方案

    Example Data

    text
    # CoNLL-2003 NER example
    John B-NNP B-NP B-PER
    Smith I-NNP I-NP I-PER
    works VBZ B-VP O
    at IN B-PP O
    Google B-NNP B-NP B-ORG
    in IN B-PP O
    Mountain B-NNP B-NP B-LOC
    View I-NNP I-NP I-LOC
    , , O O
    California B-NNP B-NP B-LOC
    . . O O
    
    He PRP B-NP O
    joined VBD B-VP O
    in IN B-PP O
    2019 CD B-NP O
    . . O O
    
    # CoNLL-U example
    # sent_id = 1
    # text = The cat sat on the mat.
    1	The	the	DET	DT	Definite=Def	2	det	_	_
    2	cat	cat	NOUN	NN	Number=Sing	3	nsubj	_	_
    3	sat	sit	VERB	VBD	Tense=Past	0	root	_	_
    4	on	on	ADP	IN	_	6	case	_	_
    5	the	the	DET	DT	Definite=Def	6	det	_	_
    6	mat	mat	NOUN	NN	Number=Sing	3	obl	_	SpaceAfter=No
    7	.	.	PUNCT	.	_	3	punct	_	_
    CoNLL-2003 NER 標註和 CoNLL-U 依存句法分析標註範例

    Ertas Support

    Ertas Data Suite 支援 NER 和序列標記訓練資料的 CoNLL 格式匯入和匯出。您可以匯入 CoNLL 標註的資料集、在實體級別套用 PII 編輯(在遮蔽實體時自動更新 BIO 標籤)、驗證標籤一致性(檢查沒有前導 B 標籤的 I 標籤),並匯出準備好進行模型訓練的已清理 CoNLL 格式資料集。資料譜系系統在整個準備管線中追蹤標註。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.