命名實體辨識

建構識別您業務領域特定實體和術語的 AI 模型

The Challenge

命名實體辨識是從非結構化文字中進行結構化資訊提取的基礎。通用 NER 模型可以識別人名、地點和組織等常見實體，但在特定領域的實體類型上會崩潰。醫療 NER 系統需要辨識藥物名稱、劑量單位、解剖術語和 ICD 代碼。法律系統需要識別案例引用、法規引用、當事方名稱和管轄權。金融系統需要提取股票代碼、帶幣別的金額、監管機構名稱和特定金融工具。

建構自訂 NER 模型傳統上需要深厚的 NLP 專業知識、複雜的標註工具，以及部署和維護方面的大量工程投入。團隊在標註指引、標註者間一致性測量和模型架構選擇上花費數月，才開始訓練。結果往往是一個脆弱的管線，在遇到未明確訓練過的實體格式時就會中斷——新的藥物命名慣例、不尋常的引用格式，或與預期模式不匹配的外國組織名稱。

The Solution

Ertas 透過利用大型語言模型的廣泛語言理解能力，並將微調聚焦於您領域特定的實體提取模式，來簡化自訂 NER。團隊不是從頭訓練傳統 NER 模型，而是在 Ertas Studio 中微調生成式模型，使用帶有結構化輸出格式標註實體的文字範例。模型學會透過理解實體周圍的語義脈絡來識別和提取實體，而不僅僅是對表面形式進行模式匹配。

這種方法比傳統 NER 強大得多。由於基礎模型已在深層次上理解語言，微調模型能很好地泛化到未明確見過的實體格式——根據語法脈絡辨識新藥物名稱，或因為某個不尋常的組織名稱出現在組織通常填充的角色中而識別它。Ertas Studio 接受帶有輸入文字和結構化實體輸出的 JSONL 訓練資料，使標註變得直接。訓練後的模型可以透過 Ollama 在本地部署進行批次處理，或透過 Ertas Cloud 提供即時提取 API。

Key Features

Studio

自訂實體類型訓練

定義任意實體類型並訓練模型從文字中提取它們。Studio 支援巢狀實體、重疊範圍和關係提取，在單次微調運行中完成。

Hub

預訓練語言模型

從 Hub 上具有強大語言理解能力的模型開始，能泛化到未見過的實體格式，減少高準確度提取所需的標註量。

Cloud

提取 API 端點

透過 Cloud 將您的 NER 模型部署為 REST API，接受文字並回傳帶有信心分數、範圍和實體類型的結構化實體標註。

Vault

敏感實體保護

Vault 確保包含敏感實體（患者姓名、金融帳戶、個人識別碼）的訓練資料在整個管線中都經過加密和存取控制。

Example Workflow

一家製藥公司需要從臨床試驗報告中提取藥物名稱、劑量資訊、不良事件和患者人口統計資料，用於藥物警戒監測。NLP 團隊以其自訂實體架構（12 種實體類型）標註 15,000 個報告摘錄，並將 JSONL 資料集上傳至 Ertas Vault。在 Ertas Studio 中，他們微調一個 7B 模型，以報告文字為輸入，輸出帶有所有已識別實體、其類型和文字範圍的結構化 JSON。模型作為批次處理端點部署，每晚對新收到的試驗報告運行。提取的實體載入藥物警戒資料庫，安全分析師審查標記的不良事件。微調模型在實體提取上達到 94% 的 F1 值，相比通用 NER 模型的 62%——最大的改進在特定領域實體上，如藥物化合物名稱和醫療器械識別碼，這些是通用模型完全遺漏的。