文件分類

建構根據內容和意圖自動分類和路由文件的 AI 模型

The Challenge

組織每天處理數千份文件——合約、發票、信函、報告、申請書和合規申報——將每份文件路由到正確的團隊或工作流程取決於準確的分類。手動分類緩慢、不一致且難以擴展。當一份被錯誤路由的文件可能延遲法律申報或錯失有時效性的商業機會時，錯誤的代價是巨大的。

通用 AI 模型在專業領域的文件分類上表現不佳，因為它們缺乏對組織特定文件分類法的脈絡理解。通用模型或許能區分發票和合約，但無法可靠地區分主服務協議和工作說明書，或區分監管申報和內部合規備忘錄。這些細微的區分需要只能來自在組織實際文件語料庫上訓練的領域知識——這正是微調被設計來解決的任務類型。

The Solution

Ertas 使組織能夠使用其檔案中的真實範例，在自有的文件分類法上微調分類模型。透過 Ertas Studio，團隊上傳 JSONL 格式的標記文件樣本——每個條目將文件文字對應到其正確類別——並訓練一個輕量級 LoRA 適配器，教導模型識別在其分類法中區分每種文件類型的特定模式、詞彙和結構線索。

微調後的模型可以透過 Ollama、vLLM 或 Ertas Cloud 作為分類端點部署，以亞秒級延遲即時處理傳入文件。由於模型在您的基礎設施上運行，敏感文件內容永遠不會離開您的網路。Ertas Vault 確保所有訓練資料和模型產物都經過加密和存取控制，滿足受監管行業的資料治理要求。隨著文件分類法的演進——新增類別、現有類別被拆分或合併——團隊可以在 Ertas Studio 中使用更新的範例重新訓練模型並重新部署，無需任何應用程式變更。

Key Features

Studio

自訂分類法訓練

使用標記範例在您組織的精確文件分類法上訓練分類模型。支援階層式類別、多標籤分類和每類別信心評分。

Hub

預訓練文件模型

從 Hub 上已理解文件結構——頁首、頁尾、表格、簽名——的基礎模型開始，讓您的微調聚焦於分類準確性而非基礎文件理解。

Cloud

即時分類 API

透過 Cloud 將您的分類器部署為低延遲 REST 端點。在文件到達時進行亞秒級分類處理，自動將其路由到下游工作流程。

Vault

安全文件處理

Vault 確保所有訓練文件和推論資料在靜態和傳輸中都經過加密。可設定的保留政策在分類後自動清除已處理的文件。

Example Workflow

一家大型保險公司每天透過電子郵件、傳真和網路入口管道接收超過 10,000 份文件。文件包括新理賠、保單修改、醫療記錄、理算員報告和法律信函——每種都需要路由到不同的部門。團隊從其檔案中匯出 50,000 份標記文件範例並上傳至 Ertas Vault。在 Ertas Studio 中，他們使用 LoRA 適配器微調一個 7B 模型，針對其 28 類分類法。訓練後，模型在留出測試集上達到 96% 的分類準確率——相比通用模型的 71%。分類器作為 API 端點部署在其文件接收系統後方，自動將每份傳入文件以信心分數路由到正確的部門佇列。低於信心門檻的文件被標記為人工審查，形成一個為未來模型改進生成額外訓練資料的回饋迴路。