用財務報表訓練 AI：本地端的資料擷取與標記

財務報表是商業中結構最嚴格的文件之一——然而將它們轉換為 AI 訓練資料卻出乎意料地困難。多樣的呈現格式、巢狀表格結構、報表和附註之間的交叉引用，以及行項目的特定領域含義，創造了通用文件 AI 工具無法很好處理的擷取和標記挑戰。

本指南涵蓋將財務報表 PDF 和 XBRL 申報文件轉換為標記訓練資料集的實用管道——在本地環境中，用於自動化財務分析、異常偵測和報告生成等使用案例。

財務報表資料來源

SEC 申報文件（XBRL/iXBRL）

上市公司申報文件以結構化 XBRL（可延伸商業報告語言）格式提供：

優勢：可機器讀取，帶有標準化的分類標籤
挑戰：XBRL 擴充創造了因申報者而異的自訂標籤，分類版本隨時間變化，申報軟體之間的呈現差異
你獲得什麼：結構化事實（收入 = $X，期間 Y，單位 Z）與 US GAAP 或 IFRS 分類概念連結

PDF 財務報表

私人公司、國際申報文件和許多報告只以 PDF 形式存在：

優勢：視覺佈局保留了人類可讀的格式
挑戰：從 PDF 擷取表格不可靠——合併單元格、跨越標題、腳注引用和多頁表格都會造成問題
你獲得什麼：需要大量處理的原始文字和表格結構

審計/編制軟體匯出

許多財務報表起源於會計軟體（Caseware、Workiva、CCH）：

優勢：來源處的結構化資料
挑戰：匯出格式是專有的，在軟體版本之間有所不同
你獲得什麼：需要格式標準化的結構化資料

擷取管道

XBRL 處理

解析 XBRL 實例文件以擷取事實（概念、值、期間、單位、背景）
解析分類引用——將每個事實映射到 US GAAP 或 IFRS 分類層次結構
處理擴充——申報者創建的自訂標籤需要映射到標準概念或標記
構建財務報表結構——從單獨的事實重構資產負債表、損益表和現金流量表
處理維度資料——部門報告、地理細分和產品線資料使用 XBRL 維度

PDF 表格擷取

佈局偵測——識別每頁上的表格區域
列和行偵測——找到格線、對齊文字和單元格邊界
標題識別——區分列標題和資料行（包括多行標題）
單元格擷取——從每個單元格擷取文字，處理：
- 負數的括號：(1,234) → -1234
- 零的破折號或長破折號：— → 0
- 百分比符號：12.5% → 0.125
- 貨幣符號：$1,234 → 1234（美元）
多頁表格延續——偵測表格跨頁的情況並正確合併
腳注引用擷取——識別上標標記並連結到腳注文字

標準化

財務報表行項目的呈現方式各有不同：

公司 A	公司 B	標準化
Net revenues	Revenue	revenue
Cost of goods sold	Cost of revenue	cost_of_revenue
Selling, general and admin	SG&A expenses	sg_and_a
Net income (loss)	Net earnings	net_income

標準化將這些變體映射到標準會計科目表。這需要：

映射字典（從領域專業知識構建）
模糊匹配用於新穎的呈現
上下文意識（同一標籤在不同報表上可能有不同含義）

AI 使用案例的標記

財務分析自動化

標記類型：行項目分類

{"text": "Depreciation and amortization", "label": "depreciation_amortization", "statement": "income_statement", "subtotal_parent": "operating_expenses"}

訓練資料：數千個將各種行項目描述映射到標準化類別的範例。

異常偵測

標記類型：正常 vs. 異常模式

{"company": "ANON_001", "metric": "gross_margin", "period": "2025-Q3", "value": 0.12, "historical_avg": 0.34, "label": "anomaly", "severity": "high"}

訓練資料：帶有標記異常的歷史財務資料（異常波動、錯誤、重述）。

報告生成

標記類型：文字到資料和資料到文字的配對

{"financials": {"revenue": 45000000, "revenue_growth": 0.15, "gross_margin": 0.62}, "narrative": "Revenue increased 15% year-over-year to $45 million, driven by..."}

訓練資料：財務資料與描述它們的人工撰寫敘述的配對。

比率分析

標記類型：帶解釋性標籤的計算比率

{"current_ratio": 0.85, "industry_avg": 1.5, "interpretation": "below_industry_norm", "risk_flag": true}

品質挑戰

重述和更正

財務報表會被重述。原始申報文件可能包含後續申報文件中更正的錯誤。訓練資料應該：

使用每份申報文件的最新版本
標記被重述的期間（原始錯誤和更正對異常偵測都是有用的訓練信號）
追蹤使用了哪個版本的報表

GAAP vs. 非 GAAP

許多公司與 GAAP 數字一起報告非 GAAP 指標。訓練資料必須區分它們——在沒有標籤的情況下混合 GAAP 和非 GAAP 資料訓練的模型將產生不可靠的輸出。

合併複雜性

合併財務報表結合了多個實體的消除分錄。由於部門間消除和公司分配，部門級資料可能無法與合併總計相符。

為何選擇本地環境

AI 訓練的財務報表資料涉及：

客戶機密資訊（會計事務所資料）
重要非公開資訊（預發布財務資料）
競爭情報（財務表現資料）
監管義務（SOX、PCAOB、SEC）

在雲端服務上處理這些資料會造成不必要的風險。像 Ertas Data Suite 這樣的本地平台將整個管道保持在本地——擷取、標準化、標記和匯出都在你的基礎設施上進行。財務專業人員可以通過桌面介面直接標記資料，完整的審計跟蹤滿足監管文件要求。

財務 AI 從財務資料開始，由財務專業人員準備，在你控制的基礎設施上進行。