Back to blog
    用財務報表訓練 AI:本地端的資料擷取與標記
    financial-statementsdata-extractionaccountingtraining-dataon-premisedata-preparationsegment:enterprise

    用財務報表訓練 AI:本地端的資料擷取與標記

    如何擷取和標記財務報表資料用於 AI 訓練——解析 XBRL、從 PDF 擷取表格、處理格式變化,以及為財務分析構建分類模型。

    EErtas Team·

    財務報表是商業中結構最嚴格的文件之一——然而將它們轉換為 AI 訓練資料卻出乎意料地困難。多樣的呈現格式、巢狀表格結構、報表和附註之間的交叉引用,以及行項目的特定領域含義,創造了通用文件 AI 工具無法很好處理的擷取和標記挑戰。

    本指南涵蓋將財務報表 PDF 和 XBRL 申報文件轉換為標記訓練資料集的實用管道——在本地環境中,用於自動化財務分析、異常偵測和報告生成等使用案例。

    財務報表資料來源

    SEC 申報文件(XBRL/iXBRL)

    上市公司申報文件以結構化 XBRL(可延伸商業報告語言)格式提供:

    • 優勢:可機器讀取,帶有標準化的分類標籤
    • 挑戰:XBRL 擴充創造了因申報者而異的自訂標籤,分類版本隨時間變化,申報軟體之間的呈現差異
    • 你獲得什麼:結構化事實(收入 = $X,期間 Y,單位 Z)與 US GAAP 或 IFRS 分類概念連結

    PDF 財務報表

    私人公司、國際申報文件和許多報告只以 PDF 形式存在:

    • 優勢:視覺佈局保留了人類可讀的格式
    • 挑戰:從 PDF 擷取表格不可靠——合併單元格、跨越標題、腳注引用和多頁表格都會造成問題
    • 你獲得什麼:需要大量處理的原始文字和表格結構

    審計/編制軟體匯出

    許多財務報表起源於會計軟體(Caseware、Workiva、CCH):

    • 優勢:來源處的結構化資料
    • 挑戰:匯出格式是專有的,在軟體版本之間有所不同
    • 你獲得什麼:需要格式標準化的結構化資料

    擷取管道

    XBRL 處理

    1. 解析 XBRL 實例文件以擷取事實(概念、值、期間、單位、背景)
    2. 解析分類引用——將每個事實映射到 US GAAP 或 IFRS 分類層次結構
    3. 處理擴充——申報者創建的自訂標籤需要映射到標準概念或標記
    4. 構建財務報表結構——從單獨的事實重構資產負債表、損益表和現金流量表
    5. 處理維度資料——部門報告、地理細分和產品線資料使用 XBRL 維度

    PDF 表格擷取

    1. 佈局偵測——識別每頁上的表格區域
    2. 列和行偵測——找到格線、對齊文字和單元格邊界
    3. 標題識別——區分列標題和資料行(包括多行標題)
    4. 單元格擷取——從每個單元格擷取文字,處理:
      • 負數的括號:(1,234) → -1234
      • 零的破折號或長破折號:— → 0
      • 百分比符號:12.5% → 0.125
      • 貨幣符號:$1,234 → 1234(美元)
    5. 多頁表格延續——偵測表格跨頁的情況並正確合併
    6. 腳注引用擷取——識別上標標記並連結到腳注文字

    標準化

    財務報表行項目的呈現方式各有不同:

    公司 A公司 B標準化
    Net revenuesRevenuerevenue
    Cost of goods soldCost of revenuecost_of_revenue
    Selling, general and adminSG&A expensessg_and_a
    Net income (loss)Net earningsnet_income

    標準化將這些變體映射到標準會計科目表。這需要:

    • 映射字典(從領域專業知識構建)
    • 模糊匹配用於新穎的呈現
    • 上下文意識(同一標籤在不同報表上可能有不同含義)

    AI 使用案例的標記

    財務分析自動化

    標記類型:行項目分類

    {"text": "Depreciation and amortization", "label": "depreciation_amortization", "statement": "income_statement", "subtotal_parent": "operating_expenses"}
    

    訓練資料:數千個將各種行項目描述映射到標準化類別的範例。

    異常偵測

    標記類型:正常 vs. 異常模式

    {"company": "ANON_001", "metric": "gross_margin", "period": "2025-Q3", "value": 0.12, "historical_avg": 0.34, "label": "anomaly", "severity": "high"}
    

    訓練資料:帶有標記異常的歷史財務資料(異常波動、錯誤、重述)。

    報告生成

    標記類型:文字到資料和資料到文字的配對

    {"financials": {"revenue": 45000000, "revenue_growth": 0.15, "gross_margin": 0.62}, "narrative": "Revenue increased 15% year-over-year to $45 million, driven by..."}
    

    訓練資料:財務資料與描述它們的人工撰寫敘述的配對。

    比率分析

    標記類型:帶解釋性標籤的計算比率

    {"current_ratio": 0.85, "industry_avg": 1.5, "interpretation": "below_industry_norm", "risk_flag": true}
    

    品質挑戰

    重述和更正

    財務報表會被重述。原始申報文件可能包含後續申報文件中更正的錯誤。訓練資料應該:

    • 使用每份申報文件的最新版本
    • 標記被重述的期間(原始錯誤和更正對異常偵測都是有用的訓練信號)
    • 追蹤使用了哪個版本的報表

    GAAP vs. 非 GAAP

    許多公司與 GAAP 數字一起報告非 GAAP 指標。訓練資料必須區分它們——在沒有標籤的情況下混合 GAAP 和非 GAAP 資料訓練的模型將產生不可靠的輸出。

    合併複雜性

    合併財務報表結合了多個實體的消除分錄。由於部門間消除和公司分配,部門級資料可能無法與合併總計相符。

    為何選擇本地環境

    AI 訓練的財務報表資料涉及:

    • 客戶機密資訊(會計事務所資料)
    • 重要非公開資訊(預發布財務資料)
    • 競爭情報(財務表現資料)
    • 監管義務(SOX、PCAOB、SEC)

    在雲端服務上處理這些資料會造成不必要的風險。像 Ertas Data Suite 這樣的本地平台將整個管道保持在本地——擷取、標準化、標記和匯出都在你的基礎設施上進行。財務專業人員可以通過桌面介面直接標記資料,完整的審計跟蹤滿足監管文件要求。

    財務 AI 從財務資料開始,由財務專業人員準備,在你控制的基礎設施上進行。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading