
prodigydoclingstack-auditdata-preparationenterprise-aisegment:enterprise
Prodigy + Docling + 自訂腳本:真實企業技術棧稽核
深入剖析典型企業資料準備技術棧的實際樣貌——用 Prodigy 標注、Docling 解析、自訂腳本處理其他一切——並找出摩擦點所在。
EErtas Team·
真實的企業 AI 資料準備技術棧是什麼樣的?不是架構投影片上的示意圖——而是一個 ML 團隊日常運作的工具、腳本和應急方案的實際狀況。
這是對一個具代表性技術棧的稽核:Prodigy 用於標注,Docling 用於文件解析,自訂 Python 腳 本 用於處理其他一切。每個工具在其類別中都廣受好評。摩擦點在於它們之間的空隙。
技術棧
Prodigy(Explosion AI)——每年 $390-$10,000
Prodigy 可以說是 NLP 任務中最好的標注工具。它快速、可腳本化、本地運行(對敏感資料很重要),並支援主動學習。它是那些用過其他所有工具的 ML 工程師通常最終選擇的工具。
它擅長的:
- 極其高效的標注介面(為速度而設計)
- 完全本地運行——無雲端依賴,無需 Docker
- 主動學習:建議標籤,從修正中學習
- 可自訂的 Python API
- 支援 NLP(命名實體識別、文本分類、跨度)和電腦視覺任務
它不做的:
- 沒有文件解析——期望文本輸入,而非 PDF
- 沒有資料清理或品質評分
- 沒有合規稽核軌跡(為生產力而設計,而非治理)
- 單用戶為中心——團隊功能需要自訂編排
- 沒有多格式導出(輸出 Prodigy 的內部格式)
Docling(IBM Research)——免費/開源
Docling 是一個強大的文件解析器。它處理 PDF、Word 文件和其他格式,具有良好的表格提取和版面偵測功能。
它擅長的:
- 97.9% 的表格提取準確率(與商業工具相當)
- 版面感知解析(標題、段落、列表、表格)
- 多種輸出格式(Markdown、JSON、文本)
- 開源,由 IBM Research 積極維護
它不做的:
- 沒有標記功能
- 沒有資料清理、去重複或品質評分
- 沒有個人識別資訊偵測或編輯
- 沒有稽核軌跡
- 沒有 GUI——只有命令列介面
自訂 Python 腳本——「免費」
Docling 和 Prodigy 之間的一切——以及 Prodigy 之後的一切——都是自訂代碼:
docling_to_prodigy.py— 將 Docling 輸出轉換為 Prodigy 的輸入格式clean_extracted_text.py— 去重複、品質過濾、標準化pii_detection.py— 基於正規表達式和命名實體識別的個人識別資訊偵測prodigy_export.py— 將 Prodigy 標注導出為訓練格式quality_check.py— 標注者間一致性、標籤分佈分析prepare_training_data.py— 最終格式化以供模型訓練
總計:約 3,000-5,000 行 Python 代碼,分佈在 8-12 個腳本中