
27 個企業 AI 團隊告訴我們的資料準備問題
基於跨受監管行業的 27 次探索通話,在微調、RAG 或代理甚至能開始之前,一個問題不斷浮現:資料準備。以下是我們聽到的內容。
我們在六個月內跨受監管行業進行了 27 次探索通話。對話涵蓋了工程和建築公司、醫療機構、法律事務所、金融服務團隊、設備端 AI 新創公司,以及為企業客戶構建的 AI 代理商。
我們詢問了 AI 採用目標、當前工具、阻礙因素,以及時間實際花在哪裡。我們預期會有各種不同的答案,卻得到了一個一致到幾乎令人不安的模式。
九個不同的 ICP 將資料準備命名為他們的第一大 AI 痛點——在我們直接詢問之前就主動說出來了。具體問題各不相同:文件格式、監管限制、標注複雜性、基礎設施限制。但根本原因始終相同:在原始業務資料和 AI 就緒訓練資料之間存在一個缺失的層,沒有人有好的答案來彌補它。
以下是他們告訴我們的。
我們交談的團隊
27 次通話大致如下分佈:
- 工程和建築公司(4 家): 管理大型文件檔案——工程量清單、規範、工程圖紙、專案報告——多年積累的 PDF、掃描文件和遺留格式資料。
- 醫療機構(5 家): 臨床筆記、病患記錄、放射報告、計費資料。HIPAA 合規要求意味著雲端工具實際上不在考慮範圍內。
- 法律事務所和法律科技公司(4 家): 合約庫、案件文件、監管申報。資料特權和客戶保密性制造了與醫療類似的限制。
- 金融服務和金融科技(3 家): 交易記錄、合規文件、風險評估。監管稽核軌跡要求在標準 AI 工具之上增加了一層複雜性。
- 設備端和邊緣 AI 公司(4 家): 構建設計為在本地硬體上運行的 AI 產品。他們自己的資料準備管道正在阻礙產品開發時間表。
- AI 代理商(5 家): 為企業客戶構建 AI 系統。他們報告的問題通常是客戶問題的代理——他們自己在吸收資料準備複雜性。
- 早期 AI 新創公司(2 家): 筆記、文件智慧、知識管理。較小的團隊,但同樣的資料問題,壓縮在創始人時間裡。
在所有這些中,9 個團隊將資料準備命名為 AI 專案的主要瓶頸——在模型選擇、基礎設施或合規審查之前。在大多數情況下,他們已經解決了其他那些領域。資料是仍然存在的問題。
「資料準備」對每個細分市場實際上意味著什麼
更有趣的發現之一是,「資料準備」根據行業確實意味著不同的事情——但痛苦的體驗是相同的。
對工程和建築公司而言,資料準備意味著將 700GB 的 PDF 規範、手繪工程文件和掃描工程量清單的檔案轉換為結構化資料,以訓練模型提取行項目、數量和成本估算。這些公司之一的 AI 負責人直白地說:
「問題不在於微調,而在於清理和準備多樣化的資料。」
多樣性是挑戰。單個專案可能涉及帶有嵌入式表格的 PDF、掃描藍圖、專有格式的 Excel 文件和手寫筆記。從那裡到乾淨的標注資料集,需要解析、標準化、去重和專家標注——沒有單一工具能夠處理整個鏈。
對醫療團隊而言,資料準備意味著不同的事情:在任何處理開始之前進行 PHI 編輯,然後從用非標準速記撰寫的臨床筆記中提取結構,然後由不是資料科學家的臨床醫師進行標注。合規要求不是附帶的——它決定了哪些工具是允許的,哪些不是。
對法律團隊而言,挑戰類似,但增加了特權的複雜性。你不能將客戶文件發送到雲端 API 來解析它們。你需要在本地運行的解析工具、領域專家(律師,而非 ML 工程師)實際上能夠操作的標注工具,以及能夠在法律揭露中存活的稽核軌跡。
對邊緣 AI 公司而言,資料準備正在阻礙產品時間表。他們的問題是標注吞吐量——目標類別隨著產品發展而變化,標注工具需要 ML 工程才能操作,以及對工程師來說本質上是領域專家任務的依賴,正在使一切放緩。一家邊緣 AI 新創公司的團隊告訴我們:
「資料標注是主要挑戰——目標類別頻繁變化。」