企業微調專案的資料準備服務定價

資料準備服務的定價比模型訓練或部署的定價更難。範圍的可預測性較差，成本驅動因素更多，而且向客戶表達價值很難用一個簡單的指標來說明。大多數 ML 服務供應商對資料準備的定價偏低，因為他們將其視為「真正」工作的前置作業，而非獨立的高價值服務。

本指南涵蓋定價模式、成本驅動因素、範例定價結構，以及為企業客戶提供本地端資料準備的 ML 服務供應商的經常性收入機會。

定價模式

專案固定費用

針對明確可交付成果的單一價格：「我們將在此時間線內，從您的源資料中準備一個符合這些品質標準、以這種格式呈現的訓練就緒資料集。」

何時奏效： 在徹底的探索階段後，範圍有明確界定。資料量已知。格式多樣性已清楚。合規要求明確。

何時不奏效： 範圍模糊不清。資料品質未知。客戶可能在專案過程中增加資料來源或更改需求。在這些情況下，固定費用定價會在出現意外情況時產生走捷徑的動機。

典型結構： 預付 50%，在中期里程碑時支付 25%，在交付和驗收時支付 25%。

按時間和材料計費

按實際工程師工時以每天或每週計費。客戶為實際使用的資源付費。

何時奏效： 範圍不確定。探索發現資料比預期更混亂。專案是探索性的，或客戶預計會迭代需求。

何時不奏效： 客戶有沒有彈性的固定預算。或者客戶認為按時間材料計費是開放式風險（「我怎麼知道你們不會一直開帳單？」）。

典型結構： 每週計費，有上限或「不超過」估算。資料準備工作的工程師日費通常在 $1,500 到 $3,000 之間，取決於資深程度和領域專業知識。

保留費

持續資料準備服務的月費：定期資料攝入、定期重新標記、新資料來源整合、品質監控。

何時奏效： 客戶在初始構建後需要持續的資料管道維護。新資料定期到來。模型需要在更新的資料集上重新訓練。

何時不奏效： 客戶有一次性需求且沒有持續的資料流。

典型結構： 月保留費為初始專案費用的 20-40%。包含明確的工作範圍（例如，「每月最多 X 小時，最多處理 Y GB 的新資料」）。

按資料集定價

以交付的資料集為單位定價，按數量和複雜程度定義。

何時奏效： 重複客戶有可預測的資料準備需求。每個資料集的範圍足夠一致，可以可靠地定價。

何時不奏效： 高度可變的資料集，每個都需要不同的清理規則、標記分類法或合規處理。

市場定價訊號

根據探索電話和市場對話，本地端資料準備構建的定價範圍正在趨於一致：

專案類型	典型範圍	說明
小型（單一格式，低於 50 GB）	$8K–$12K	2-3 週專案
中型（多格式，50-500 GB）	$12K–$20K	4-6 週專案
大型（多模態，500 GB 以上）	$20K–$40K 以上	6-12 週專案，通常分階段
現場部署附加服務	+$5K–$15K	現場工程時間溢價

這些範圍假設以單一訓練就緒資料集作為可交付成果。包含多種輸出格式、複雜標記分類法或嚴格合規文件的專案通常定價在範圍的高端。

一位本地端 AI 公司的技術長告訴我們：「讓資料清理流程大幅簡化，即使只有 80% 的自動化，也會是巨大的推動力。」支付意願受替代方案成本的驅動——內部團隊使用零散工具和自訂腳本，花費 60-80% 的 ML 專案時間在資料準備上。

成本驅動因素

了解成本驅動因素對於準確定價至關重要。它們決定了資料準備專案中工作實際所在的位置。

資料量

更多資料需要更多時間來攝入、清理和驗證。但量不是主要成本驅動因素——500 GB 格式一致的 PDF 語料庫可能比 50 GB 混合格式語料庫更容易處理。

數量	影響
低於 50 GB	在標準硬體上可管理。管道在數小時內運行。
50-500 GB	可能需要批次處理。管道在數小時到數天內運行。
500 GB 以上	需要考慮基礎設施（磁碟、記憶體）。管道在數天內運行。建議分階段交付。

格式多樣性

這通常是最大的成本驅動因素。單一格式語料庫需要一個攝入管道。五種格式語料庫需要五個攝入管道、五套清理規則和五套驗證邏輯——加上確保它們都產生相容輸出的整合測試。

格式多樣性	倍增因子
單一格式	1 倍（基準）
2-3 種格式	1.5-2 倍
4 種以上格式或多模態	2.5-4 倍

標記複雜性

簡單的二元標籤（相關/不相關）很快。擁有 50 個以上標籤、標注者間一致性要求和特定領域邊緣案例的階層分類法則工作量高出一個量級。

標記複雜性	每 1,000 條記錄的時間
二元分類	2-4 小時
多類別（5-15 個標籤）	8-16 小時
階層分類法（50 個以上標籤）	20-40 小時以上
序列標記 / 命名實體識別	15-30 小時

合規要求

合規在每個階段都增加工作：資料處理程序、存取控制、稽核軌跡文件、編輯步驟和最終合規報告。

合規等級	影響
標準（無特定法規）	最少開銷
行業特定（HIPAA、SOC 2）	額外增加 15-25% 的時間
氣隔/完整稽核軌跡	額外增加 25-40% 的時間

目標輸出格式數量

一些客戶只需要單一格式的資料集。其他人需要多種格式——JSONL 用於訓練、Parquet 用於分析、CSV 用於人工審查，以及他們特定訓練框架的自訂格式。

每種額外的輸出格式都增加了導出邏輯、驗證和文件工作。

範例定價結構

小型專案：保險文件分類

資料： 30 GB 的 PDF 保單文件，單一格式
標籤： 8 類文件類型分類
合規： SOC 2，需要個人識別資訊編輯
輸出： 用於微調的 JSONL
時間線： 3 週
價格： $10,000 固定費用

階段	時長	費用
探索 + 範圍界定	2 天	$1,500
管道設置 + 攝入	2 天	$1,500
個人識別資訊編輯 + 清理	3 天	$2,000
標記 + 品質保證	5 天	$3,000
導出 + 文件 + 交接	3 天	$2,000

中型專案：醫療臨床記錄

資料： 200 GB，3 種格式（電子健康記錄導出、掃描記錄、口述文字記錄）
標籤： 25 類臨床實體提取
合規： HIPAA，完整稽核軌跡，受保護健康資訊編輯
輸出： JSONL + Parquet
時間線： 5 週
價格： $18,000 固定費用

大型專案：建築文件處理

資料： 600 GB，5 種以上格式（工程圖紙、工程量清單電子表格、規格書、往來函件、掃描現場報告）
標籤： 階層分類法，40 個以上類別
合規： 僅限本地端，完整資料血緣
輸出： JSONL + 客戶訓練管道的自訂格式
時間線： 10 週（分階段：試點 → 規模化）
價格： $35,000 基於專案，分階段計費

經常性收入機會

初始專案構建了管道並生成了第一個資料集。但企業 AI 不是一次性事件。模型需要重新訓練。新資料到來。需求不斷演進。

這創造了三個經常性收入流：

一、持續資料管道維護

管道需要監控、更新和偶爾的修復。出現新資料格式。清理規則需要精煉。品質閾值需要調整。

定價： 月保留費，通常每月 $2K-$5K，取決於管道複雜性。

二、重新訓練資料準備

每個模型重新訓練週期都需要新的訓練資料。管道已存在，但新資料必須攝入、清理、標記和導出。

定價： 按批次或按季度，通常為初始資料集準備成本的 30-50%。

三、新資料來源整合

客戶的 AI 計劃擴展。新的使用場景需要新的資料來源。每個新來源都需要攝入配置、清理規則和標記分類法更新。

定價： 按資料來源，通常每個 $3K-$8K，取決於複雜性。

在 12 個月的關係中，來自維護、重新訓練和擴展的經常性收入可以等於甚至超過初始專案價值。這將基於專案的業務轉變為具有可預測收入的業務。

統一工具如何影響利潤

您的交付成本取決於您的團隊執行管道的效率。零散工具——攝入、清理、標記、增強和導出分別使用不同工具——意味著在整合、格式轉換和黏合代碼上花費時間。這些時間是真實的成本，不會出現在客戶的帳單上。

像 Ertas Data Suite 這樣的統一工具通過消除工具轉換來降低交付成本。一個平台處理整個管道。沒有自訂整合代碼。沒有格式轉換腳本。沒有黏合代碼。您的團隊本來要花在管道上的時間，轉而用於客戶付費的工作——清理、標記和驗證他們的資料。

對於服務供應商來說，這是直接的利潤提升。客戶支付相同的價格。您的交付成本更低。差額就是利潤。

本文的定位

定價是資料準備服務實踐的商業層面。本系列的運營文章——範圍界定、隔離、可重現性、交接和現場部署——定義了工作如何完成。本文定義了工作如何獲得報酬。