CSV for ML Training Format Guide

    使用 CSV 檔案作為機器學習訓練資料

    Training Data

    Specification

    CSV(Comma-Separated Values,逗號分隔值)是最古老且最廣泛使用的資料交換格式之一,在 RFC 4180 中標準化。每行代表一條記錄,欄位由逗號分隔,當欄位包含逗號、換行符或引號時可選擇使用雙引號括起。第一行通常作為標頭行定義欄位名稱。雖然 CSV 的簡潔性使其在資料科學中無處不在,但將其用於機器學習訓練資料時需要仔細注意編碼、轉義和架構一致性。

    CSV 檔案是純文字,使其具有人類可讀性,並與每種資料處理工具、程式語言和試算表應用程式通用相容。對於機器學習訓練資料,CSV 通常用於表格分類任務、迴歸資料集、具有短文字欄位的簡單文字分類和結構化特徵資料集。Pandas、scikit-learn 和許多 AutoML 工具接受 CSV 作為其主要輸入格式,Kaggle 競賽傳統上以 CSV 格式分發資料集。

    然而,CSV 對現代機器學習工作流程有顯著的限制。它缺乏對巢狀資料結構的原生支援、沒有標準化的型別系統(一切都是文字直到被解析)、處理多行文字欄位效果不佳,且不提供壓縮。由於缺少架構,欄位型別必須被推斷或手動指定,導致混合型別欄位的潛在解析錯誤。Unicode 支援因實作而異,大型 CSV 檔案與 Parquet 等欄式格式相比效率極低。

    When to Use CSV for ML Training

    CSV 適用於中小型表格機器學習資料集(幾百 MB 以下),其中人類可讀性和通用工具相容性是優先考量。對於由試算表應用程式產生、從 SQL 資料庫匯出或與 scikit-learn 和傳統機器學習框架一起使用的資料集,它是自然的選擇。如果您的資料是嚴格的表格式,具有簡單型別(數字、短字串、類別)且可以舒適地放入記憶體,CSV 效果良好。

    當您與需要在 Excel 或 Google Sheets 中檢查和編輯資料的非技術利益相關者合作時、當您從僅匯出 CSV 的舊系統匯入資料時,或當您的機器學習框架特別期望 CSV 輸入時(許多 AutoML 平台和 Kaggle 核心),選擇 CSV。CSV 也是快速原型開發中最簡單的格式,其中格式開銷不是問題。

    避免對包含長文字(段落、文件)、巢狀結構(對話執行緒、層次標籤)、二進位資料或任何超過幾百 MB 的資料集使用 CSV。對於 LLM 微調資料,JSONL 幾乎總是更好的選擇。對於大規模儲存,Parquet 提供顯著更好的壓縮和查詢性能。如果您的 CSV 檔案經常導致編碼問題或解析錯誤,切換到 JSONL 或 Parquet 將消除這些問題。

    Schema / Structure

    text
    RFC 4180 CSV Format Rules:
    1. Each record is on a separate line, delimited by CRLF
    2. The last record may or may not have an ending CRLF
    3. An optional header line with field names may be present
    4. Fields are separated by commas
    5. Fields MAY be enclosed in double quotes
    6. Fields containing commas, CRLFs, or quotes MUST be quoted
    7. Double quotes inside quoted fields are escaped as ""
    
    Example header + 2 records:
    text,label,split
    "Simple positive review",positive,train
    "Text with ""quotes"" and, commas",negative,test
    RFC 4180 CSV 格式規格規則與範例

    Example Data

    csv
    text,label,confidence,source
    "The battery life is exceptional, easily lasts two days",positive,0.94,amazon_reviews
    "Screen broke after one week. Very disappointed.",negative,0.91,amazon_reviews
    "Decent phone for the price range",neutral,0.78,amazon_reviews
    "Camera quality in low light is surprisingly good",positive,0.87,amazon_reviews
    "Slow charging speed compared to competitors",negative,0.82,amazon_reviews
    "Average performance, does what I need it to do",neutral,0.73,amazon_reviews
    用於產品情感分類訓練資料集的 CSV 檔案範例

    Ertas Support

    Ertas Data Suite 支援具有自動編碼偵測、分隔符推斷和型別解析的 CSV 匯入。您可以匯入 CSV 資料集、套用 PII 編輯和資料品質轉換,並匯出為 CSV 或轉換為更高效的格式如 JSONL 或 Parquet。資料譜系系統追蹤對 CSV 資料套用的所有轉換,在格式轉換過程中維護來源記錄。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.