CSV para Entrenamiento de ML Format Guide

    Uso de archivos CSV para datos de entrenamiento de machine learning

    Training Data

    Specification

    CSV (Comma-Separated Values) es uno de los formatos de intercambio de datos más antiguos y ampliamente utilizados, estandarizado en RFC 4180. Cada línea representa un registro, con campos separados por comas y opcionalmente encerrados entre comillas dobles cuando el campo contiene comas, saltos de línea o comillas. La primera línea típicamente sirve como fila de encabezado que define los nombres de las columnas. Aunque la simplicidad de CSV lo ha hecho ubicuo en la ciencia de datos, su uso para datos de entrenamiento de ML requiere atención cuidadosa a la codificación, el escapado y la consistencia del esquema.

    Los archivos CSV son texto plano, lo que los hace legibles por humanos y universalmente compatibles con todas las herramientas de procesamiento de datos, lenguajes de programación y aplicaciones de hojas de cálculo. Para datos de entrenamiento de ML, CSV se usa típicamente para tareas de clasificación tabular, datasets de regresión, clasificación de texto simple con campos de texto cortos y datasets de características estructuradas. Pandas, scikit-learn y muchas herramientas AutoML aceptan CSV como su formato de entrada principal, y las competencias de Kaggle han distribuido tradicionalmente datasets en formato CSV.

    Sin embargo, CSV tiene limitaciones significativas para flujos de trabajo modernos de ML. Carece de soporte nativo para estructuras de datos anidadas, no tiene un sistema de tipos estandarizado (todo es texto hasta que se parsea), maneja mal los campos de texto multilínea y no provee compresión. La ausencia de un esquema significa que los tipos de columnas deben inferirse o especificarse manualmente, lo que lleva a posibles errores de parseo con columnas de tipos mixtos. El soporte de Unicode varía según la implementación, y los archivos CSV grandes son extremadamente ineficientes comparados con formatos columnares como Parquet.

    When to Use CSV para Entrenamiento de ML

    CSV es apropiado para datasets tabulares de ML pequeños a medianos (menos de unos cientos de megabytes) donde la legibilidad humana y la compatibilidad universal de herramientas son prioridades. Es la opción natural para datasets producidos por aplicaciones de hojas de cálculo, exportados desde bases de datos SQL, o usados con scikit-learn y frameworks de ML tradicionales. Si tus datos son estrictamente tabulares con tipos simples (números, cadenas cortas, categorías) y caben cómodamente en memoria, CSV funciona bien.

    Elige CSV cuando trabajes con partes interesadas no técnicas que necesiten inspeccionar y editar datos en Excel o Google Sheets, cuando importes datos de sistemas heredados que solo exportan CSV, o cuando tu framework de ML espere específicamente entrada en CSV (muchas plataformas AutoML y kernels de Kaggle). CSV también es el formato más simple para prototipado rápido donde la sobrecarga del formato no es una preocupación.

    Evita CSV para datasets que contengan texto largo (párrafos, documentos), estructuras anidadas (hilos de conversación, etiquetas jerárquicas), datos binarios o cualquier cosa que exceda unos pocos cientos de megabytes. Para datos de fine-tuning de LLM, JSONL es casi siempre una mejor opción. Para almacenamiento a gran escala, Parquet proporciona compresión y rendimiento de consultas dramáticamente mejores. Si tus archivos CSV causan regularmente problemas de codificación o errores de parseo, cambiar a JSONL o Parquet eliminará estos problemas.

    Schema / Structure

    text
    RFC 4180 CSV Format Rules:
    1. Each record is on a separate line, delimited by CRLF
    2. The last record may or may not have an ending CRLF
    3. An optional header line with field names may be present
    4. Fields are separated by commas
    5. Fields MAY be enclosed in double quotes
    6. Fields containing commas, CRLFs, or quotes MUST be quoted
    7. Double quotes inside quoted fields are escaped as ""
    
    Example header + 2 records:
    text,label,split
    "Simple positive review",positive,train
    "Text with ""quotes"" and, commas",negative,test
    Reglas de especificación del formato CSV según RFC 4180 con ejemplos

    Example Data

    csv
    text,label,confidence,source
    "The battery life is exceptional, easily lasts two days",positive,0.94,amazon_reviews
    "Screen broke after one week. Very disappointed.",negative,0.91,amazon_reviews
    "Decent phone for the price range",neutral,0.78,amazon_reviews
    "Camera quality in low light is surprisingly good",positive,0.87,amazon_reviews
    "Slow charging speed compared to competitors",negative,0.82,amazon_reviews
    "Average performance, does what I need it to do",neutral,0.73,amazon_reviews
    Archivo CSV de ejemplo para un dataset de entrenamiento de clasificación de sentimiento de productos

    Ertas Support

    Ertas Data Suite soporta la importación de CSV con detección automática de codificación, inferencia de delimitador y parseo de tipos. Puedes importar datasets CSV, aplicar redacción de PII y transformaciones de calidad de datos, y exportar a CSV o convertir a formatos más eficientes como JSONL o Parquet. El sistema de linaje de datos rastrea todas las transformaciones aplicadas a los datos CSV, manteniendo la procedencia a través de las conversiones de formato.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.