CSV para Entrenamiento de ML Format Guide

Uso de archivos CSV para datos de entrenamiento de machine learning

Training Data

Specification

CSV (Comma-Separated Values) es uno de los formatos de intercambio de datos más antiguos y ampliamente utilizados, estandarizado en RFC 4180. Cada línea representa un registro, con campos separados por comas y opcionalmente encerrados entre comillas dobles cuando el campo contiene comas, saltos de línea o comillas. La primera línea típicamente sirve como fila de encabezado que define los nombres de las columnas. Aunque la simplicidad de CSV lo ha hecho ubicuo en la ciencia de datos, su uso para datos de entrenamiento de ML requiere atención cuidadosa a la codificación, el escapado y la consistencia del esquema.

Los archivos CSV son texto plano, lo que los hace legibles por humanos y universalmente compatibles con todas las herramientas de procesamiento de datos, lenguajes de programación y aplicaciones de hojas de cálculo. Para datos de entrenamiento de ML, CSV se usa típicamente para tareas de clasificación tabular, datasets de regresión, clasificación de texto simple con campos de texto cortos y datasets de características estructuradas. Pandas, scikit-learn y muchas herramientas AutoML aceptan CSV como su formato de entrada principal, y las competencias de Kaggle han distribuido tradicionalmente datasets en formato CSV.

Sin embargo, CSV tiene limitaciones significativas para flujos de trabajo modernos de ML. Carece de soporte nativo para estructuras de datos anidadas, no tiene un sistema de tipos estandarizado (todo es texto hasta que se parsea), maneja mal los campos de texto multilínea y no provee compresión. La ausencia de un esquema significa que los tipos de columnas deben inferirse o especificarse manualmente, lo que lleva a posibles errores de parseo con columnas de tipos mixtos. El soporte de Unicode varía según la implementación, y los archivos CSV grandes son extremadamente ineficientes comparados con formatos columnares como Parquet.

When to Use CSV para Entrenamiento de ML

CSV es apropiado para datasets tabulares de ML pequeños a medianos (menos de unos cientos de megabytes) donde la legibilidad humana y la compatibilidad universal de herramientas son prioridades. Es la opción natural para datasets producidos por aplicaciones de hojas de cálculo, exportados desde bases de datos SQL, o usados con scikit-learn y frameworks de ML tradicionales. Si tus datos son estrictamente tabulares con tipos simples (números, cadenas cortas, categorías) y caben cómodamente en memoria, CSV funciona bien.

Elige CSV cuando trabajes con partes interesadas no técnicas que necesiten inspeccionar y editar datos en Excel o Google Sheets, cuando importes datos de sistemas heredados que solo exportan CSV, o cuando tu framework de ML espere específicamente entrada en CSV (muchas plataformas AutoML y kernels de Kaggle). CSV también es el formato más simple para prototipado rápido donde la sobrecarga del formato no es una preocupación.

Evita CSV para datasets que contengan texto largo (párrafos, documentos), estructuras anidadas (hilos de conversación, etiquetas jerárquicas), datos binarios o cualquier cosa que exceda unos pocos cientos de megabytes. Para datos de fine-tuning de LLM, JSONL es casi siempre una mejor opción. Para almacenamiento a gran escala, Parquet proporciona compresión y rendimiento de consultas dramáticamente mejores. Si tus archivos CSV causan regularmente problemas de codificación o errores de parseo, cambiar a JSONL o Parquet eliminará estos problemas.

Schema / Structure

text

RFC 4180 CSV Format Rules:
1. Each record is on a separate line, delimited by CRLF
2. The last record may or may not have an ending CRLF
3. An optional header line with field names may be present
4. Fields are separated by commas
5. Fields MAY be enclosed in double quotes
6. Fields containing commas, CRLFs, or quotes MUST be quoted
7. Double quotes inside quoted fields are escaped as ""

Example header + 2 records:
text,label,split
"Simple positive review",positive,train
"Text with ""quotes"" and, commas",negative,test

Reglas de especificación del formato CSV según RFC 4180 con ejemplos

Example Data

csv

text,label,confidence,source
"The battery life is exceptional, easily lasts two days",positive,0.94,amazon_reviews
"Screen broke after one week. Very disappointed.",negative,0.91,amazon_reviews
"Decent phone for the price range",neutral,0.78,amazon_reviews
"Camera quality in low light is surprisingly good",positive,0.87,amazon_reviews
"Slow charging speed compared to competitors",negative,0.82,amazon_reviews
"Average performance, does what I need it to do",neutral,0.73,amazon_reviews

Archivo CSV de ejemplo para un dataset de entrenamiento de clasificación de sentimiento de productos

Ertas Support

Ertas Data Suite soporta la importación de CSV con detección automática de codificación, inferencia de delimitador y parseo de tipos. Puedes importar datasets CSV, aplicar redacción de PII y transformaciones de calidad de datos, y exportar a CSV o convertir a formatos más eficientes como JSONL o Parquet. El sistema de linaje de datos rastrea todas las transformaciones aplicadas a los datos CSV, manteniendo la procedencia a través de las conversiones de formato.

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →