"¿Cuántos datos de entrenamiento necesito?" es la primera pregunta que todos hacen sobre fine-tuning. También es la pregunta con las respuestas más engañosas en línea. Encontrarás publicaciones de blog que afirman que necesitas 100,000+ ejemplos. Encontrarás otras que dicen que 50 es suficiente. Ambas están equivocadas para la mayoría de casos de uso, y la respuesta real depende de factores que son sorprendentemente medibles.

Esto es lo que hemos visto a través de cientos de ejecuciones de fine-tuning, desglosado por tamaño de dataset, tipo de tarea y la curva de rendimientos decrecientes que determina dónde más datos dejan de ayudar.

Los Benchmarks: Qué Sucede a Cada Escala

50-100 Ejemplos

Lo que obtienes: Un cambio de estilo notable. El modelo capta tus preferencias de formato, estructura de output y patrones básicos de vocabulario. Se siente diferente al modelo base.

Lo que no obtienes: Consistencia. El modelo producirá outputs acertados quizás el 60-70% del tiempo. El otro 30-40%, revierte al comportamiento del modelo base o produce outputs híbridos que mezclan tu estilo con sus valores predeterminados.

Suficiente para: Demos de prueba de concepto, prototipos internos, validar que el fine-tuning es el enfoque correcto antes de invertir en recolección de datos.

Métricas de evaluación (típicas): En un conjunto de prueba reservado de 20 ejemplos reales, espera puntuaciones de precisión/calidad 15-25% por debajo de tu objetivo. Para clasificación, la precisión podría ser 65-75% cuando necesitas 90%+.

200-500 Ejemplos

Lo que obtienes: Rendimiento sólido en tareas estrechas y bien definidas. La precisión de clasificación salta a 82-90%. Las tareas de generación producen outputs acertados 80-85% del tiempo. El modelo sigue tu formato de manera confiable y maneja patrones de entrada comunes.

Lo que no obtienes: Robustez en casos límite. Entradas que se desvían de la distribución de entrenamiento — frases inusuales, longitud inesperada, casos ambiguos — aún hacen tropezar al modelo.

Suficiente para: Tareas estrechas de producción con patrones de entrada predecibles. Un clasificador de tickets de soporte donde los tickets siguen formatos estándar. Un modelo de extracción sacando datos estructurados de documentos con plantilla. Cualquier tarea donde 85-90% de precisión es aceptable y tienes un fallback para el resto.

Métricas de evaluación (típicas): Precisión de clasificación 82-90%. Calidad de generación (evaluación humana) 80-85% acertada. Latencia idéntica al modelo base.

1,000-2,000 Ejemplos

Lo que obtienes: Este es el punto óptimo para la mayoría de proyectos de fine-tuning. El rendimiento es fuerte en casos comunes y razonable en casos límite. La precisión de clasificación llega a 90-95%. Las tareas de generación producen outputs consistentemente buenos con el tono, estructura y contenido correctos.

Lo que no obtienes: Manejo perfecto de casos límite raros. Si el 2% de tus entradas de producción son solicitudes inusuales de múltiples pasos, esas aún necesitan trabajo.

Suficiente para: La mayoría de despliegues de producción. Aquí es donde la relación costo-rendimiento es mejor para la mayoría de tareas. Obtienes el 90%+ del rendimiento máximo alcanzable a una fracción del costo de recolección de datos.

Métricas de evaluación (típicas): Precisión de clasificación 90-95%. Calidad de generación 88-93% acertada. Rendimiento dentro del 5-8% de lo que obtendrías con 10x más datos.

3,000-5,000 Ejemplos

Lo que obtienes: Rendimiento de grado producción para tareas complejas. El modelo maneja casos límite bien, mantiene consistencia a lo largo de conversaciones largas y generaliza a patrones de entrada no representados directamente en los datos de entrenamiento.

Lo que no obtienes: Mejora significativa sobre 2,000 ejemplos en tareas simples. Si tu tarea es clasificación directa o generación con plantilla, los 3,000 ejemplos extra agregan 1-3% de precisión como máximo.

Suficiente para: Tareas complejas con entradas diversas — soporte al cliente multi-turno, análisis de documentos legales, resumen de notas médicas. Tareas donde el espacio de entradas es grande y variado.

Métricas de evaluación (típicas): Precisión de clasificación 93-97%. Calidad de generación 92-96% acertada. Maneja correctamente el 95%+ de los casos límite de producción.

10,000+ Ejemplos

Lo que obtienes: Mejoras marginales. Pasar de 5,000 a 10,000 ejemplos típicamente agrega 1-2% a las métricas de precisión. Pasar de 10,000 a 50,000 agrega otro 0.5-1%.

Lo que no obtienes: Un retorno proporcional a tu inversión en datos. La curva de rendimiento se aplana dramáticamente después de 5,000 ejemplos para la mayoría de tareas.

Cuándo vale la pena: Tareas multilingües donde necesitas 1,000-2,000 ejemplos por idioma. Tareas de generación altamente diversas (escritura creativa, Q&A abierta) donde el espacio de output es enorme. Aplicaciones críticas de seguridad donde cada fracción de un por ciento importa.

Métricas de evaluación (típicas): Precisión de clasificación 95-98%. Calidad de generación 94-97% acertada. Los rendimientos decrecientes son claramente visibles.

La Curva de Rendimientos Decrecientes

La relación entre el tamaño del dataset y el rendimiento del modelo sigue una curva logarítmica, no lineal. Duplicar tu dataset de 500 a 1,000 ejemplos podría mejorar la precisión en 8%. Duplicar nuevamente de 1,000 a 2,000 la mejora en 4%. De 2,000 a 4,000, quizás 2%. De 4,000 a 8,000, aproximadamente 1%.

Esto significa que el costo por punto de mejora aumenta exponencialmente a medida que crece tu dataset:

Tamaño del Dataset	Ganancia Marginal de Precisión	Costo de Recolección (anotación humana)	Costo por Punto %
0 → 500	+35% (desde base)	$250-1,000	$7-29
500 → 1,000	+8%	$250-1,000	$31-125
1,000 → 2,000	+4%	$500-2,000	$125-500
2,000 → 5,000	+3%	$1,500-6,000	$500-2,000
5,000 → 10,000	+1.5%	$2,500-10,000	$1,667-6,667

La implicación práctica: a menos que tengas una razón específica para creer que tu tarea requiere 10,000+ ejemplos, empieza con 1,000-2,000 y mide antes de invertir más.

Factores Que Cambian el Número

Complejidad de la Tarea

La clasificación binaria simple (spam/no-spam) alcanza 90%+ de precisión con 300-500 ejemplos. La clasificación multi-clase con 20+ categorías necesita 1,500-3,000. La generación abierta con outputs diversos puede requerir 3,000-5,000 para lograr consistencia.

Regla general: Multiplica el número de categorías o patrones de output distintos por 50-100 para estimar el tamaño mínimo del dataset. 5 categorías x 100 = 500 ejemplos mínimo. 30 categorías x 75 = 2,250 mínimo.

Diversidad del Output

Si cada output correcto se ve aproximadamente igual (ej., extraer una fecha de un documento), necesitas menos ejemplos. Si los outputs correctos varían ampliamente (ej., escribir copy de marketing), necesitas más ejemplos para cubrir el espacio de output.

Una tarea de extracción de fechas podría estabilizarse en 500 ejemplos. Una tarea de copy de marketing podría no estabilizarse hasta 3,000-5,000.

Capacidad del Modelo Base

Un modelo base más capaz necesita menos datos. Ajustar Llama 3.3 70B en una tarea de clasificación alcanza 90% de precisión con 300 ejemplos. La misma tarea en Llama 3.2 3B necesita 800-1,000 ejemplos para llegar al mismo número.

Si puedes permitirte ejecutar un modelo base más grande, puedes permitirte un dataset más pequeño. Este es un compromiso genuino: los ahorros de costos de menos recolección de datos versus el costo continuo de inferencia de un modelo más grande.

Calidad de los Datos

Los datos de alta calidad son un multiplicador de fuerza. 500 ejemplos cuidadosamente curados pueden igualar a 2,000 ruidosos. Si estás eligiendo entre recolectar más datos y limpiar datos existentes, limpia primero. La sección de calidad a continuación explica por qué.

Cómo Medir Cuándo Tienes Suficiente

No adivines. Mide. La técnica es simple y toma aproximadamente una hora implementar:

Paso 1: Reserva el 10-15% de tus datos como conjunto de prueba reservado. Nunca entrenes con estos datos. Nunca ajustes hiperparámetros contra estos datos. Es tu verdad fundamental.

Paso 2: Ajusta con el 25% de tus datos de entrenamiento. Evalúa en el conjunto de prueba. Registra la métrica.

Paso 3: Ajusta con el 50% de tus datos de entrenamiento. Evalúa. Registra.

Paso 4: Ajusta con el 75%. Evalúa. Registra.

Paso 5: Ajusta con el 100%. Evalúa. Registra.

Paso 6: Grafica los cuatro puntos. Si la curva aún sube pronunciadamente al 100%, necesitas más datos. Si se está aplanando, estás en o cerca del plateau.

Esto se llama análisis de curva de aprendizaje, y es la única forma confiable de responder "¿necesito más datos?" para tu tarea específica. Cuesta 4 ejecuciones de entrenamiento, que en Ertas toma aproximadamente 30-60 minutos de tiempo de reloj para un modelo 7B con 2,000 ejemplos.

Qué Te Dice la Curva

Pronunciada al 100%: Recolecta más datos. Tu modelo aún tiene hambre de datos.
Aplanándose al 100%: Más datos ayudarán marginalmente. Considera mejorar la calidad de los datos en su lugar.
Plana del 50% al 100%: Tienes más datos de los que necesitas. Tu cuello de botella es otra cosa — calidad de datos, arquitectura del modelo o definición de la tarea.
Errática (el rendimiento cae en algunos puntos): Tus datos tienen problemas de calidad. Alguna porción de tu dataset está activamente perjudicando el entrenamiento. Limpia antes de recolectar más.

El Costo de Demasiados Datos

Más datos no siempre es mejor. Más allá de los rendimientos decrecientes en rendimiento, demasiados datos introducen costos reales:

El riesgo de sobreajuste aumenta con datos de baja calidad a escala. Un dataset grande y ruidoso puede enseñar al modelo a memorizar patrones de ruido en lugar de aprender la tarea real. Esto se manifiesta como excelentes métricas de entrenamiento pero bajo rendimiento en entradas nuevas.

El tiempo de entrenamiento escala linealmente. 10,000 ejemplos toma 5x más de entrenar que 2,000. En una sola GPU A100, un fine-tune LoRA de 7B con 2,000 ejemplos toma aproximadamente 20-40 minutos. Con 10,000 ejemplos, son 1.5-3 horas. No es catastrófico, pero ralentiza los ciclos de iteración.

Sobrecarga de gestión de datos. Los datasets más grandes son más difíciles de auditar, versionar y mantener. Cuando necesitas arreglar un problema de etiquetado, actualizar 10,000 ejemplos es significativamente más trabajo que actualizar 2,000.

Recomendaciones Prácticas por Caso de Uso

Clasificación de Soporte al Cliente (5-15 categorías)

Empieza con: 500-800 ejemplos
Objetivo para producción: 1,000-1,500
Máximo útil: 3,000

Extracción de Datos de Documentos (campos estructurados)

Empieza con: 300-500 ejemplos
Objetivo para producción: 800-1,200
Máximo útil: 2,000

Generación de Contenido (copy de marketing, resúmenes)

Empieza con: 800-1,200 ejemplos
Objetivo para producción: 2,000-3,000
Máximo útil: 5,000-8,000

Generación de Código (dominio estrecho)

Empieza con: 500-800 ejemplos
Objetivo para producción: 1,500-2,500
Máximo útil: 5,000

Conversación Multi-Turno (chatbot con persona específica)

Empieza con: 1,000-1,500 ejemplos (conversaciones, no mensajes)
Objetivo para producción: 2,500-4,000
Máximo útil: 8,000-10,000

Análisis de Documentos Legales/Médicos

Empieza con: 1,000-2,000 ejemplos
Objetivo para producción: 3,000-5,000
Máximo útil: 10,000+

La Conclusión

Para la mayoría de equipos, la mayoría de tareas: empieza con 1,000 a 2,000 ejemplos. Usa datos sintéticos para arrancar si no tienes suficientes datos reales. Ejecuta un análisis de curva de aprendizaje para saber si necesitas más. Limpia tus datos antes de recolectar más.

Los equipos que obtienen los mejores resultados de fine-tuning no son los que tienen más datos. Son los que miden el impacto de sus datos, identifican el plateau e invierten en calidad sobre cantidad una vez que lo alcanzan.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura Relacionada

Generación de Datos Sintéticos para Fine-Tuning: Técnicas que Funcionan — cómo generar datos de entrenamiento cuando no tienes suficientes ejemplos reales
Ajusta un Modelo para Tu App: Del Dataset al Despliegue — guía de extremo a extremo cubriendo preparación de dataset, entrenamiento y despliegue

100 vs 1,000 vs 10,000 Ejemplos de Entrenamiento: ¿Cuántos Datos Realmente Necesitas?