Para ajustar un LLM, preparas un dataset JSONL de pares instrucción-respuesta, seleccionas un modelo base (típicamente de 7B-8B parámetros), aplicas adaptadores LoRA o QLoRA, entrenas durante 1-5 épocas y exportas el resultado como un archivo GGUF para despliegue. El proceso completo toma de 30 minutos a unas pocas horas dependiendo del tamaño del dataset y el hardware. Según Hugging Face, los métodos de fine-tuning eficientes en parámetros como LoRA pueden reducir los parámetros entrenables en más del 99% mientras logran resultados dentro del 2-5% del fine-tuning completo. Investigaciones del Stanford HAI AI Index Report muestran que los modelos más pequeños ajustados consistentemente superan a los modelos más grandes con prompting en tareas específicas de dominio, haciendo del fine-tuning una de las formas más rentables de construir IA de producción.

Esta guía recorre todo el proceso: cuándo el fine-tuning tiene sentido, cómo preparar tus datos, qué modelo base elegir, cómo configurar el entrenamiento y cómo desplegar el resultado.

¿Cuándo Deberías Ajustar?

El fine-tuning no siempre es la respuesta correcta. Antes de invertir tiempo preparando datos y ejecutando trabajos de entrenamiento, considera si tu problema realmente lo requiere.

El fine-tuning tiene sentido cuando:

La ingeniería de prompts llega a un techo. Has probado ejemplos few-shot, prompting de cadena de pensamiento e instrucciones de sistema, pero el modelo aún no produce resultados consistentes para tu dominio.
Necesitas un formato de salida específico. Tu aplicación requiere JSON estructurado, un estilo de escritura particular o terminología específica del dominio que los modelos base tienen dificultad para producir de forma confiable.
La latencia y el costo importan a escala. Un modelo 7B ajustado puede superar a un modelo 70B con prompting en tareas estrechas — a una fracción del costo de inferencia.
Los requisitos de privacidad prohíben APIs en la nube. Los modelos ajustados pueden ejecutarse completamente en tu infraestructura, manteniendo los datos sensibles fuera de servidores de terceros.

Considera alternativas cuando:

Tu tarea es amplia y cambia frecuentemente — la ingeniería de prompts o RAG puede ser más flexible.
Tienes menos de 100 ejemplos de entrenamiento de calidad — el fine-tuning necesita suficientes datos para aprender patrones sin sobreajuste.
Necesitas que el modelo acceda a conocimiento externo que cambia frecuentemente — la generación aumentada por recuperación maneja esto mejor.

Para una comparación más profunda, consulta nuestra guía sobre fine-tuning vs RAG.

Paso 1: Prepara Tus Datos de Entrenamiento

La calidad de los datos es el factor más importante para el éxito del fine-tuning. Un modelo entrenado con 500 ejemplos excelentes superará a uno entrenado con 10,000 mediocres.

Formato: JSONL

El formato estándar para datos de fine-tuning es JSONL (JSON Lines) — un objeto JSON por línea. Cada línea típicamente contiene una instrucción y la respuesta deseada:

{"instruction": "Clasifica este ticket de soporte como facturación, técnico o general.", "input": "No puedo iniciar sesión en mi cuenta después de restablecer mi contraseña.", "output": "técnico"}
{"instruction": "Clasifica este ticket de soporte como facturación, técnico o general.", "input": "¿Cuándo se me cobrará por el plan anual?", "output": "facturación"}

Para modelos conversacionales, usa un formato de mensajes:

{"messages": [{"role": "system", "content": "You are a medical assistant."}, {"role": "user", "content": "What are common side effects of metformin?"}, {"role": "assistant", "content": "Common side effects include nausea, diarrhea, and stomach pain..."}]}

Lista de Verificación de Calidad de Datos

Formato consistente — cada ejemplo debe seguir la misma estructura
Ejemplos diversos — cubre casos extremos, no solo el camino feliz
Etiquetas precisas — basura entra, basura sale. Haz que expertos del dominio revisen tus datos.
Distribución balanceada — si estás entrenando un clasificador, ejemplos aproximadamente iguales por clase previenen que el modelo se incline por defecto hacia la etiqueta mayoritaria
Sin fuga de datos — mantén un conjunto de validación separado de los datos de entrenamiento para medir el rendimiento real

¿Cuántos Datos Necesitas?

No hay una respuesta universal, pero aquí hay puntos de partida prácticos:

Tipo de Tarea	Ejemplos Mínimos	Punto Óptimo
Clasificación	100-200 por clase	500-1,000 por clase
Resumen	500	2,000-5,000
Conversacional	1,000	5,000-10,000
Generación de código	500	3,000-8,000
Q&A de dominio	300	1,000-3,000

Más datos ayudan, pero los retornos disminuyen. Enfócate en calidad primero, luego escala.

Paso 2: Elige un Modelo Base

Tu modelo base determina tu punto de partida. La elección correcta depende de tu tarea, restricciones de hardware y requisitos de licencia.

Modelos Base Populares en 2026

Modelo	Tamaños	Fortalezas	Licencia
Llama 3	8B, 70B	Propósito general, razonamiento fuerte, comunidad grande	Meta Community
Mistral	7B, 8x7B	Inferencia rápida, bueno en código y seguimiento de instrucciones	Apache 2.0
Qwen 2.5	7B, 14B, 72B	Multilingüe, fuerte en benchmarks	Apache 2.0
Gemma 2	2B, 9B, 27B	Eficiente, bueno para despliegue con recursos limitados	Google
DeepSeek	7B, 67B	Fuerte en código y matemáticas	DeepSeek License
Phi-3	3.8B, 14B	Pequeño pero capaz, bueno para despliegue en el borde	MIT

Criterios de Selección

Ajuste a la tarea — modelos preentrenados en código (DeepSeek, CodeLlama) se ajustan mejor para tareas de código
Tamaño vs. hardware — un modelo 7B se ajusta en una sola GPU; 70B necesita configuraciones multi-GPU
Licencia — verifica si el uso comercial está permitido para tu escenario de despliegue
Soporte de comunidad — los modelos más populares tienen más guías de fine-tuning, adaptadores y versiones cuantizadas disponibles

Para la mayoría de las tareas, comienza con un modelo de 7B-8B. Es lo suficientemente grande para ser capaz pero lo suficientemente pequeño para ajustar rápidamente y desplegar en hardware modesto.

Paso 3: Configura el Entrenamiento

Fine-Tuning Completo vs. LoRA

El fine-tuning completo actualiza cada peso en el modelo. Produce los mejores resultados pero requiere memoria GPU significativa — a menudo múltiples GPUs de gama alta para modelos por encima de 7B parámetros.

LoRA (Low-Rank Adaptation) congela el modelo base y entrena pequeñas matrices adaptadoras que modifican el comportamiento del modelo. Usa una fracción de la memoria y entrena mucho más rápido, con resultados que a menudo están dentro del 5% del fine-tuning completo.

QLoRA va más allá al cuantizar el modelo base a precisión de 4 bits antes de aplicar adaptadores LoRA, permitiéndote ajustar un modelo 7B en una sola GPU de consumo con 8GB VRAM.

Para la mayoría de los equipos, LoRA o QLoRA es la elección correcta. El fine-tuning completo se reserva para casos donde tienes recursos de cómputo significativos y necesitas máximo rendimiento.

Hiperparámetros Clave

Parámetro	Rango Típico	Qué Hace
Tasa de aprendizaje	1e-5 a 5e-4	Qué tan agresivamente el modelo actualiza sus pesos. Muy alta = inestabilidad; muy baja = aprendizaje lento.
Épocas	1-5	Cuántas veces el modelo ve el dataset completo. Más épocas arriesgan sobreajuste.
Tamaño de lote	4-32	Ejemplos procesados simultáneamente. Mayor = gradientes más suaves pero más memoria.
Rango LoRA	8-64	Capacidad del adaptador. Mayor rango = más expresivo pero más parámetros.
Alpha LoRA	16-128	Factor de escalado para actualizaciones LoRA. Usualmente se establece en 2x el rango.

Configuración Práctica Inicial

Para un modelo 7B con LoRA en una sola GPU:

Learning rate: 2e-4
Epochs: 3
Batch size: 8 (with gradient accumulation)
LoRA rank: 16
LoRA alpha: 32
LoRA target modules: q_proj, v_proj, k_proj, o_proj
Warmup steps: 100
Weight decay: 0.01

Comienza aquí y ajusta basándote en la pérdida de validación. Si la pérdida se estanca temprano, aumenta la tasa de aprendizaje o el rango. Si la pérdida tiene picos, reduce la tasa de aprendizaje.

Paso 4: Entrena y Monitorea

Durante el entrenamiento, observa dos métricas clave:

Pérdida de entrenamiento — debería disminuir constantemente. Un pico repentino significa que la tasa de aprendizaje es demasiado alta.
Pérdida de validación — debería seguir la pérdida de entrenamiento. Cuando la pérdida de validación comienza a aumentar mientras la pérdida de entrenamiento continúa disminuyendo, estás sobreajustando.

Señales de Problemas

Síntoma	Causa Probable	Solución
La pérdida no disminuye	Tasa de aprendizaje muy baja o problemas de datos	Aumenta la tasa de aprendizaje; verifica el formato de datos
La pérdida tiene picos y se recupera	Tasa de aprendizaje muy alta	Reduce la tasa de aprendizaje por 2-5x
La pérdida de validación diverge del entrenamiento	Sobreajuste	Reduce épocas, agrega dropout, usa más datos
La salida es repetitiva o degenerada	Olvido catastrófico o datos malos	Baja la tasa de aprendizaje, verifica la calidad de datos

Entrenar un modelo 7B con 5,000 ejemplos usando LoRA típicamente toma 30-90 minutos en una sola GPU A100. Con Ertas Studio, esto se ejecuta en GPUs en la nube administradas para que no necesites aprovisionar hardware.

Paso 5: Evalúa Tu Modelo

No te saltes la evaluación. Un modelo que puntúa bien en pérdida de entrenamiento aún puede producir salidas pobres en el mundo real.

Métodos de Evaluación

Conjunto de prueba reservado — ejecuta el modelo en ejemplos que no ha visto durante el entrenamiento. Compara salidas contra la verdad base.
Comparación A/B — genera salidas tanto del modelo base como del modelo ajustado en los mismos prompts. Haz que expertos del dominio califiquen cuál es mejor.
Métricas específicas de tarea — precisión para clasificación, ROUGE para resumen, coincidencia exacta para tareas de extracción.
Verificación intuitiva — a veces la evaluación más importante es simplemente usar el modelo y ver si se siente correcto para tu caso de uso.

Cómo Se Ve un Buen Resultado

El modelo sigue tu formato de salida consistentemente
La terminología del dominio se usa correctamente
Las alucinaciones se reducen comparado con el modelo base
Las salidas coinciden con el tono y estilo de tus ejemplos de entrenamiento

Si los resultados no son satisfactorios, itera: revisa la calidad de datos de entrenamiento, ajusta hiperparámetros o agrega más ejemplos para los casos de falla.

Paso 6: Exporta y Despliega

Una vez que estés satisfecho con tu modelo, expórtalo para despliegue. El formato más común para inferencia local es GGUF — un estándar abierto soportado por llama.cpp, Ollama, LM Studio y muchas otras herramientas.

¿Por Qué GGUF?

Cuantización incluida — reduce el tamaño del modelo por 2-4x con pérdida mínima de calidad
Inferencia en CPU — se ejecuta en hardware de consumo sin GPU
Compatibilidad universal — funciona con todas las principales herramientas de inferencia local
Sin vendor lock-in — es un formato abierto que tú controlas

Opciones de Despliegue

Opción	Mejor Para	Esfuerzo de Configuración
Ollama	Pruebas locales rápidas, servicio compatible con API	Mínimo
LM Studio	Interfaz de chat de escritorio, usuarios no técnicos	Mínimo
llama.cpp	Máximo control, aplicaciones personalizadas	Moderado
vLLM	Servicio de producción con alto rendimiento	Moderado
Open WebUI	Interfaz tipo ChatGPT para equipos	Moderado

Ejemplo: Desplegar con Ollama

Después de exportar tu GGUF desde Ertas Studio:

# Create a Modelfile
echo 'FROM ./my-fine-tuned-model.gguf' > Modelfile

# Import into Ollama
ollama create my-model -f Modelfile

# Run inference
ollama run my-model "Classify this ticket: I can't reset my password"

Tu modelo ajustado ahora se ejecuta completamente en tu hardware. Sin llamadas API, sin costos por token, sin datos saliendo de tu red.

La Forma Más Rápida: Ertas Studio

El flujo de trabajo anterior implica configurar entornos de entrenamiento, escribir archivos de configuración y gestionar instancias GPU. Ertas Studio maneja todo eso a través de una interfaz visual de canvas:

Sube tu dataset JSONL — Studio valida tus datos y señala problemas antes de que comience el entrenamiento
Selecciona un modelo base — explora modelos disponibles o importa desde Hugging Face
Configura y lanza — establece hiperparámetros visualmente y comienza el entrenamiento en GPUs en la nube administradas
Compara resultados — ejecuta múltiples trabajos de fine-tuning lado a lado y compara salidas en el mismo canvas
Exporta como GGUF — descarga tu modelo y despliega donde quieras

Sin scripts de entrenamiento. Sin infraestructura que gestionar. Sin terminal requerida.

Asegura precios early bird a $14.50/mes — este precio está garantizado de por vida y aumenta a $34.50/mes en el lanzamiento. Únete a la lista de espera →

Preguntas Frecuentes

¿Cuánto tiempo toma ajustar un LLM?

El tiempo de fine-tuning depende del tamaño de tu dataset, modelo base y hardware. Entrenar un modelo 7B con 5,000 ejemplos usando LoRA típicamente toma 30-90 minutos en una sola GPU A100. Datasets más pequeños (500-1,000 ejemplos) pueden terminar en menos de 15 minutos. Usar QLoRA en GPUs de consumo (RTX 3090/4090) toma 2-4x más tiempo pero aún se mide en horas, no días. El paso de preparación de datos a menudo toma más tiempo que el entrenamiento real.

¿Qué hardware necesito para fine-tuning?

Para fine-tuning LoRA/QLoRA de un modelo 7B, necesitas una GPU con al menos 8 GB VRAM (por ejemplo, NVIDIA RTX 3060). QLoRA fue diseñado específicamente para ajustar en hardware de consumo — una sola RTX 4090 con 24 GB VRAM puede manejar modelos de hasta 33B parámetros. Para fine-tuning completo (no recomendado para la mayoría de los equipos), necesitas múltiples GPUs de gama alta como A100s. Proveedores de GPU en la nube como Lambda Labs, RunPod o servicios administrados como Ertas Studio eliminan completamente el requisito de hardware.

¿Cuántos datos de entrenamiento necesito?

Varía según la complejidad de la tarea. Para tareas de clasificación, 100-200 ejemplos por clase es el mínimo, con 500-1,000 siendo el punto óptimo. El fine-tuning conversacional necesita al menos 1,000 ejemplos, idealmente 5,000-10,000. Las tareas de generación de código comienzan en alrededor de 500 ejemplos. La calidad importa mucho más que la cantidad — según investigaciones de Meta AI, 500 ejemplos de alta calidad curados por expertos a menudo superan a 10,000 ruidosos. Comienza pequeño, evalúa y agrega más datos enfocándote en los casos de falla.

¿Puedo ajustar sin programar?

Sí. Herramientas como Ertas Studio, Hugging Face AutoTrain y la API de fine-tuning de OpenAI proporcionan interfaces visuales o simplificadas que manejan el pipeline de entrenamiento por ti. Preparas tu dataset JSONL, lo subes, seleccionas un modelo base, configuras parámetros básicos e inicias el entrenamiento. Sin scripts de Python, sin aprovisionamiento de GPU y sin gestión de infraestructura requerida.

Qué Leer Después

Fine-Tuning vs RAG: Cuándo Usar Cada Uno — un framework de decisión para elegir el enfoque correcto
Ejecutar Modelos de IA Localmente — todo lo que necesitas saber sobre inferencia local
Primeros Pasos con Ertas — un recorrido del flujo de trabajo de Ertas Studio
El Costo Oculto del Precio por Token de IA — por qué los modelos locales ajustados ahorran dinero a escala

Cómo Ajustar un LLM: La Guía Completa 2026