
Cómo Ajustar un LLM: La Guía Completa 2026
Aprende a ajustar modelos de lenguaje grandes paso a paso — desde preparar datos de entrenamiento y elegir un modelo base hasta configurar LoRA, evaluar resultados y desplegar localmente.
Para ajustar un LLM, preparas un dataset JSONL de pares instrucción-respuesta, seleccionas un modelo base (típicamente de 7B-8B parámetros), aplicas adaptadores LoRA o QLoRA, entrenas durante 1-5 épocas y exportas el resultado como un archivo GGUF para despliegue. El proceso completo toma de 30 minutos a unas pocas horas dependiendo del tamaño del dataset y el hardware. Según Hugging Face, los métodos de fine-tuning eficientes en parámetros como LoRA pueden reducir los parámetros entrenables en más del 99% mientras logran resultados dentro del 2-5% del fine-tuning completo. Investigaciones del Stanford HAI AI Index Report muestran que los modelos más pequeños ajustados consistentemente superan a los modelos más grandes con prompting en tareas específicas de dominio, haciendo del fine-tuning una de las formas más rentables de construir IA de producción.
Esta guía recorre todo el proceso: cuándo el fine-tuning tiene sentido, cómo preparar tus datos, qué modelo base elegir, cómo configurar el entrenamiento y cómo desplegar el resultado.
¿Cuándo Deberías Ajustar?
El fine-tuning no siempre es la respuesta correcta. Antes de invertir tiempo preparando datos y ejecutando trabajos de entrenamiento, considera si tu problema realmente lo requiere.
El fine-tuning tiene sentido cuando:
- La ingeniería de prompts llega a un techo. Has probado ejemplos few-shot, prompting de cadena de pensamiento e instrucciones de sistema, pero el modelo aún no produce resultados consistentes para tu dominio.
- Necesitas un formato de salida específico. Tu aplicación requiere JSON estructurado, un estilo de escritura particular o terminología específica del dominio que los modelos base tienen dificultad para producir de forma confiable.
- La latencia y el costo importan a escala. Un modelo 7B ajustado puede superar a un modelo 70B con prompting en tareas estrechas — a una fracción del costo de inferencia.
- Los requisitos de privacidad prohíben APIs en la nube. Los modelos ajustados pueden ejecutarse completamente en tu infraestructura, manteniendo los datos sensibles fuera de servidores de terceros.
Considera alternativas cuando:
- Tu tarea es amplia y cambia frecuentemente — la ingeniería de prompts o RAG puede ser más flexible.
- Tienes menos de 100 ejemplos de entrenamiento de calidad — el fine-tuning necesita suficientes datos para aprender patrones sin sobreajuste.
- Necesitas que el modelo acceda a conocimiento externo que cambia frecuentemente — la generación aumentada por recuperación maneja esto mejor.
Para una comparación más profunda, consulta nuestra guía sobre fine-tuning vs RAG.
Paso 1: Prepara Tus Datos de Entrenamiento
La calidad de los datos es el factor más importante para el éxito del fine-tuning. Un modelo entrenado con 500 ejemplos excelentes superará a uno entrenado con 10,000 mediocres.
Formato: JSONL
El formato estándar para datos de fine-tuning es JSONL (JSON Lines) — un objeto JSON por línea. Cada línea típicamente contiene una instrucción y la respuesta deseada:
{"instruction": "Clasifica este ticket de soporte como facturación, técnico o general.", "input": "No puedo iniciar sesión en mi cuenta después de restablecer mi contraseña.", "output": "técnico"}
{"instruction": "Clasifica este ticket de soporte como facturación, técnico o general.", "input": "¿Cuándo se me cobrará por el plan anual?", "output": "facturación"}
Para modelos conversacionales, usa un formato de mensajes:
{"messages": [{"role": "system", "content": "You are a medical assistant."}, {"role": "user", "content": "What are common side effects of metformin?"}, {"role": "assistant", "content": "Common side effects include nausea, diarrhea, and stomach pain..."}]}
Lista de Verificación de Calidad de Datos
- Formato consistente — cada ejemplo debe seguir la misma estructura
- Ejemplos diversos — cubre casos extremos, no solo el camino feliz
- Etiquetas precisas — basura entra, basura sale. Haz que expertos del dominio revisen tus datos.
- Distribución balanceada — si estás entrenando un clasificador, ejemplos aproximadamente iguales por clase previenen que el modelo se incline por defecto hacia la etiqueta mayoritaria
- Sin fuga de datos — mantén un conjunto de validación separado de los datos de entrenamiento para medir el rendimiento real
¿Cuántos Datos Necesitas?
No hay una respuesta universal, pero aquí hay puntos de partida prácticos:
| Tipo de Tarea | Ejemplos Mínimos | Punto Óptimo |
|---|---|---|
| Clasificación | 100-200 por clase | 500-1,000 por clase |
| Resumen | 500 | 2,000-5,000 |
| Conversacional | 1,000 | 5,000-10,000 |
| Generación de código | 500 | 3,000-8,000 |
| Q&A de dominio | 300 | 1,000-3,000 |
Más datos ayudan, pero los retornos disminuyen. Enfócate en calidad primero, luego escala.
Paso 2: Elige un Modelo Base
Tu modelo base determina tu punto de partida. La elección correcta depende de tu tarea, restricciones de hardware y requisitos de licencia.
Modelos Base Populares en 2026
| Modelo | Tamaños | Fortalezas | Licencia |
|---|---|---|---|
| Llama 3 | 8B, 70B | Propósito general, razonamiento fuerte, comunidad grande | Meta Community |
| Mistral | 7B, 8x7B | Inferencia rápida, bueno en código y seguimiento de instrucciones | Apache 2.0 |
| Qwen 2.5 | 7B, 14B, 72B | Multilingüe, fuerte en benchmarks | Apache 2.0 |
| Gemma 2 | 2B, 9B, 27B | Eficiente, bueno para despliegue con recursos limitados | |
| DeepSeek | 7B, 67B | Fuerte en código y matemáticas | DeepSeek License |
| Phi-3 | 3.8B, 14B | Pequeño pero capaz, bueno para despliegue en el borde | MIT |
Criterios de Selección
- Ajuste a la tarea — modelos preentrenados en código (DeepSeek, CodeLlama) se ajustan mejor para tareas de código
- Tamaño vs. hardware — un modelo 7B se ajusta en una sola GPU; 70B necesita configuraciones multi-GPU
- Licencia — verifica si el uso comercial está permitido para tu escenario de despliegue
- Soporte de comunidad — los modelos más populares tienen más guías de fine-tuning, adaptadores y versiones cuantizadas disponibles
Para la mayoría de las tareas, comienza con un modelo de 7B-8B. Es lo suficientemente grande para ser capaz pero lo suficientemente pequeño para ajustar rápidamente y desplegar en hardware modesto.
Paso 3: Configura el Entrenamiento
Fine-Tuning Completo vs. LoRA
El fine-tuning completo actualiza cada peso en el modelo. Produce los mejores resultados pero requiere memoria GPU significativa — a menudo múltiples GPUs de gama alta para modelos por encima de 7B parámetros.
LoRA (Low-Rank Adaptation) congela el modelo base y entrena pequeñas matrices adaptadoras que modifican el comportamiento del modelo. Usa una fracción de la memoria y entrena mucho más rápido, con resultados que a menudo están dentro del 5% del fine-tuning completo.
QLoRA va más allá al cuantizar el modelo base a precisión de 4 bits antes de aplicar adaptadores LoRA, permitiéndote ajustar un modelo 7B en una sola GPU de consumo con 8GB VRAM.
Para la mayoría de los equipos, LoRA o QLoRA es la elección correcta. El fine-tuning completo se reserva para casos donde tienes recursos de cómputo significativos y necesitas máximo rendimiento.
Hiperparámetros Clave
| Parámetro | Rango Típico | Qué Hace |
|---|---|---|
| Tasa de aprendizaje | 1e-5 a 5e-4 | Qué tan agresivamente el modelo actualiza sus pesos. Muy alta = inestabilidad; muy baja = aprendizaje lento. |
| Épocas | 1-5 | Cuántas veces el modelo ve el dataset completo. Más épocas arriesgan sobreajuste. |
| Tamaño de lote | 4-32 | Ejemplos procesados simultáneamente. Mayor = gradientes más suaves pero más memoria. |
| Rango LoRA | 8-64 | Capacidad del adaptador. Mayor rango = más expresivo pero más parámetros. |
| Alpha LoRA | 16-128 | Factor de escalado para actualizaciones LoRA. Usualmente se establece en 2x el rango. |
Configuración Práctica Inicial
Para un modelo 7B con LoRA en una sola GPU:
Learning rate: 2e-4
Epochs: 3
Batch size: 8 (with gradient accumulation)
LoRA rank: 16
LoRA alpha: 32
LoRA target modules: q_proj, v_proj, k_proj, o_proj
Warmup steps: 100
Weight decay: 0.01
Comienza aquí y ajusta basándote en la pérdida de validación. Si la pérdida se estanca temprano, aumenta la tasa de aprendizaje o el rango. Si la pérdida tiene picos, reduce la tasa de aprendizaje.
Paso 4: Entrena y Monitorea
Durante el entrenamiento, observa dos métricas clave:
- Pérdida de entrenamiento — debería disminuir constantemente. Un pico repentino significa que la tasa de aprendizaje es demasiado alta.
- Pérdida de validación — debería seguir la pérdida de entrenamiento. Cuando la pérdida de validación comienza a aumentar mientras la pérdida de entrenamiento continúa disminuyendo, estás sobreajustando.
Señales de Problemas
| Síntoma | Causa Probable | Solución |
|---|---|---|
| La pérdida no disminuye | Tasa de aprendizaje muy baja o problemas de datos | Aumenta la tasa de aprendizaje; verifica el formato de datos |
| La pérdida tiene picos y se recupera | Tasa de aprendizaje muy alta | Reduce la tasa de aprendizaje por 2-5x |
| La pérdida de validación diverge del entrenamiento | Sobreajuste | Reduce épocas, agrega dropout, usa más datos |
| La salida es repetitiva o degenerada | Olvido catastrófico o datos malos | Baja la tasa de aprendizaje, verifica la calidad de datos |
Entrenar un modelo 7B con 5,000 ejemplos usando LoRA típicamente toma 30-90 minutos en una sola GPU A100. Con Ertas Studio, esto se ejecuta en GPUs en la nube administradas para que no necesites aprovisionar hardware.
Paso 5: Evalúa Tu Modelo
No te saltes la evaluación. Un modelo que puntúa bien en pérdida de entrenamiento aún puede producir salidas pobres en el mundo real.
Métodos de Evaluación
- Conjunto de prueba reservado — ejecuta el modelo en ejemplos que no ha visto durante el entrenamiento. Compara salidas contra la verdad base.
- Comparación A/B — genera salidas tanto del modelo base como del modelo ajustado en los mismos prompts. Haz que expertos del dominio califiquen cuál es mejor.
- Métricas específicas de tarea — precisión para clasificación, ROUGE para resumen, coincidencia exacta para tareas de extracción.
- Verificación intuitiva — a veces la evaluación más importante es simplemente usar el modelo y ver si se siente correcto para tu caso de uso.
Cómo Se Ve un Buen Resultado
- El modelo sigue tu formato de salida consistentemente
- La terminología del dominio se usa correctamente
- Las alucinaciones se reducen comparado con el modelo base
- Las salidas coinciden con el tono y estilo de tus ejemplos de entrenamiento
Si los resultados no son satisfactorios, itera: revisa la calidad de datos de entrenamiento, ajusta hiperparámetros o agrega más ejemplos para los casos de falla.
Paso 6: Exporta y Despliega
Una vez que estés satisfecho con tu modelo, expórtalo para despliegue. El formato más común para inferencia local es GGUF — un estándar abierto soportado por llama.cpp, Ollama, LM Studio y muchas otras herramientas.
¿Por Qué GGUF?
- Cuantización incluida — reduce el tamaño del modelo por 2-4x con pérdida mínima de calidad
- Inferencia en CPU — se ejecuta en hardware de consumo sin GPU
- Compatibilidad universal — funciona con todas las principales herramientas de inferencia local
- Sin vendor lock-in — es un formato abierto que tú controlas
Opciones de Despliegue
| Opción | Mejor Para | Esfuerzo de Configuración |
|---|---|---|
| Ollama | Pruebas locales rápidas, servicio compatible con API | Mínimo |
| LM Studio | Interfaz de chat de escritorio, usuarios no técnicos | Mínimo |
| llama.cpp | Máximo control, aplicaciones personalizadas | Moderado |
| vLLM | Servicio de producción con alto rendimiento | Moderado |
| Open WebUI | Interfaz tipo ChatGPT para equipos | Moderado |
Ejemplo: Desplegar con Ollama
Después de exportar tu GGUF desde Ertas Studio:
# Create a Modelfile
echo 'FROM ./my-fine-tuned-model.gguf' > Modelfile
# Import into Ollama
ollama create my-model -f Modelfile
# Run inference
ollama run my-model "Classify this ticket: I can't reset my password"
Tu modelo ajustado ahora se ejecuta completamente en tu hardware. Sin llamadas API, sin costos por token, sin datos saliendo de tu red.
La Forma Más Rápida: Ertas Studio
El flujo de trabajo anterior implica configurar entornos de entrenamiento, escribir archivos de configuración y gestionar instancias GPU. Ertas Studio maneja todo eso a través de una interfaz visual de canvas:
- Sube tu dataset JSONL — Studio valida tus datos y señala problemas antes de que comience el entrenamiento
- Selecciona un modelo base — explora modelos disponibles o importa desde Hugging Face
- Configura y lanza — establece hiperparámetros visualmente y comienza el entrenamiento en GPUs en la nube administradas
- Compara resultados — ejecuta múltiples trabajos de fine-tuning lado a lado y compara salidas en el mismo canvas
- Exporta como GGUF — descarga tu modelo y despliega donde quieras
Sin scripts de entrenamiento. Sin infraestructura que gestionar. Sin terminal requerida.
Asegura precios early bird a $14.50/mes — este precio está garantizado de por vida y aumenta a $34.50/mes en el lanzamiento. Únete a la lista de espera →
Preguntas Frecuentes
¿Cuánto tiempo toma ajustar un LLM?
El tiempo de fine-tuning depende del tamaño de tu dataset, modelo base y hardware. Entrenar un modelo 7B con 5,000 ejemplos usando LoRA típicamente toma 30-90 minutos en una sola GPU A100. Datasets más pequeños (500-1,000 ejemplos) pueden terminar en menos de 15 minutos. Usar QLoRA en GPUs de consumo (RTX 3090/4090) toma 2-4x más tiempo pero aún se mide en horas, no días. El paso de preparación de datos a menudo toma más tiempo que el entrenamiento real.
¿Qué hardware necesito para fine-tuning?
Para fine-tuning LoRA/QLoRA de un modelo 7B, necesitas una GPU con al menos 8 GB VRAM (por ejemplo, NVIDIA RTX 3060). QLoRA fue diseñado específicamente para ajustar en hardware de consumo — una sola RTX 4090 con 24 GB VRAM puede manejar modelos de hasta 33B parámetros. Para fine-tuning completo (no recomendado para la mayoría de los equipos), necesitas múltiples GPUs de gama alta como A100s. Proveedores de GPU en la nube como Lambda Labs, RunPod o servicios administrados como Ertas Studio eliminan completamente el requisito de hardware.
¿Cuántos datos de entrenamiento necesito?
Varía según la complejidad de la tarea. Para tareas de clasificación, 100-200 ejemplos por clase es el mínimo, con 500-1,000 siendo el punto óptimo. El fine-tuning conversacional necesita al menos 1,000 ejemplos, idealmente 5,000-10,000. Las tareas de generación de código comienzan en alrededor de 500 ejemplos. La calidad importa mucho más que la cantidad — según investigaciones de Meta AI, 500 ejemplos de alta calidad curados por expertos a menudo superan a 10,000 ruidosos. Comienza pequeño, evalúa y agrega más datos enfocándote en los casos de falla.
¿Puedo ajustar sin programar?
Sí. Herramientas como Ertas Studio, Hugging Face AutoTrain y la API de fine-tuning de OpenAI proporcionan interfaces visuales o simplificadas que manejan el pipeline de entrenamiento por ti. Preparas tu dataset JSONL, lo subes, seleccionas un modelo base, configuras parámetros básicos e inicias el entrenamiento. Sin scripts de Python, sin aprovisionamiento de GPU y sin gestión de infraestructura requerida.
Qué Leer Después
- Fine-Tuning vs RAG: Cuándo Usar Cada Uno — un framework de decisión para elegir el enfoque correcto
- Ejecutar Modelos de IA Localmente — todo lo que necesitas saber sobre inferencia local
- Primeros Pasos con Ertas — un recorrido del flujo de trabajo de Ertas Studio
- El Costo Oculto del Precio por Token de IA — por qué los modelos locales ajustados ahorran dinero a escala
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning for App Developers: A Non-ML-Engineer's Guide
A practical guide to fine-tuning AI models for mobile app developers. Learn LoRA, QLoRA, and GGUF export without needing an ML background.

How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning
A complete guide to building on-premise data preparation pipelines for LLM fine-tuning — covering the 5 stages from ingestion to export, tool comparisons, and architecture for regulated environments.

From Prompt Engineering to Fine-Tuning: The Migration Playbook
A practical playbook for teams migrating from prompt engineering to fine-tuning — when to make the switch, how to convert prompts into training data, and the step-by-step migration process.