Back to blog
    Cómo Ajustar un LLM: La Guía Completa 2026
    fine-tuningguidellmloragguftutorial

    Cómo Ajustar un LLM: La Guía Completa 2026

    Aprende a ajustar modelos de lenguaje grandes paso a paso — desde preparar datos de entrenamiento y elegir un modelo base hasta configurar LoRA, evaluar resultados y desplegar localmente.

    EEdward Yang··Updated

    Para ajustar un LLM, preparas un dataset JSONL de pares instrucción-respuesta, seleccionas un modelo base (típicamente de 7B-8B parámetros), aplicas adaptadores LoRA o QLoRA, entrenas durante 1-5 épocas y exportas el resultado como un archivo GGUF para despliegue. El proceso completo toma de 30 minutos a unas pocas horas dependiendo del tamaño del dataset y el hardware. Según Hugging Face, los métodos de fine-tuning eficientes en parámetros como LoRA pueden reducir los parámetros entrenables en más del 99% mientras logran resultados dentro del 2-5% del fine-tuning completo. Investigaciones del Stanford HAI AI Index Report muestran que los modelos más pequeños ajustados consistentemente superan a los modelos más grandes con prompting en tareas específicas de dominio, haciendo del fine-tuning una de las formas más rentables de construir IA de producción.

    Esta guía recorre todo el proceso: cuándo el fine-tuning tiene sentido, cómo preparar tus datos, qué modelo base elegir, cómo configurar el entrenamiento y cómo desplegar el resultado.

    ¿Cuándo Deberías Ajustar?

    El fine-tuning no siempre es la respuesta correcta. Antes de invertir tiempo preparando datos y ejecutando trabajos de entrenamiento, considera si tu problema realmente lo requiere.

    El fine-tuning tiene sentido cuando:

    • La ingeniería de prompts llega a un techo. Has probado ejemplos few-shot, prompting de cadena de pensamiento e instrucciones de sistema, pero el modelo aún no produce resultados consistentes para tu dominio.
    • Necesitas un formato de salida específico. Tu aplicación requiere JSON estructurado, un estilo de escritura particular o terminología específica del dominio que los modelos base tienen dificultad para producir de forma confiable.
    • La latencia y el costo importan a escala. Un modelo 7B ajustado puede superar a un modelo 70B con prompting en tareas estrechas — a una fracción del costo de inferencia.
    • Los requisitos de privacidad prohíben APIs en la nube. Los modelos ajustados pueden ejecutarse completamente en tu infraestructura, manteniendo los datos sensibles fuera de servidores de terceros.

    Considera alternativas cuando:

    • Tu tarea es amplia y cambia frecuentemente — la ingeniería de prompts o RAG puede ser más flexible.
    • Tienes menos de 100 ejemplos de entrenamiento de calidad — el fine-tuning necesita suficientes datos para aprender patrones sin sobreajuste.
    • Necesitas que el modelo acceda a conocimiento externo que cambia frecuentemente — la generación aumentada por recuperación maneja esto mejor.

    Para una comparación más profunda, consulta nuestra guía sobre fine-tuning vs RAG.

    Paso 1: Prepara Tus Datos de Entrenamiento

    La calidad de los datos es el factor más importante para el éxito del fine-tuning. Un modelo entrenado con 500 ejemplos excelentes superará a uno entrenado con 10,000 mediocres.

    Formato: JSONL

    El formato estándar para datos de fine-tuning es JSONL (JSON Lines) — un objeto JSON por línea. Cada línea típicamente contiene una instrucción y la respuesta deseada:

    {"instruction": "Clasifica este ticket de soporte como facturación, técnico o general.", "input": "No puedo iniciar sesión en mi cuenta después de restablecer mi contraseña.", "output": "técnico"}
    {"instruction": "Clasifica este ticket de soporte como facturación, técnico o general.", "input": "¿Cuándo se me cobrará por el plan anual?", "output": "facturación"}
    

    Para modelos conversacionales, usa un formato de mensajes:

    {"messages": [{"role": "system", "content": "You are a medical assistant."}, {"role": "user", "content": "What are common side effects of metformin?"}, {"role": "assistant", "content": "Common side effects include nausea, diarrhea, and stomach pain..."}]}
    

    Lista de Verificación de Calidad de Datos

    • Formato consistente — cada ejemplo debe seguir la misma estructura
    • Ejemplos diversos — cubre casos extremos, no solo el camino feliz
    • Etiquetas precisas — basura entra, basura sale. Haz que expertos del dominio revisen tus datos.
    • Distribución balanceada — si estás entrenando un clasificador, ejemplos aproximadamente iguales por clase previenen que el modelo se incline por defecto hacia la etiqueta mayoritaria
    • Sin fuga de datos — mantén un conjunto de validación separado de los datos de entrenamiento para medir el rendimiento real

    ¿Cuántos Datos Necesitas?

    No hay una respuesta universal, pero aquí hay puntos de partida prácticos:

    Tipo de TareaEjemplos MínimosPunto Óptimo
    Clasificación100-200 por clase500-1,000 por clase
    Resumen5002,000-5,000
    Conversacional1,0005,000-10,000
    Generación de código5003,000-8,000
    Q&A de dominio3001,000-3,000

    Más datos ayudan, pero los retornos disminuyen. Enfócate en calidad primero, luego escala.

    Paso 2: Elige un Modelo Base

    Tu modelo base determina tu punto de partida. La elección correcta depende de tu tarea, restricciones de hardware y requisitos de licencia.

    Modelos Base Populares en 2026

    ModeloTamañosFortalezasLicencia
    Llama 38B, 70BPropósito general, razonamiento fuerte, comunidad grandeMeta Community
    Mistral7B, 8x7BInferencia rápida, bueno en código y seguimiento de instruccionesApache 2.0
    Qwen 2.57B, 14B, 72BMultilingüe, fuerte en benchmarksApache 2.0
    Gemma 22B, 9B, 27BEficiente, bueno para despliegue con recursos limitadosGoogle
    DeepSeek7B, 67BFuerte en código y matemáticasDeepSeek License
    Phi-33.8B, 14BPequeño pero capaz, bueno para despliegue en el bordeMIT

    Criterios de Selección

    1. Ajuste a la tarea — modelos preentrenados en código (DeepSeek, CodeLlama) se ajustan mejor para tareas de código
    2. Tamaño vs. hardware — un modelo 7B se ajusta en una sola GPU; 70B necesita configuraciones multi-GPU
    3. Licencia — verifica si el uso comercial está permitido para tu escenario de despliegue
    4. Soporte de comunidad — los modelos más populares tienen más guías de fine-tuning, adaptadores y versiones cuantizadas disponibles

    Para la mayoría de las tareas, comienza con un modelo de 7B-8B. Es lo suficientemente grande para ser capaz pero lo suficientemente pequeño para ajustar rápidamente y desplegar en hardware modesto.

    Paso 3: Configura el Entrenamiento

    Fine-Tuning Completo vs. LoRA

    El fine-tuning completo actualiza cada peso en el modelo. Produce los mejores resultados pero requiere memoria GPU significativa — a menudo múltiples GPUs de gama alta para modelos por encima de 7B parámetros.

    LoRA (Low-Rank Adaptation) congela el modelo base y entrena pequeñas matrices adaptadoras que modifican el comportamiento del modelo. Usa una fracción de la memoria y entrena mucho más rápido, con resultados que a menudo están dentro del 5% del fine-tuning completo.

    QLoRA va más allá al cuantizar el modelo base a precisión de 4 bits antes de aplicar adaptadores LoRA, permitiéndote ajustar un modelo 7B en una sola GPU de consumo con 8GB VRAM.

    Para la mayoría de los equipos, LoRA o QLoRA es la elección correcta. El fine-tuning completo se reserva para casos donde tienes recursos de cómputo significativos y necesitas máximo rendimiento.

    Hiperparámetros Clave

    ParámetroRango TípicoQué Hace
    Tasa de aprendizaje1e-5 a 5e-4Qué tan agresivamente el modelo actualiza sus pesos. Muy alta = inestabilidad; muy baja = aprendizaje lento.
    Épocas1-5Cuántas veces el modelo ve el dataset completo. Más épocas arriesgan sobreajuste.
    Tamaño de lote4-32Ejemplos procesados simultáneamente. Mayor = gradientes más suaves pero más memoria.
    Rango LoRA8-64Capacidad del adaptador. Mayor rango = más expresivo pero más parámetros.
    Alpha LoRA16-128Factor de escalado para actualizaciones LoRA. Usualmente se establece en 2x el rango.

    Configuración Práctica Inicial

    Para un modelo 7B con LoRA en una sola GPU:

    Learning rate: 2e-4
    Epochs: 3
    Batch size: 8 (with gradient accumulation)
    LoRA rank: 16
    LoRA alpha: 32
    LoRA target modules: q_proj, v_proj, k_proj, o_proj
    Warmup steps: 100
    Weight decay: 0.01
    

    Comienza aquí y ajusta basándote en la pérdida de validación. Si la pérdida se estanca temprano, aumenta la tasa de aprendizaje o el rango. Si la pérdida tiene picos, reduce la tasa de aprendizaje.

    Paso 4: Entrena y Monitorea

    Durante el entrenamiento, observa dos métricas clave:

    • Pérdida de entrenamiento — debería disminuir constantemente. Un pico repentino significa que la tasa de aprendizaje es demasiado alta.
    • Pérdida de validación — debería seguir la pérdida de entrenamiento. Cuando la pérdida de validación comienza a aumentar mientras la pérdida de entrenamiento continúa disminuyendo, estás sobreajustando.

    Señales de Problemas

    SíntomaCausa ProbableSolución
    La pérdida no disminuyeTasa de aprendizaje muy baja o problemas de datosAumenta la tasa de aprendizaje; verifica el formato de datos
    La pérdida tiene picos y se recuperaTasa de aprendizaje muy altaReduce la tasa de aprendizaje por 2-5x
    La pérdida de validación diverge del entrenamientoSobreajusteReduce épocas, agrega dropout, usa más datos
    La salida es repetitiva o degeneradaOlvido catastrófico o datos malosBaja la tasa de aprendizaje, verifica la calidad de datos

    Entrenar un modelo 7B con 5,000 ejemplos usando LoRA típicamente toma 30-90 minutos en una sola GPU A100. Con Ertas Studio, esto se ejecuta en GPUs en la nube administradas para que no necesites aprovisionar hardware.

    Paso 5: Evalúa Tu Modelo

    No te saltes la evaluación. Un modelo que puntúa bien en pérdida de entrenamiento aún puede producir salidas pobres en el mundo real.

    Métodos de Evaluación

    1. Conjunto de prueba reservado — ejecuta el modelo en ejemplos que no ha visto durante el entrenamiento. Compara salidas contra la verdad base.
    2. Comparación A/B — genera salidas tanto del modelo base como del modelo ajustado en los mismos prompts. Haz que expertos del dominio califiquen cuál es mejor.
    3. Métricas específicas de tarea — precisión para clasificación, ROUGE para resumen, coincidencia exacta para tareas de extracción.
    4. Verificación intuitiva — a veces la evaluación más importante es simplemente usar el modelo y ver si se siente correcto para tu caso de uso.

    Cómo Se Ve un Buen Resultado

    • El modelo sigue tu formato de salida consistentemente
    • La terminología del dominio se usa correctamente
    • Las alucinaciones se reducen comparado con el modelo base
    • Las salidas coinciden con el tono y estilo de tus ejemplos de entrenamiento

    Si los resultados no son satisfactorios, itera: revisa la calidad de datos de entrenamiento, ajusta hiperparámetros o agrega más ejemplos para los casos de falla.

    Paso 6: Exporta y Despliega

    Una vez que estés satisfecho con tu modelo, expórtalo para despliegue. El formato más común para inferencia local es GGUF — un estándar abierto soportado por llama.cpp, Ollama, LM Studio y muchas otras herramientas.

    ¿Por Qué GGUF?

    • Cuantización incluida — reduce el tamaño del modelo por 2-4x con pérdida mínima de calidad
    • Inferencia en CPU — se ejecuta en hardware de consumo sin GPU
    • Compatibilidad universal — funciona con todas las principales herramientas de inferencia local
    • Sin vendor lock-in — es un formato abierto que tú controlas

    Opciones de Despliegue

    OpciónMejor ParaEsfuerzo de Configuración
    OllamaPruebas locales rápidas, servicio compatible con APIMínimo
    LM StudioInterfaz de chat de escritorio, usuarios no técnicosMínimo
    llama.cppMáximo control, aplicaciones personalizadasModerado
    vLLMServicio de producción con alto rendimientoModerado
    Open WebUIInterfaz tipo ChatGPT para equiposModerado

    Ejemplo: Desplegar con Ollama

    Después de exportar tu GGUF desde Ertas Studio:

    # Create a Modelfile
    echo 'FROM ./my-fine-tuned-model.gguf' > Modelfile
    
    # Import into Ollama
    ollama create my-model -f Modelfile
    
    # Run inference
    ollama run my-model "Classify this ticket: I can't reset my password"
    

    Tu modelo ajustado ahora se ejecuta completamente en tu hardware. Sin llamadas API, sin costos por token, sin datos saliendo de tu red.

    La Forma Más Rápida: Ertas Studio

    El flujo de trabajo anterior implica configurar entornos de entrenamiento, escribir archivos de configuración y gestionar instancias GPU. Ertas Studio maneja todo eso a través de una interfaz visual de canvas:

    1. Sube tu dataset JSONL — Studio valida tus datos y señala problemas antes de que comience el entrenamiento
    2. Selecciona un modelo base — explora modelos disponibles o importa desde Hugging Face
    3. Configura y lanza — establece hiperparámetros visualmente y comienza el entrenamiento en GPUs en la nube administradas
    4. Compara resultados — ejecuta múltiples trabajos de fine-tuning lado a lado y compara salidas en el mismo canvas
    5. Exporta como GGUF — descarga tu modelo y despliega donde quieras

    Sin scripts de entrenamiento. Sin infraestructura que gestionar. Sin terminal requerida.

    Asegura precios early bird a $14.50/mes — este precio está garantizado de por vida y aumenta a $34.50/mes en el lanzamiento. Únete a la lista de espera →

    Preguntas Frecuentes

    ¿Cuánto tiempo toma ajustar un LLM?

    El tiempo de fine-tuning depende del tamaño de tu dataset, modelo base y hardware. Entrenar un modelo 7B con 5,000 ejemplos usando LoRA típicamente toma 30-90 minutos en una sola GPU A100. Datasets más pequeños (500-1,000 ejemplos) pueden terminar en menos de 15 minutos. Usar QLoRA en GPUs de consumo (RTX 3090/4090) toma 2-4x más tiempo pero aún se mide en horas, no días. El paso de preparación de datos a menudo toma más tiempo que el entrenamiento real.

    ¿Qué hardware necesito para fine-tuning?

    Para fine-tuning LoRA/QLoRA de un modelo 7B, necesitas una GPU con al menos 8 GB VRAM (por ejemplo, NVIDIA RTX 3060). QLoRA fue diseñado específicamente para ajustar en hardware de consumo — una sola RTX 4090 con 24 GB VRAM puede manejar modelos de hasta 33B parámetros. Para fine-tuning completo (no recomendado para la mayoría de los equipos), necesitas múltiples GPUs de gama alta como A100s. Proveedores de GPU en la nube como Lambda Labs, RunPod o servicios administrados como Ertas Studio eliminan completamente el requisito de hardware.

    ¿Cuántos datos de entrenamiento necesito?

    Varía según la complejidad de la tarea. Para tareas de clasificación, 100-200 ejemplos por clase es el mínimo, con 500-1,000 siendo el punto óptimo. El fine-tuning conversacional necesita al menos 1,000 ejemplos, idealmente 5,000-10,000. Las tareas de generación de código comienzan en alrededor de 500 ejemplos. La calidad importa mucho más que la cantidad — según investigaciones de Meta AI, 500 ejemplos de alta calidad curados por expertos a menudo superan a 10,000 ruidosos. Comienza pequeño, evalúa y agrega más datos enfocándote en los casos de falla.

    ¿Puedo ajustar sin programar?

    Sí. Herramientas como Ertas Studio, Hugging Face AutoTrain y la API de fine-tuning de OpenAI proporcionan interfaces visuales o simplificadas que manejan el pipeline de entrenamiento por ti. Preparas tu dataset JSONL, lo subes, seleccionas un modelo base, configuras parámetros básicos e inicias el entrenamiento. Sin scripts de Python, sin aprovisionamiento de GPU y sin gestión de infraestructura requerida.

    Qué Leer Después

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading