Back to blog
    Primeros pasos: ajusta tu primer modelo de IA legal en 30 minutos con Ertas
    tutorialfine-tuninglegalertas-studiogetting-startedsegment:agency

    Primeros pasos: ajusta tu primer modelo de IA legal en 30 minutos con Ertas

    Un tutorial práctico: regístrate en Ertas Studio, sube un dataset legal de ejemplo, configura y ejecuta el fine-tuning, evalúa la salida y exporta tu modelo — todo en 30 minutos.

    EErtas Team·

    Este es un tutorial práctico. Al final, tendrás un modelo de IA ajustado que puede analizar cláusulas de contratos legales — entrenado con datos de ejemplo, evaluado y listo para exportar.

    No necesitas experiencia en ML. Ni Python. Ni alquiler de GPU. Solo un navegador y 30 minutos.

    Lo que construirás

    Un modelo ajustado que:

    • Toma una cláusula contractual como entrada
    • Identifica el tipo de cláusula (indemnización, terminación, confidencialidad, etc.)
    • Evalúa el nivel de riesgo (bajo, moderado, alto)
    • Proporciona un breve análisis con preocupaciones clave
    • Sugiere puntos de negociación

    Esta es una versión simplificada de los modelos de revisión de contratos que las agencias despliegan para clientes de bufetes de abogados. El proceso es idéntico — solo los datos de entrenamiento y el alcance difieren.

    Requisitos previos

    • Una cuenta de Ertas (regístrate en ertas.ai)
    • 30 minutos de tiempo ininterrumpido
    • Sin requisitos técnicos previos — el tutorial cubre todo

    Minuto 0-5: Registrarse y crear un proyecto

    1. Ve a ertas.ai y crea tu cuenta
    2. Desde el dashboard, haz clic en New Project
    3. Nómbralo: "Legal Contract Review - Tutorial"
    4. Selecciona tipo de proyecto: Fine-Tuning

    Ahora estás en el espacio de trabajo de Ertas Studio. Aquí es donde subirás datos, configurarás el entrenamiento y evaluarás tu modelo.

    Para este tutorial, usaremos un dataset de ejemplo de cláusulas contractuales anotadas. En un despliegue real, estos datos provienen de las revisiones históricas de documentos del bufete.

    Formato de datos de ejemplo

    Los datos de entrenamiento son un archivo JSONL donde cada línea es un objeto JSON con una instrucción y respuesta:

    {"instruction": "Analyse the following contract clause for risk level and key concerns:\n\n'The Vendor shall indemnify, defend, and hold harmless the Client from and against any and all claims, losses, damages, liabilities, costs, and expenses (including reasonable attorneys' fees) arising out of or relating to any breach of this Agreement by the Vendor.'", "response": "Clause Type: Indemnification\nRisk Level: LOW\n\nAnalysis: This is a standard one-way indemnification clause where the vendor indemnifies the client. Key observations:\n1. Scope is limited to breaches of the agreement — this is appropriately narrow\n2. Includes attorneys' fees, which is standard\n3. Uses 'arising out of or relating to' — broader than 'arising out of' alone but still reasonable\n4. One-way protection favours the client\n\nNegotiation Points:\n- Consider adding a reciprocal indemnification clause\n- Consider adding a liability cap (e.g., aggregate limit equal to fees paid)\n- The 'relating to' language could be narrowed to 'directly arising from' if the vendor has leverage"}
    

    Pasos para subir

    1. Haz clic en Upload Data en tu proyecto

    2. Selecciona tu archivo JSONL (o arrastra y suelta)

    3. Studio valida el formato y muestra una vista previa:

      • Total de ejemplos: mostrado
      • Longitud promedio de instrucciones: mostrada
      • Longitud promedio de respuestas: mostrada
      • Cualquier problema de formato: señalado
    4. Revisa la vista previa — desplázate por algunos ejemplos para confirmar que se ven correctos

    5. Haz clic en Confirm Upload

    Si no tienes un dataset legal preparado, Ertas Studio incluye datasets de ejemplo para casos de uso comunes. Selecciona el dataset de ejemplo "Legal Contract Analysis" para continuar con el tutorial.

    Minuto 10-15: Configurar el entrenamiento

    Con tus datos subidos, configura el trabajo de fine-tuning.

    Selección del modelo base

    Haz clic en Select Base Model. Para este tutorial:

    • Llama 3.1 8B (Recomendado) — Buen equilibrio de calidad y velocidad para tareas legales
    • Mistral 7B — Alternativa viable, estilo de salida ligeramente diferente

    Selecciona Llama 3.1 8B.

    Parámetros de entrenamiento

    Studio muestra los parámetros por defecto con explicaciones. Para este tutorial, mantén los valores predeterminados:

    ParámetroValor por defectoQué significa
    Tipo de adaptadorLoRAEntrena un adaptador pequeño en lugar de modificar todo el modelo
    Rango LoRA16Controla cuánto puede aprender el modelo (16 es un buen valor por defecto)
    Alpha LoRA32Factor de escala (2x el rango es estándar)
    Épocas3Número de pasadas por los datos de entrenamiento
    Tasa de aprendizaje2e-4Qué tan agresivamente aprende el modelo
    Tamaño de loteAutoStudio optimiza según tus datos y GPU disponible

    Para un modelo de producción, podrías ajustar estos según los resultados. Para el tutorial, los valores por defecto funcionan bien.

    División de validación

    Studio automáticamente reserva el 10% de tus datos para validación — estos ejemplos no se usan durante el entrenamiento y se utilizan para medir la calidad después. Esta es una práctica estándar de ML que ocurre automáticamente.

    Minuto 15-20: Ejecutar el fine-tuning

    Haz clic en Start Training.

    Studio maneja todo:

    1. Formatea tus datos para el tokenizador del modelo base seleccionado
    2. Asigna recursos de GPU
    3. Ejecuta el ciclo de entrenamiento con checkpoints automáticos
    4. Evalúa en el conjunto de validación reservado

    Lo que verás

    Un dashboard de entrenamiento en tiempo real muestra:

    • Curva de pérdida de entrenamiento — debería decrecer y estabilizarse. Una curva descendente suave significa que el modelo está aprendiendo.
    • Pérdida de validación — debería seguir la pérdida de entrenamiento sin divergir. Si la pérdida de validación aumenta mientras la de entrenamiento disminuye, el modelo está sobreajustando (poco probable con estos valores por defecto).
    • Tiempo estimado restante — típicamente 15-30 minutos para un dataset de ejemplo en un modelo de 8B.
    • Checkpoints guardados — Studio guarda el modelo en cada época, para que puedas revertir si una época posterior funciona peor.

    Mientras se ejecuta el entrenamiento, toma un descanso o lee sobre cómo funciona LoRA para entender qué está pasando internamente.

    Minuto 20-25: Evaluar el modelo

    Entrenamiento completo. Ahora prueba tu modelo ajustado.

    Comparación lado a lado

    Studio proporciona una interfaz de comparación. Ingresa una cláusula contractual — una que el modelo no haya visto antes — y compara las salidas del modelo base y tu modelo ajustado.

    Entrada de ejemplo:

    "Either party may terminate this Agreement upon sixty (60) days' prior written notice to the other party. In the event of termination, all outstanding invoices shall become immediately due and payable, and the receiving party shall return or destroy all Confidential Information within thirty (30) days."

    Salida del modelo base (antes del fine-tuning):

    This is a termination clause. It allows either party to terminate with 60 days notice. There are provisions about invoices and confidential information.

    Salida del modelo ajustado:

    Clause Type: Termination Risk Level: LOW-MODERATE

    Analysis: Standard mutual termination clause with reasonable notice period. Key observations:

    1. 60-day notice period is within normal range (30-90 days typical)
    2. Immediate acceleration of outstanding invoices on termination is standard but could create cash flow pressure if triggered unexpectedly
    3. 30-day window for return/destruction of Confidential Information is reasonable
    4. "Return or destroy" gives the receiving party flexibility — consider requiring certification of destruction

    Negotiation Points:

    • If you are the service provider, negotiate for a longer notice period (90 days) to allow for transition
    • Add a survival clause specifying which provisions continue after termination (indemnification, confidentiality, IP ownership)
    • Consider adding a termination-for-cause provision with a shorter notice period and cure right

    La diferencia es inmediatamente visible. El modelo ajustado produce salida estructurada y analítica que coincide con lo que un asociado junior escribiría.

    Métricas de validación

    Studio muestra métricas cuantitativas:

    • Pérdida de validación — menor es mejor, comparar contra el modelo base
    • Puntuación de calidad de respuesta — evaluación automatizada de coherencia y completitud de la salida
    • Adherencia al formato — qué tan consistentemente sigue el modelo el formato de salida de los datos de entrenamiento

    Revisa estas métricas y prueba 5-10 cláusulas adicionales para ganar confianza en la calidad del modelo.

    Minuto 25-30: Exportar tu modelo

    ¿Satisfecho con la calidad? Exporta el modelo para despliegue.

    Opciones de exportación

    Haz clic en Export Model y selecciona tu formato:

    • GGUF (Recomendado para la mayoría de despliegues) — Compatible con Ollama para inferencia local
    • SafeTensors — Compatible con vLLM, Hugging Face Transformers
    • Solo adaptador LoRA — Solo el archivo del adaptador, para usar junto al modelo base

    Para este tutorial, selecciona GGUF.

    Descarga

    Studio empaqueta y cuantiza el modelo (reduciendo el tamaño del archivo mientras preserva la calidad). La descarga es típicamente de 4-6 GB para un modelo de 8B.

    Desplegar (paso bonus)

    Para ejecutar tu modelo localmente:

    # Install Ollama (if you haven't already)
    # Visit https://ollama.com
    
    # Create a Modelfile
    echo 'FROM /path/to/your-exported-model.gguf' > Modelfile
    
    # Register the model
    ollama create legal-contract-review -f Modelfile
    
    # Test it
    ollama run legal-contract-review "Analyse this clause: [paste a clause]"
    

    Tu modelo de IA legal ajustado ahora está corriendo localmente. Sin costos de API. Sin datos enviados a terceros. Listo para integrar con n8n o cualquier aplicación que soporte APIs compatibles con OpenAI.

    Qué sigue

    Has completado una corrida de fine-tuning con datos de ejemplo. Para pasar del tutorial a producción:

    1. Recolecta datos de entrenamiento reales de tu cliente del bufete — revisiones históricas de contratos, documentos anotados, memorandos de análisis
    2. Aumenta el dataset — 2,000-3,000 ejemplos para calidad de producción
    3. Personaliza para el cliente — sus umbrales de riesgo, terminología, preferencias de formato
    4. Despliega en el hardware del cliente — on-prem para privilegio y cumplimiento
    5. Itera — recolecta retroalimentación, agrega ejemplos, reentrena periódicamente

    El proceso escala a cualquier tarea legal — diligencia debida, investigación legal, cumplimiento regulatorio, clasificación de documentos. El pipeline es el mismo: datos -> fine-tuning -> evaluar -> desplegar.

    Para una inmersión más profunda en la construcción de una práctica de IA legal, consulta nuestra guía sobre ajustar IA legal sin un equipo de ML.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading