Primeros pasos: ajusta tu primer modelo de IA legal en 30 minutos con Ertas

Este es un tutorial práctico. Al final, tendrás un modelo de IA ajustado que puede analizar cláusulas de contratos legales — entrenado con datos de ejemplo, evaluado y listo para exportar.

No necesitas experiencia en ML. Ni Python. Ni alquiler de GPU. Solo un navegador y 30 minutos.

Lo que construirás

Un modelo ajustado que:

Toma una cláusula contractual como entrada
Identifica el tipo de cláusula (indemnización, terminación, confidencialidad, etc.)
Evalúa el nivel de riesgo (bajo, moderado, alto)
Proporciona un breve análisis con preocupaciones clave
Sugiere puntos de negociación

Esta es una versión simplificada de los modelos de revisión de contratos que las agencias despliegan para clientes de bufetes de abogados. El proceso es idéntico — solo los datos de entrenamiento y el alcance difieren.

Requisitos previos

Una cuenta de Ertas (regístrate en ertas.ai)
30 minutos de tiempo ininterrumpido
Sin requisitos técnicos previos — el tutorial cubre todo

Minuto 0-5: Registrarse y crear un proyecto

Ve a ertas.ai y crea tu cuenta
Desde el dashboard, haz clic en New Project
Nómbralo: "Legal Contract Review - Tutorial"
Selecciona tipo de proyecto: Fine-Tuning

Ahora estás en el espacio de trabajo de Ertas Studio. Aquí es donde subirás datos, configurarás el entrenamiento y evaluarás tu modelo.

Minuto 5-10: Subir el dataset legal de ejemplo

Para este tutorial, usaremos un dataset de ejemplo de cláusulas contractuales anotadas. En un despliegue real, estos datos provienen de las revisiones históricas de documentos del bufete.

Formato de datos de ejemplo

Los datos de entrenamiento son un archivo JSONL donde cada línea es un objeto JSON con una instrucción y respuesta:

{"instruction": "Analyse the following contract clause for risk level and key concerns:\n\n'The Vendor shall indemnify, defend, and hold harmless the Client from and against any and all claims, losses, damages, liabilities, costs, and expenses (including reasonable attorneys' fees) arising out of or relating to any breach of this Agreement by the Vendor.'", "response": "Clause Type: Indemnification\nRisk Level: LOW\n\nAnalysis: This is a standard one-way indemnification clause where the vendor indemnifies the client. Key observations:\n1. Scope is limited to breaches of the agreement — this is appropriately narrow\n2. Includes attorneys' fees, which is standard\n3. Uses 'arising out of or relating to' — broader than 'arising out of' alone but still reasonable\n4. One-way protection favours the client\n\nNegotiation Points:\n- Consider adding a reciprocal indemnification clause\n- Consider adding a liability cap (e.g., aggregate limit equal to fees paid)\n- The 'relating to' language could be narrowed to 'directly arising from' if the vendor has leverage"}

Pasos para subir

Haz clic en Upload Data en tu proyecto
Selecciona tu archivo JSONL (o arrastra y suelta)
Studio valida el formato y muestra una vista previa:
- Total de ejemplos: mostrado
- Longitud promedio de instrucciones: mostrada
- Longitud promedio de respuestas: mostrada
- Cualquier problema de formato: señalado
Revisa la vista previa — desplázate por algunos ejemplos para confirmar que se ven correctos
Haz clic en Confirm Upload

Si no tienes un dataset legal preparado, Ertas Studio incluye datasets de ejemplo para casos de uso comunes. Selecciona el dataset de ejemplo "Legal Contract Analysis" para continuar con el tutorial.

Minuto 10-15: Configurar el entrenamiento

Con tus datos subidos, configura el trabajo de fine-tuning.

Selección del modelo base

Haz clic en Select Base Model. Para este tutorial:

Llama 3.1 8B (Recomendado) — Buen equilibrio de calidad y velocidad para tareas legales
Mistral 7B — Alternativa viable, estilo de salida ligeramente diferente

Selecciona Llama 3.1 8B.

Parámetros de entrenamiento

Studio muestra los parámetros por defecto con explicaciones. Para este tutorial, mantén los valores predeterminados:

Parámetro	Valor por defecto	Qué significa
Tipo de adaptador	LoRA	Entrena un adaptador pequeño en lugar de modificar todo el modelo
Rango LoRA	16	Controla cuánto puede aprender el modelo (16 es un buen valor por defecto)
Alpha LoRA	32	Factor de escala (2x el rango es estándar)
Épocas	3	Número de pasadas por los datos de entrenamiento
Tasa de aprendizaje	2e-4	Qué tan agresivamente aprende el modelo
Tamaño de lote	Auto	Studio optimiza según tus datos y GPU disponible

Para un modelo de producción, podrías ajustar estos según los resultados. Para el tutorial, los valores por defecto funcionan bien.

División de validación

Studio automáticamente reserva el 10% de tus datos para validación — estos ejemplos no se usan durante el entrenamiento y se utilizan para medir la calidad después. Esta es una práctica estándar de ML que ocurre automáticamente.

Minuto 15-20: Ejecutar el fine-tuning

Haz clic en Start Training.

Studio maneja todo:

Formatea tus datos para el tokenizador del modelo base seleccionado
Asigna recursos de GPU
Ejecuta el ciclo de entrenamiento con checkpoints automáticos
Evalúa en el conjunto de validación reservado

Lo que verás

Un dashboard de entrenamiento en tiempo real muestra:

Curva de pérdida de entrenamiento — debería decrecer y estabilizarse. Una curva descendente suave significa que el modelo está aprendiendo.
Pérdida de validación — debería seguir la pérdida de entrenamiento sin divergir. Si la pérdida de validación aumenta mientras la de entrenamiento disminuye, el modelo está sobreajustando (poco probable con estos valores por defecto).
Tiempo estimado restante — típicamente 15-30 minutos para un dataset de ejemplo en un modelo de 8B.
Checkpoints guardados — Studio guarda el modelo en cada época, para que puedas revertir si una época posterior funciona peor.

Mientras se ejecuta el entrenamiento, toma un descanso o lee sobre cómo funciona LoRA para entender qué está pasando internamente.

Minuto 20-25: Evaluar el modelo

Entrenamiento completo. Ahora prueba tu modelo ajustado.

Comparación lado a lado

Studio proporciona una interfaz de comparación. Ingresa una cláusula contractual — una que el modelo no haya visto antes — y compara las salidas del modelo base y tu modelo ajustado.

Entrada de ejemplo:

"Either party may terminate this Agreement upon sixty (60) days' prior written notice to the other party. In the event of termination, all outstanding invoices shall become immediately due and payable, and the receiving party shall return or destroy all Confidential Information within thirty (30) days."

Salida del modelo base (antes del fine-tuning):

This is a termination clause. It allows either party to terminate with 60 days notice. There are provisions about invoices and confidential information.

Salida del modelo ajustado:

Clause Type: Termination Risk Level: LOW-MODERATE

Analysis: Standard mutual termination clause with reasonable notice period. Key observations:

60-day notice period is within normal range (30-90 days typical)

Immediate acceleration of outstanding invoices on termination is standard but could create cash flow pressure if triggered unexpectedly

30-day window for return/destruction of Confidential Information is reasonable

"Return or destroy" gives the receiving party flexibility — consider requiring certification of destruction

Negotiation Points:

If you are the service provider, negotiate for a longer notice period (90 days) to allow for transition

Add a survival clause specifying which provisions continue after termination (indemnification, confidentiality, IP ownership)

Consider adding a termination-for-cause provision with a shorter notice period and cure right

La diferencia es inmediatamente visible. El modelo ajustado produce salida estructurada y analítica que coincide con lo que un asociado junior escribiría.

Métricas de validación

Studio muestra métricas cuantitativas:

Pérdida de validación — menor es mejor, comparar contra el modelo base
Puntuación de calidad de respuesta — evaluación automatizada de coherencia y completitud de la salida
Adherencia al formato — qué tan consistentemente sigue el modelo el formato de salida de los datos de entrenamiento

Revisa estas métricas y prueba 5-10 cláusulas adicionales para ganar confianza en la calidad del modelo.

Minuto 25-30: Exportar tu modelo

¿Satisfecho con la calidad? Exporta el modelo para despliegue.

Opciones de exportación

Haz clic en Export Model y selecciona tu formato:

GGUF (Recomendado para la mayoría de despliegues) — Compatible con Ollama para inferencia local
SafeTensors — Compatible con vLLM, Hugging Face Transformers
Solo adaptador LoRA — Solo el archivo del adaptador, para usar junto al modelo base

Para este tutorial, selecciona GGUF.

Descarga

Studio empaqueta y cuantiza el modelo (reduciendo el tamaño del archivo mientras preserva la calidad). La descarga es típicamente de 4-6 GB para un modelo de 8B.

Desplegar (paso bonus)

Para ejecutar tu modelo localmente:

# Install Ollama (if you haven't already)
# Visit https://ollama.com

# Create a Modelfile
echo 'FROM /path/to/your-exported-model.gguf' > Modelfile

# Register the model
ollama create legal-contract-review -f Modelfile

# Test it
ollama run legal-contract-review "Analyse this clause: [paste a clause]"

Tu modelo de IA legal ajustado ahora está corriendo localmente. Sin costos de API. Sin datos enviados a terceros. Listo para integrar con n8n o cualquier aplicación que soporte APIs compatibles con OpenAI.

Qué sigue

Has completado una corrida de fine-tuning con datos de ejemplo. Para pasar del tutorial a producción:

Recolecta datos de entrenamiento reales de tu cliente del bufete — revisiones históricas de contratos, documentos anotados, memorandos de análisis
Aumenta el dataset — 2,000-3,000 ejemplos para calidad de producción
Personaliza para el cliente — sus umbrales de riesgo, terminología, preferencias de formato
Despliega en el hardware del cliente — on-prem para privilegio y cumplimiento
Itera — recolecta retroalimentación, agrega ejemplos, reentrena periódicamente

El proceso escala a cualquier tarea legal — diligencia debida, investigación legal, cumplimiento regulatorio, clasificación de documentos. El pipeline es el mismo: datos -> fine-tuning -> evaluar -> desplegar.

Para una inmersión más profunda en la construcción de una práctica de IA legal, consulta nuestra guía sobre ajustar IA legal sin un equipo de ML.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura adicional

Primeros pasos con Ertas — Visión general de la plataforma y primeros pasos
Cómo ajustar un modelo de IA legal sin un equipo de ML — El flujo de trabajo completo de agencia para IA legal