
Cómo ajustar un modelo de IA legal sin un equipo de ML
La mayoría de las agencias de IA no tienen ingenieros de ML en plantilla. Así es como puedes ajustar modelos de IA legal de calidad de producción usando Ertas Studio — sin Python, sin alquiler de GPU, sin experiencia en ML.
El mayor cuello de botella para las agencias de IA que entran al vertical legal no es ventas ni conocimiento de cumplimiento — es la experiencia en ML. Ajustar un modelo de lenguaje tradicionalmente requiere dominio de Python, comprensión de hiperparámetros de entrenamiento, acceso a infraestructura GPU, y experiencia depurando corridas de entrenamiento.
La mayoría de las agencias no tienen esto. Tienen ingenieros de automatización, especialistas en flujos de trabajo y consultores orientados al cliente. Contratar un ingeniero de ML agrega $150K-250K en salario antes de que produzcan algo.
Este artículo muestra cómo evitar el cuello de botella de ML por completo usando Ertas Studio, recorriendo un flujo de trabajo completo de fine-tuning de modelos legales desde la preparación de datos hasta el despliegue.
El cuello de botella de la agencia
Un flujo de trabajo típico de una agencia de IA para un cliente legal se ve así:
- El cliente quiere revisión de contratos impulsada por IA
- La agencia construye una solución con ingeniería de prompts con GPT-4o
- Los resultados son decentes pero no lo suficientemente precisos para uso en producción
- El cliente pide mejor precisión y privacidad de datos
- La agencia se da cuenta de que necesitan fine-tuning y despliegue on-prem
- La agencia se estanca — nadie en el equipo sabe cómo ajustar un modelo
En este punto, las agencias hacen una de tres cosas:
- Rechazan el compromiso (ingresos perdidos)
- Externalizan a un contratista de ML ($10K-30K por modelo, timeline de 4-8 semanas)
- Intentan aprender fine-tuning desde cero (meses de experimentación)
Ninguna de estas opciones es sostenible. Ertas Studio proporciona una cuarta opción: una interfaz de fine-tuning sin código diseñada específicamente para equipos sin ML.
Recorrido: Ajustando un modelo de revisión de contratos legales
Aquí está el flujo de trabajo completo, paso a paso.
Paso 1: Preparar tus datos de entrenamiento
Los datos de entrenamiento para revisión de contratos legales provienen del trabajo histórico del bufete. Necesitas pares de instrucción-respuesta donde:
- Instrucción: Una cláusula o sección del contrato + la pregunta de análisis
- Respuesta: El análisis del abogado, evaluación de riesgo, o información extraída
Ejemplo:
{
"instruction": "Review the following indemnification clause and assess risk level:\n\n'Tenant shall indemnify and hold harmless Landlord from and against any and all claims, damages, losses, costs and expenses (including reasonable attorneys' fees) arising out of or in connection with Tenant's use of the Premises, except to the extent caused by Landlord's gross negligence or willful misconduct.'",
"response": "Risk Level: MODERATE\n\nAnalysis: This is a standard one-way indemnification clause favouring the landlord. The carve-out for landlord's gross negligence/willful misconduct provides some protection, but the clause is broader than ideal. Key concerns:\n1. 'Any and all claims' is very broad — consider narrowing to claims arising from tenant's negligence\n2. No cap on indemnification liability\n3. Includes attorneys' fees which could be significant\n\nRecommendation: Negotiate to add mutual indemnification and a liability cap tied to the lease value."
}
Requisitos de datos:
- Mínimo: 500 ejemplos (para un modelo básico)
- Recomendado: 2,000-3,000 ejemplos (para calidad de producción)
- Formato: JSONL (un objeto JSON por línea)
Dónde obtener datos:
- Exportar desde sistemas de gestión documental (iManage, NetDocuments)
- Convertir anotaciones y comentarios de abogados en pares estructurados
- Usar memorandos de revisión históricos como plantillas de respuesta
Paso 2: Subir a Ertas Studio
En Ertas Studio:
- Crea un nuevo proyecto y nómbralo (ej., "Acme Legal - Contract Review")
- Sube tu archivo de entrenamiento JSONL
- Studio automáticamente valida el formato y muestra una vista previa de tus ejemplos
- Revisa las estadísticas de los datos — distribución de longitudes de respuesta, categorías de instrucciones
Studio señala posibles problemas de calidad de datos: entradas duplicadas, respuestas extremadamente cortas, inconsistencias de formato. Corrígelos antes de continuar.
Paso 3: Configurar el entrenamiento
Studio presenta la configuración de entrenamiento con valores predeterminados sensatos:
| Parámetro | Valor por defecto | Qué significa |
|---|---|---|
| Modelo base | Llama 3.1 8B | El modelo base para ajustar |
| Tipo de adaptador | LoRA | Entrena un adaptador pequeño, no el modelo completo |
| Rango LoRA | 16 | Controla la capacidad del adaptador (mayor = más capacidad, más cómputo) |
| Épocas | 3 | Número de pasadas por los datos de entrenamiento |
| Tasa de aprendizaje | 2e-4 | Qué tan agresivamente aprende el modelo (menor = más estable) |
Para tareas legales, los valores predeterminados funcionan bien. La decisión principal es el tamaño del modelo base:
- 8B: Entrenamiento rápido, corre en GPUs de consumo, suficiente para modelos de tarea única (ej., solo revisión de contratos)
- 13B: Entrenamiento más lento, necesita más VRAM, mejor para modelos multi-tarea (revisión de contratos + resumen de casos + clasificación de documentos)
Paso 4: Entrenar
Haz clic en "Start Training." Studio maneja:
- Tokenización y formato de datos
- Asignación y programación de GPU
- Ejecución del entrenamiento con checkpoints automáticos
- Evaluación en un conjunto de validación reservado
- Curvas de pérdida y métricas de calidad mostradas en tiempo real
Tiempo de entrenamiento para un dataset de 2,000 ejemplos en un modelo de 8B: aproximadamente 30-60 minutos.
Paso 5: Evaluar
Una vez completado el entrenamiento, Studio proporciona una interfaz de evaluación:
- Comparación lado a lado: Envía la misma cláusula contractual tanto al modelo base como a tu modelo ajustado. Compara las salidas.
- Métricas de validación: Pérdida en datos reservados, puntuaciones de calidad de respuesta
- Prueba con entradas personalizadas: Pega cualquier cláusula contractual y ve el análisis del modelo ajustado
Aquí es donde la diferencia de calidad se vuelve obvia. El modelo base produce análisis genérico, a veces impreciso. El modelo ajustado produce análisis que refleja a los propios abogados del bufete — usando su terminología, aplicando sus umbrales de riesgo, siguiendo su formato de informes.
Paso 6: Exportar y desplegar
Exporta el modelo ajustado en tu formato preferido:
- GGUF: Para despliegue vía Ollama (recomendado para la mayoría de los despliegues de agencias)
- SafeTensors: Para despliegue vía vLLM o Hugging Face Transformers
- Solo adaptador LoRA: Si se despliega junto a otros adaptadores del mismo modelo base
Despliega en el hardware del cliente usando Ollama o vLLM. El modelo corre localmente — no se requiere conexión a internet después del despliegue.
Antes y después: comparación de calidad de salida
Cláusula de entrada:
"Notwithstanding any other provision of this Agreement, either party may terminate this Agreement immediately upon written notice if the other party commits a material breach and fails to cure such breach within ten (10) business days of receiving written notice thereof."
Modelo base (Llama 3.1 8B, sin fine-tuning):
"This is a termination clause. It allows either party to terminate the agreement if there is a material breach. The cure period is 10 business days."
Modelo ajustado (mismo base, entrenado con datos del bufete):
"Risk Level: LOW-MODERATE
Standard mutual termination for material breach with cure period. The 10 business day cure period is shorter than our typical recommendation of 30 calendar days. Key considerations:
- 'Material breach' is undefined — recommend adding examples or referencing specific obligations
- 10 business days may be insufficient for complex curing actions (e.g., insurance procurement, structural repairs)
- 'Immediately upon written notice' after cure failure is acceptable
- 'Notwithstanding any other provision' creates potential conflict with force majeure clause in Section 14
Recommendation: Negotiate cure period to 30 calendar days. Add definition of material breach or cross-reference to specific obligations."
La diferencia no es incremental — es categórica. El modelo ajustado produce el tipo de análisis que un asociado junior escribiría después de revisar las guías de análisis del bufete.
De un modelo a una práctica escalable
Una vez que has ajustado tu primer modelo legal, el proceso es replicable:
- Mismo flujo de trabajo, diferente cliente: Cada nuevo compromiso con un bufete sigue el mismo pipeline de datos -> entrenar -> desplegar
- Mismo modelo base, diferentes adaptadores: Entrena adaptadores LoRA específicos por cliente desde el mismo modelo base
- Misma infraestructura, múltiples modelos: Una sola GPU sirve múltiples modelos de clientes mediante intercambio de adaptadores en caliente
- Precios de portafolio: Tu costo por cliente disminuye con cada cliente adicional, mejorando los márgenes
El cuello de botella de ML que impedía a tu agencia entrar al vertical legal ya no existe.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura adicional
- Ajusta modelos de IA sin código — Guía general de fine-tuning sin código con Ertas Studio
- Presentamos Ertas Studio — Visión general y capacidades de la plataforma
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

How to QA a Fine-Tuned Model Before Client Delivery
A complete QA process for testing fine-tuned models before delivering them to clients — covering functional testing, edge cases, regression checks, and client acceptance criteria.

Running 10+ Fine-Tuned Models for Different Clients: Operations Guide
An operations guide for AI agencies managing 10+ fine-tuned models across multiple clients — covering model organization, resource allocation, monitoring, updates, and scaling without chaos.

AI Agency Proposal Template: How to Win Custom Model Projects
Most AI agency proposals lose because they lead with technology. Here's the structure, the writing formula, and the common mistakes that cost agencies deals.