Dataset de Revisión de Contratos Legales Template

Plantilla para construir datasets que entrenen modelos de IA para identificar cláusulas, señalar riesgos y clasificar disposiciones en contratos legales.

Classification

Overview

Los datasets de revisión de contratos legales entrenan modelos de IA para analizar contratos identificando tipos específicos de cláusulas, señalando disposiciones potencialmente riesgosas, extrayendo términos clave y clasificando secciones del contrato según su función legal. Estos datasets permiten a las organizaciones automatizar el triaje inicial de contratos, reduciendo el tiempo que los abogados dedican a la revisión rutinaria de documentos y asegurando que las disposiciones de alto riesgo reciban la atención humana adecuada.

La estructura del dataset debe reflejar la naturaleza jerárquica de los documentos legales. Los contratos contienen secciones, cláusulas y subcláusulas, cada una con un propósito legal específico. Los datos de entrenamiento deben incluir ejemplos de tipos de cláusulas comunes — limitación de responsabilidad, indemnización, terminación, confidencialidad, ley aplicable, cesión, fuerza mayor y disposiciones de propiedad intelectual. Cada cláusula debe etiquetarse con su tipo, nivel de riesgo (estándar, favorable, desfavorable, faltante) y cualquier preocupación específica como obligaciones de indemnización unilaterales o disposiciones de no competencia inusualmente amplias.

La IA de revisión de contratos es particularmente sensible a la calidad de los datos de entrenamiento porque los errores pueden tener consecuencias legales y financieras graves. El dataset debe ser revisado por profesionales legales calificados que comprendan los matices del lenguaje contractual. El contexto es enormemente importante — la misma redacción de una cláusula puede ser estándar en un tipo de acuerdo y altamente inusual en otro. Los datos de entrenamiento deben cubrir múltiples tipos de contrato (NDAs, acuerdos de servicio, contratos de empleo, acuerdos de licencia, acuerdos de asociación) para asegurar que el modelo generalice apropiadamente entre categorías de documentos.

Dataset Schema

typescript

interface ContractClauseExample {
  instruction: string;
  input: string;       // The contract clause or section text
  output: string;      // Classification, risk assessment, or extraction result
  metadata: {
    contract_type: "NDA" | "MSA" | "SaaS" | "Employment" | "License" | "Partnership";
    clause_type: string;
    risk_level: "standard" | "favorable" | "unfavorable" | "critical";
    jurisdiction: string;
  };
}

Esquema para ejemplos de entrenamiento de revisión de contratos legales con metadatos de cláusulas

Sample Data

json

[
  {
    "instruction": "Classify the following contract clause and assess its risk level for the receiving party.",
    "input": "The Receiving Party shall indemnify, defend, and hold harmless the Disclosing Party from and against any and all claims, damages, losses, costs, and expenses (including reasonable attorneys' fees) arising from or related to any breach of this Agreement by the Receiving Party, including but not limited to any unauthorized disclosure or use of Confidential Information.",
    "output": "Clause Type: Indemnification\nRisk Level: Standard\n\nAnalysis: This is a standard one-way indemnification clause in an NDA context. The Receiving Party indemnifies the Disclosing Party for breaches of confidentiality obligations. The scope is reasonable — it covers damages arising from breach of the agreement, specifically unauthorized disclosure. The inclusion of attorneys' fees is standard. No unusual or overly broad provisions detected.\n\nRecommendation: Acceptable as-is for standard NDA.",
    "metadata": {
      "contract_type": "NDA",
      "clause_type": "indemnification",
      "risk_level": "standard",
      "jurisdiction": "US-General"
    }
  },
  {
    "instruction": "Identify any concerning provisions in this limitation of liability clause.",
    "input": "IN NO EVENT SHALL PROVIDER BE LIABLE FOR ANY INDIRECT, INCIDENTAL, SPECIAL, CONSEQUENTIAL, OR PUNITIVE DAMAGES, REGARDLESS OF THE CAUSE OF ACTION OR THE THEORY OF LIABILITY. PROVIDER'S TOTAL AGGREGATE LIABILITY UNDER THIS AGREEMENT SHALL NOT EXCEED THE FEES PAID BY CUSTOMER IN THE TWELVE (12) MONTH PERIOD IMMEDIATELY PRECEDING THE EVENT GIVING RISE TO THE CLAIM. THIS LIMITATION SHALL APPLY NOTWITHSTANDING THE FAILURE OF ESSENTIAL PURPOSE OF ANY LIMITED REMEDY.",
    "output": "Clause Type: Limitation of Liability\nRisk Level: Unfavorable (for Customer)\n\nConcerns Identified:\n1. **No carve-outs**: The limitation applies universally with no exceptions for gross negligence, willful misconduct, IP infringement, or confidentiality breaches. Industry standard is to carve out at least IP indemnification and confidentiality obligations.\n2. **Low liability cap**: 12-month trailing fees may be insufficient for enterprise agreements. Consider negotiating 24-month or a fixed dollar floor.\n3. **Failure of essential purpose language**: The final sentence attempts to preserve the limitation even when a remedy fails its essential purpose, which may be unenforceable in some jurisdictions but signals aggressive positioning.\n\nRecommendation: Negotiate carve-outs for IP, confidentiality, and data breach. Consider a higher liability cap or a super-cap for critical obligations.",
    "metadata": {
      "contract_type": "SaaS",
      "clause_type": "limitation-of-liability",
      "risk_level": "unfavorable",
      "jurisdiction": "US-General"
    }
  }
]

Ejemplos de revisión de contratos legales que muestran clasificación de cláusulas y evaluación de riesgos

Data Collection Guide

Obtén datos de entrenamiento de los memorandos de revisión de contratos históricos de tu organización, comentarios de revisión y bibliotecas de cláusulas. Los equipos legales típicamente mantienen bases de datos de lenguaje de cláusulas aprobadas, manuales de negociación y plantillas de evaluación de riesgos — estas son fuentes excelentes para ejemplos de entrenamiento. Convierte las entradas de la biblioteca de cláusulas en pares de instrucción-respuesta donde la instrucción pide al modelo clasificar o evaluar una cláusula y la salida proporciona el análisis que produciría un abogado junior.

La redacción de PII es crítica para los datos de entrenamiento legales. Los textos de contratos contienen nombres de las partes, direcciones, términos financieros y otra información comercial confidencial. Usa la redacción de PII de Ertas Data Suite para reemplazar nombres de empresas con marcadores genéricos (Parte A, Parte B), enmascarar montos específicos en dólares preservando las magnitudes relativas y eliminar direcciones e información de contacto. Preserva la estructura de las cláusulas y la terminología legal mientras eliminas la información identificatoria.

Involucra a abogados en ejercicio para revisar y validar los ejemplos de entrenamiento, particularmente las evaluaciones de riesgo. La diferencia entre una cláusula "estándar" y una "desfavorable" frecuentemente depende del contexto, la jurisdicción y la dinámica del acuerdo, lo cual requiere experiencia legal para evaluar. Planifica al menos dos revisores abogados por ejemplo para establecer estándares de calidad consistentes, y resuelve los desacuerdos mediante la revisión de un abogado senior.

Quality Criteria

La precisión legal es el criterio de calidad primordial. Cada evaluación de riesgo, clasificación de cláusula y recomendación en los datos de entrenamiento debe ser legalmente sólida. Haz que abogados calificados validen que los tipos de cláusulas están correctamente identificados, que los niveles de riesgo reflejan con precisión la exposición de la parte y que las recomendaciones se alinean con la práctica legal razonable. Un análisis legal incorrecto en los datos de entrenamiento producirá un modelo que da consejos peligrosamente erróneos.

Asegura cobertura en todos los tipos de contrato, tipos de cláusula y jurisdicciones. El dataset debe incluir ejemplos de al menos 5-6 tipos de contrato con representación de todas las categorías comunes de cláusulas (10-15 tipos). Incluye ejemplos tanto de cláusulas bien redactadas como de cláusulas mal redactadas — el modelo necesita reconocer la mala redacción como un factor de riesgo. Incluye ejemplos de cláusulas faltantes (identificar que un contrato carece de una disposición estándar) ya que esta es una de las capacidades más valiosas de la IA de revisión de contratos.

Valida que el formato de salida sea consistente en todos los ejemplos. Cada análisis debe seguir la misma estructura (Tipo de Cláusula, Nivel de Riesgo, Análisis, Recomendación) para entrenar al modelo a producir salidas predecibles y analizables. Prueba que las salidas del modelo puedan integrarse en herramientas de flujo de trabajo legal posteriores que esperan evaluaciones de riesgo estructuradas.

Using This Template with Ertas

Importa los textos de contratos a Ertas Data Suite para la redacción de PII, eliminando nombres de las partes, términos financieros y otros detalles confidenciales mientras se preserva el lenguaje legal y la estructura de las cláusulas. El rastreo de linaje de datos documenta cada redacción, proporcionando la pista de auditoría que los equipos de cumplimiento legal requieren. Exporta el dataset limpio en formato Alpaca o JSONL para el fine-tuning.

La arquitectura on-premise es particularmente importante para datos legales, que típicamente están sujetos al privilegio abogado-cliente y obligaciones estrictas de confidencialidad. Procesar textos de contratos a través del entorno aislado de Ertas Data Suite asegura que la información privilegiada nunca salga de la infraestructura de tu organización.

Recommended Model

La revisión de contratos legales se beneficia de modelos más grandes que pueden manejar el razonamiento complejo requerido para la evaluación de riesgos. Comienza con un modelo de 13B-14B parámetros como Llama 3.1 14B para un mejor análisis matizado. Para tareas más simples de clasificación de cláusulas (identificar tipos de cláusulas sin evaluación de riesgo), un modelo de 7B-8B proporciona un rendimiento adecuado con inferencia más rápida.

Considera el pre-entrenamiento adaptativo de dominio en un gran corpus de texto legal antes del fine-tuning supervisado en tu dataset de revisión de contratos. Los modelos pre-entrenados en texto general pueden tener dificultades con la terminología legal, los formatos de citación y las estructuras de oraciones complejas comunes en los contratos.

Related Resources

Use Case

Ertas for Document Classification

Use Case

Ertas for Contract Review & Analysis

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →