
Extracción de Cláusulas Contractuales: Guía de Preparación de Datos para IA Legal
Ajustar un modelo para revisión de contratos comienza con extraer y anotar datos a nivel de cláusula de archivos de contratos. Esta guía cubre el pipeline completo de preparación — on-premise y con privilegio preservado.
Construir una IA de contratos útil comienza con un problema de datos. El modelo necesita ejemplos de entrenamiento — contratos donde cláusulas específicas han sido identificadas, tipificadas y evaluadas. Antes de que cualquier entrenamiento pueda ocurrir, necesitas un pipeline que extraiga cláusulas individuales de documentos de contratos en bruto y las prepare para anotación.
Esta guía cubre ese pipeline: los pasos de extracción, el enfoque de anotación, quién debe hacer el etiquetado, los requisitos de calidad, el formato de salida y el tamaño esperado del dataset para un modelo viable de revisión de contratos.
Qué Hacen los Modelos de IA para Contratos
La IA para contratos opera a nivel de cláusula, no a nivel de documento. Las tareas útiles son clasificación de cláusulas (¿qué tipo de provisión es esta?), extracción de obligaciones (¿qué tiene que hacer esta parte?), detección de cláusulas desfavorables (¿esta provisión se desvía de los términos estándar de maneras que crean riesgo?), y comparación (¿cómo difiere esta cláusula de nuestra posición estándar?).
Todas estas requieren que el modelo entienda cláusulas individuales en contexto. Un modelo entrenado con documentos de contratos completos, sin estructura a nivel de cláusula, aprende a asociar texto contractual con etiquetas a nivel de documento — lo cual es útil para algunas tareas de clasificación pero inadecuado para trabajo a nivel de cláusula.
La estructura de datos de entrenamiento que habilita estas tareas es a nivel de cláusula: cada ejemplo de entrenamiento es una sola cláusula (o provisión multi-cláusula), con etiquetas indicando el tipo de cláusula, la clasificación de riesgo y metadatos relevantes.
Qué Datos de Entrenamiento Se Requieren
Para un modelo de clasificación de cláusulas, cada ejemplo de entrenamiento es un span de texto representando una cláusula o sección de un contrato, más una etiqueta indicando el tipo de cláusula. Para un modelo de clasificación de riesgo, cada ejemplo también tiene una etiqueta de riesgo (estándar, no estándar, escalar) indicando si la cláusula requiere negociación.
Para un modelo multietiqueta que clasifica tipo de cláusula y riesgo juntos:
{
"text": "In no event shall either party's liability under this agreement exceed the total fees paid by Customer in the twelve-month period immediately preceding the claim.",
"clause_type": "limitation_of_liability",
"risk_level": "standard",
"governing_law": "New York",
"agreement_type": "enterprise_software",
"mutual": true
}
Los campos de metadatos — ley aplicable, tipo de acuerdo, si la cláusula es mutua — son importantes para que el modelo aprenda estándares dependientes del contexto. Una cláusula de limitación de responsabilidad que es estándar en un acuerdo de licencia de software puede ser no estándar en un acuerdo de servicios profesionales. Sin este contexto, el modelo no puede hacer esa distinción.
Pipeline de Extracción
La extracción de cláusulas tiene cuatro pasos: ingesta de documentos, segmentación de secciones, detección de límites de cláusulas y normalización de metadatos.
Ingesta de documentos. Los contratos llegan como PDFs (versiones presentadas ante tribunales, originales escaneados, impresos y escaneados) y documentos Word (versiones borrador, redlines, versiones limpias). La ingesta de PDFs requiere manejo diferente dependiendo de si el PDF es creado digitalmente (capa de texto presente) o escaneado (requiere OCR). Los documentos Word deben procesarse desde el formato .docx en lugar de exportaciones PDF, porque el .docx preserva la estructura de encabezados e información de estilo que ayuda a la segmentación.
Para PDFs escaneados — que son comunes en archivos de transacciones para operaciones antiguas — el OCR debe ejecutarse primero. La calidad del OCR en documentos contractuales es generalmente alta porque los contratos usan fuentes de cuerpo estándar con alto contraste. Las principales fallas de OCR son: páginas de firma con escritura mixta a mano e impresa, documentos con sellos o anotaciones superpuestas al texto, y documentos que fueron enviados por fax y luego escaneados (doble degradación).
Segmentación de secciones. Después de la ingesta, el texto del contrato se divide en secciones. Una sección corresponde a un encabezado numerado en el nivel superior de estructura del acuerdo (1. Definiciones, 2. Servicios, 3. Honorarios, etc.). Las secciones se identifican por formato de encabezado — encabezados numerados en una fuente más grande o negrita que el texto del cuerpo.
El desafío es que los formatos de encabezados de contratos no están estandarizados. Algunos acuerdos usan números romanos (I., II., III.), algunos usan numeración decimal (1.1, 1.2), algunos usan letras alfabéticas (A., B.), y algunos usan solo texto sin prefijo de número. Un enfoque de segmentación que dependa de un solo formato de numeración perderá secciones en contratos con formato diferente.
Un enfoque robusto de segmentación combina detección de formato (identificando el estilo de numeración usado en este documento específico a partir de las primeras 20 secciones) con un enfoque alternativo basado en modelos para documentos con formato inusual.
Detección de límites de cláusulas. Dentro de una sección, las cláusulas individuales deben separarse. Una "sección" en un contrato puede contener una sola oración o treinta. Los límites entre cláusulas dentro de una sección corresponden a quiebres lógicos en la materia — una transición de un tema (lo que el licenciante otorga) a otro (lo que el licenciatario no puede hacer).
La detección de límites de cláusulas a este nivel requiere comprensión semántica, no solo señales de formato. Dentro de una sección, los saltos de párrafo son indicadores poco confiables de límites de cláusulas — algunas provisiones abarcan múltiples párrafos sin ser cláusulas distintas, y algunas cláusulas distintas comparten un solo párrafo.
Para la preparación de datos de entrenamiento, un enfoque pragmático: segmentar a nivel de sección para secciones simples (menos de 200 palabras), y a nivel de subsección (usando numeración decimal como 5.1, 5.2) para secciones complejas. Esta no es una segmentación perfecta de cláusulas, pero produce segmentos lo suficientemente pequeños para ser unidades de entrenamiento significativas sin requerir la complejidad completa de la detección semántica de límites de cláusulas.
Normalización de metadatos. Después de la segmentación, cada segmento de cláusula necesita metadatos extraídos del documento: ley aplicable (típicamente en una sección de "Ley Aplicable"), tipo de acuerdo (frecuentemente en el título o los considerandos), fecha de ejecución (frecuentemente en el bloque de firmas) y tipos de partes (vendedor/cliente, empleador/empleado, etc.).
Estos campos no siempre están presentes o formateados consistentemente. Un paso de extracción de metadatos se ejecuta en cada documento antes de que comience la anotación a nivel de cláusula, y los documentos con metadatos críticos faltantes se señalan para completar manualmente.
Quién Hace la Anotación
La tarea de anotación para revisión de contratos es clasificación de tipo de cláusula y evaluación de riesgo. Esta es una tarea de juicio legal, no una tarea de etiquetado mecánico.
Para clasificación de tipo de cláusula, un paralegal con experiencia en revisión de contratos puede clasificar confiablemente la mayoría de los tipos de cláusulas: limitación de responsabilidad, indemnización, confidencialidad, cambio de control, cesión, resolución de disputas, terminación, propiedad intelectual, garantía y las otras provisiones estándar. Los casos límite — provisiones que combinan elementos de múltiples tipos de cláusulas, provisiones a medida inusuales, patrones de redacción específicos de jurisdicción — requieren input a nivel de asociado.
Para evaluación de riesgo, la clasificación es más intensiva en juicio. "¿Esta cláusula de limitación de responsabilidad es estándar o no estándar?" requiere saber cuál es la posición estándar de la firma, cuál es la tolerancia al riesgo del cliente, y cómo se compara la cláusula con los términos típicos del mercado. Esto requiere input de asociados o asociados senior, particularmente durante el desarrollo de las guías.
El flujo de trabajo práctico de anotación: los asociados diseñan el esquema de anotación y escriben las guías. Los paralegales aplican etiquetas a la mayor parte de los documentos. Los asociados revisan una muestra (10–15%) y manejan los casos límite escalados. Los socios revisan las guías antes de que comience el proyecto y después de los primeros 50 contratos, para calibrar las definiciones de clasificación de riesgo.
Requisitos de Calidad
Acuerdo inter-anotador. Para clasificación de tipo de cláusula, un kappa de Cohen por encima de 0.75 es un objetivo razonable. Por debajo de 0.70 indica ambigüedad en las guías que producirá datos de entrenamiento ruidosos. Para clasificación de riesgo, el acuerdo será naturalmente más bajo (0.60–0.70 es típico) porque la evaluación de riesgo involucra juicio — pero desacuerdos sistemáticos (algunos anotadores califican consistentemente ciertos tipos de cláusulas como de mayor riesgo que otros) indican problemas de calibración que deben resolverse mediante revisión de las guías, no promediarse en los datos.
Especificidad de las guías de anotación. Las guías de anotación deben incluir: la lista completa de tipos de cláusulas, una definición de una oración para cada uno, dos a tres ejemplos positivos de cada tipo, uno a dos ejemplos negativos (confundibles comunes), y reglas de decisión para cláusulas que podrían encajar en múltiples tipos. Sin esta especificidad, el acuerdo inter-anotador será bajo.
Manejo de casos límite. Las guías deben especificar cómo manejar: cláusulas que combinan dos tipos (etiquetar con el tipo primario, señalar como multi-tipo), cláusulas que son demasiado cortas para clasificar confiablemente (umbral de longitud mínima, señalar para revisión), y cláusulas con redacción altamente inusual (anotar con el tipo más cercano, señalar como inusual).
Formato de Salida
Los datos de cláusulas anotadas se exportan en JSONL para fine-tuning:
{"text": "...", "clause_type": "limitation_of_liability", "risk_level": "standard", "governing_law": "Delaware", "agreement_type": "enterprise_software", "mutual": true, "word_count": 52}
{"text": "...", "clause_type": "indemnification", "risk_level": "escalate", "governing_law": "California", "agreement_type": "professional_services", "mutual": false, "word_count": 241}
El conjunto de entrenamiento debe estar estratificado: representación aproximadamente igual de cada tipo de cláusula (o ponderado por la frecuencia con que ese tipo aparece en trabajo de revisión real), y una muestra deliberada de ejemplos de riesgo-escalar (que son raros en la práctica pero críticos para que el modelo aprenda).
Tamaño Esperado del Dataset para un Modelo Viable
Para un modelo de clasificación de cláusulas cubriendo los 15 tipos de cláusulas más comunes:
- Mínimo viable: 200 contratos anotados, aproximadamente 4,000–8,000 ejemplos de cláusulas en todos los tipos
- Útil: 350 contratos anotados, 8,000–15,000 ejemplos de cláusulas con buena distribución por tipo
- Fuerte: Más de 500 contratos anotados, 15,000–25,000 ejemplos de cláusulas con variación de metadatos entre tipos de acuerdo y leyes aplicables
Para un modelo de clasificación de riesgo, los requisitos de dataset son similares pero el problema de clase rara es más agudo. Los ejemplos de riesgo-escalar pueden representar solo el 5–10% de todas las cláusulas en un archivo real. Sobremuestrear deliberadamente cláusulas de alto riesgo durante la anotación (los anotadores se asignan a lotes de documentos que se sabe contienen provisiones inusuales) ayuda a abordar este desbalance.
Un proyecto de anotación de 350 contratos, a 2–3 horas por contrato incluyendo revisión de calidad, representa aproximadamente 700–1,000 horas de tiempo de profesional legal. A tarifas típicas de paralegal, esta es una inversión significativa pero no prohibitiva — y produce un dataset de entrenamiento que no puede ser replicado por ningún proveedor que venda IA legal genérica.
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
Lectura Relacionada
- How Law Firms Build AI Models Without Sharing Privileged Documents — Preservación de privilegio y el pipeline de datos de IA legal
- Domain Experts Locked Out of AI Data Pipelines — Por qué las herramientas de anotación deben funcionar para abogados, no solo para ingenieros de ML
- Enterprise AI Data Preparation Guide — Panorama completo del pipeline de preparación de datos empresarial
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Bill of Quantities Data Extraction: A Guide for Construction AI Projects
Bill of quantities documents are dense, mixed-format files that hold critical domain knowledge for construction AI. Here's how to extract and structure BOQ data for model training — on-premise.

How to Convert Bill of Quantities into AI Training Data
A technical guide to converting Bills of Quantities (BOQs) from varied formats into structured AI training data — covering table extraction, normalization, labeling, and export.

Training AI on Financial Statements: Data Extraction and Labeling On-Premise
How to extract and label financial statement data for AI training — parsing XBRL, extracting tables from PDFs, handling format variation, and building classification models for financial analysis.