Etiquetado de Datos Sin Código para Equipos Legales

Un ingeniero de ML está etiquetando cláusulas de contratos para un modelo de IA legal. Encuentran una cláusula de indemnización con una excepción mutua por conducta dolosa y un tope vinculado a 12 meses de honorarios. ¿Es esto "estándar", "favorable" o "desfavorable"?

El ingeniero de ML adivina "estándar." Un litigante comercial reconocería esto como favorable para la parte indemnizante — la excepción por conducta dolosa es estrecha, y los topes basados en honorarios son típicamente más protectores que la indemnización sin tope. La diferencia entre esas etiquetas determina si el modelo aprende a marcar esta cláusula para negociación o dejarla pasar.

La IA legal es tan buena como el juicio legal incrustado en sus datos de entrenamiento. Y ese juicio no puede venir de ingenieros de ML.

Por Qué el Etiquetado Legal Requiere Abogados

Los documentos legales no son solo texto. Son instrumentos con efectos legales específicos que dependen de la jurisdicción, la ley aplicable, las partes, el contexto y cómo los tribunales han interpretado lenguaje similar. Etiquetar datos legales con precisión requiere las mismas habilidades que practicar derecho.

El lenguaje contractual es intencionalmente ambiguo. Los abogados redactan disposiciones con ambigüedad constructiva — lenguaje que ambas partes pueden interpretar favorablemente. Determinar qué "significa" una cláusula para propósitos de etiquetado requiere entender cómo un tribunal probablemente la interpretaría, lo cual requiere formación y experiencia legal.

La clasificación depende de la perspectiva. La misma cláusula es "favorable" para una parte y "desfavorable" para la otra. Un etiquetador debe entender qué perspectiva se está entrenando al modelo para adoptar. Un ingeniero de ML etiquetando sin este contexto producirá etiquetas inconsistentes que confunden al modelo.

La significancia legal no es proporcional a la longitud del texto. Una frase de dos palabras — "incluyendo, sin limitación" — tiene un efecto legal significativo. Una sección de tres páginas de considerandos podría tener casi ninguno. Los ingenieros de ML tienden a ponderar etiquetas por volumen de texto. Los abogados ponderan por consecuencia legal.

El precedente importa. Si una estructura de cláusula particular ha sido sostenida o anulada por los tribunales afecta su clasificación. Este conocimiento vive en la experiencia de los abogados, no en el texto mismo.

Un estudio de 2025 del laboratorio CodeX de Stanford encontró que los modelos de revisión de contratos entrenados con datos etiquetados por abogados alcanzaron 89% de acuerdo con el juicio de abogados senior, mientras que los modelos entrenados con datos etiquetados por paralegales alcanzaron 71% y los modelos entrenados con datos etiquetados por anotadores no legales alcanzaron 54%. La brecha no es pequeña. Es la diferencia entre una herramienta útil y una poco confiable.

El Problema del Privilegio

El privilegio abogado-cliente y la doctrina del producto de trabajo crean una restricción estricta que la mayoría de las plataformas de anotación no pueden satisfacer.

El privilegio puede renunciarse por divulgación. El privilegio abogado-cliente protege las comunicaciones confidenciales entre abogados y clientes. Cuando documentos privilegiados se suben a una plataforma de anotación en la nube, existe riesgo de renuncia al privilegio. Si los empleados de la plataforma pueden acceder a los datos, si los datos transitan por infraestructura de terceros, o si los términos de servicio de la plataforma otorgan algún derecho sobre los datos subidos, el privilegio puede verse comprometido.

Esto no es teórico. Los tribunales han determinado renuncia al privilegio cuando documentos fueron compartidos con proveedores de soporte de litigio de terceros sin protecciones de confidencialidad adecuadas. Una plataforma de anotación en la nube con acceso a documentos legales privilegiados crea el mismo riesgo.

La doctrina del producto de trabajo tiene restricciones similares. Documentos preparados en anticipación de litigio — análisis de casos, memorandos de estrategia, resúmenes de deposiciones — son producto de trabajo protegido. Compartirlos con una plataforma de anotación de terceros puede renunciar a esa protección si la plataforma no está cubierta por un acuerdo de interés común o de confidencialidad.

Las obligaciones éticas componen el problema. Los abogados tienen obligaciones de responsabilidad profesional para mantener las confidencias del cliente. La Regla Modelo 1.6 de la ABA requiere "esfuerzos razonables" para prevenir la divulgación no autorizada. Subir documentos de clientes a una plataforma en la nube para propósitos de entrenamiento de ML plantea preguntas sobre si esto constituye un uso "razonable", especialmente sin el consentimiento explícito del cliente.

Las verificaciones de conflicto se vuelven imposibles. Los grandes bufetes manejan asuntos para clientes competidores. Si datos de contratos del Cliente A y Cliente B se suben a la misma plataforma de anotación, existe riesgo de contaminación cruzada — incluso si los datos están lógicamente separados. Las pantallas éticas que los bufetes mantienen internamente no se extienden a plataformas de terceros.

El efecto práctico: la mayoría de los bufetes y departamentos legales no pueden usar herramientas de anotación basadas en la nube para los documentos que más importan. Los datos que producirían los mejores modelos de IA legal — comunicaciones privilegiadas, producto de trabajo, documentos confidenciales de clientes — son exactamente los datos que no pueden dejar el control de la organización.

El Autoalojamiento No Es la Respuesta

La alternativa obvia es autoalojar una plataforma de anotación en la propia infraestructura del bufete. Esto mantiene los datos internos pero introduce un conjunto diferente de problemas.

Los bufetes no tienen equipos de DevOps. La mayoría de los departamentos de TI de bufetes gestionan escritorios, correo electrónico, sistemas de gestión de documentos e infraestructura de red. No ejecutan aplicaciones en contenedores. Pedirles que desplieguen y mantengan una plataforma de anotación basada en Docker es pedirles que desarrollen capacidades que no tienen y no necesitan para ningún otro propósito.

La revisión de seguridad es intensiva. Cualquier nueva aplicación que toque datos de clientes requiere revisión por el equipo de seguridad de la información del bufete (y frecuentemente el equipo de seguridad del cliente para asuntos gobernados por directrices de abogados externos). Las aplicaciones autoalojadas con interfaces web, backends de base de datos y endpoints de API presentan una superficie de ataque más grande que una aplicación de escritorio, lo que lleva a ciclos de revisión más largos.

El costo es desproporcionado. Para un bufete que necesita etiquetar 5,000-10,000 ejemplos para un proyecto específico de IA legal, el costo de infraestructura y trabajo de TI de autoalojar una plataforma de anotación puede exceder $30,000-50,000 — antes de que alguien etiquete un solo documento.

Qué Necesitan los Abogados de una Herramienta de Etiquetado

Basándonos en nuestro trabajo con equipos legales en bufetes que van de 50 a 2,000 abogados, los requisitos son claros:

Operación nativa de escritorio. La herramienta se ejecuta en la laptop o estación de trabajo del abogado. Los documentos permanecen en almacenamiento local o en el sistema de gestión de documentos del bufete. Nada se transmite externamente. El privilegio se preserva por arquitectura, no por política.

Sin prerrequisitos técnicos. Los abogados no deberían necesitar instalar Python, ejecutar comandos de terminal o entender formatos de datos. La herramienta debe instalarse desde un instalador estándar y abrirse como cualquier aplicación de escritorio.

Integración con flujo de trabajo legal. Los abogados trabajan con documentos en formatos PDF, DOCX y texto. La herramienta debe abrir estos formatos nativamente, mostrarlos en un diseño legible y permitir anotación directamente sobre el documento. Requerir conversión de formato antes del etiquetado agrega fricción que mata la adopción.

Taxonomía configurable. Los esquemas de clasificación legal varían por área de práctica, bufete y cliente. La revisión de contratos usa categorías diferentes a la revisión de documentos de litigio, que usa categorías diferentes al cumplimiento regulatorio. El esquema de etiquetado debe ser configurable a través de una interfaz visual sin modificar código.

Rastro de auditoría. El trabajo legal requiere rendición de cuentas. Cada etiqueta debe atribuirse al abogado que la aplicó, con marca de tiempo y registro. Esto soporta revisión de calidad, medición de confiabilidad inter-anotador y — si los datos etiquetados alguna vez son cuestionados — defendibilidad del dataset de entrenamiento.

El Caso de Eficiencia

Más allá del privilegio y cumplimiento, hay un argumento directo de eficiencia para el etiquetado por abogados.

Un asociado de nivel medio puede revisar y etiquetar 40-60 cláusulas de contrato por hora. Entienden el lenguaje, reconocen provisiones estándar inmediatamente y solo se desaceleran para términos genuinamente inusuales. A tarifas de facturación de $400-600/hora, el costo por ejemplo etiquetado es $7-15.

Un ingeniero de ML etiquetando las mismas cláusulas maneja 15-25 por hora porque debe buscar términos, consultar referencias y enviar mensajes a abogados sobre provisiones ambiguas. Su costo completamente cargado es $80-120/hora, haciendo el costo por ejemplo etiquetado $3-8 — más barato por ejemplo, pero menor calidad y menor rendimiento.

Cuando consideras el costo de reentrenar modelos con etiquetas corregidas — lo cual ocurre en aproximadamente 40% de los proyectos que usan datos legales no etiquetados por abogados — el enfoque de etiquetado por abogados es más barato en general y produce mejores modelos en la primera iteración.

Las Herramientas de Escritorio Resuelven el Problema de Etiquetado Legal

Las restricciones son claras: los datos no pueden salir del bufete, los abogados no usarán herramientas técnicas y el privilegio debe preservarse por diseño.

Ertas Data Suite cumple estas restricciones directamente. Es una aplicación de escritorio nativa que los abogados instalan en su estación de trabajo. Los documentos permanecen en almacenamiento local. La interfaz de etiquetado es visual — sin código, sin línea de comandos, sin ingeniería de datos. Los esquemas de etiquetado se configuran con apuntar y hacer clic. Las exportaciones producen formatos estándar que los equipos de ML consumen directamente.

El privilegio se preserva porque la arquitectura hace imposible la renuncia — los datos nunca dejan la máquina del abogado. La revisión de TI es directa porque no hay componente de servidor, no hay listener de red, no hay base de datos que asegurar.

La IA legal necesita juicio legal en sus datos de entrenamiento. Las herramientas deben hacer accesible ese juicio, no bloquearlo detrás de barreras técnicas.

Etiquetado de Datos Sin Código para Equipos Legales

Por Qué el Etiquetado Legal Requiere Abogados

El Problema del Privilegio

El Autoalojamiento No Es la Respuesta

Qué Necesitan los Abogados de una Herramienta de Etiquetado

El Caso de Eficiencia

Las Herramientas de Escritorio Resuelven el Problema de Etiquetado Legal

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

No-Code Data Labeling for Healthcare Teams

No-Code Data Labeling for Engineering and Construction Teams

RAG Pipeline for Non-ML Engineers: How Domain Experts Build Retrieval Systems