Por Qué los Expertos de Dominio — No los Ingenieros de ML — Deberían Ser Dueños del Etiquetado de Datos

Hay una desalineación fundamental en cómo la mayoría de las organizaciones construyen sistemas de IA. Las personas que entienden los datos — clínicos, abogados, ingenieros, suscriptores, analistas — no son las personas que los etiquetan. En su lugar, los ingenieros de ML se sientan entre los datos y el modelo, tomando decisiones de juicio sobre dominios que no entienden completamente.

Esto no es un problema de herramientas. Es un problema estructural. Y es la razón principal por la que los proyectos de IA empresarial producen resultados mediocres.

La Brecha de Conocimiento en Cada Pipeline de Etiquetado

Considera un ejemplo concreto. Un equipo de IA legal está construyendo un modelo de análisis de contratos. El modelo necesita clasificar cláusulas como "favorables", "neutrales" o "desfavorables" desde la perspectiva del cliente.

Un ingeniero de ML puede configurar el entorno de anotación, escribir el esquema de etiquetado, configurar el pipeline de exportación. Pero cuando encuentran una cláusula de limitación de responsabilidad con una excepción por negligencia grave, no pueden determinar confiablemente si esa cláusula favorece al cliente. Ese juicio requiere años de experiencia en negociación de contratos.

Lo que sucede en la práctica: el ingeniero de ML lo etiqueta basándose en heurísticas superficiales. Tal vez marca cualquier cosa con "limitación" como desfavorable. Tal vez le pregunta a un abogado por Slack, recibe una respuesta de una palabra sin contexto y sigue adelante. La etiqueta entra al dataset. Entrena el modelo. El modelo aprende un patrón superficial.

Multiplica esto por 5,000 ejemplos y obtienes un modelo que está confidentemente equivocado en los casos que más importan — los casos límite donde la experiencia de dominio es la diferencia entre una clasificación útil y una peligrosa.

Por Qué Esto Sigue Pasando

La respuesta es directa: las herramientas de anotación requieren habilidades técnicas que los expertos de dominio no tienen.

La mayoría de los flujos de trabajo de etiquetado empresarial se ven así:

Los datos viven en un bucket de almacenamiento en la nube o base de datos
Un ingeniero de ML escribe un script de Python para extraer y formatear los datos
Los datos se cargan en una plataforma de anotación (Label Studio, Prodigy, Labelbox)
La plataforma requiere auto-alojamiento (Docker, redes, autenticación) o carga en la nube
Los anotadores necesitan cuentas, capacitación en la interfaz de la herramienta, y a menudo acceso API para tipos de etiquetas personalizadas
Las etiquetas completadas se exportan mediante scripts de Python para entrenamiento del modelo

Como mínimo, los pasos 1, 2, 3 y 6 requieren a alguien cómodo con Python, herramientas de línea de comandos y conceptos de ingeniería de datos. En la mayoría de las organizaciones, eso significa 2-5 personas del equipo de ML.

Los expertos de dominio — las personas cuyo conocimiento realmente determina la calidad de las etiquetas — están excluidos por la infraestructura.

Los Números Cuentan la Historia

La investigación del paper de Data Cascades de Google encontró que el 92% de los practicantes de IA reportaron problemas de calidad de datos en sus proyectos, y la mayoría se rastreó hasta problemas de etiquetado y anotación. Un estudio de 2024 del MIT encontró que los errores de etiquetas existen en aproximadamente el 3-5% de los principales datasets de referencia — y estos son datasets construidos por equipos de investigación dedicados.

En entornos empresariales, donde el etiquetado se hace por proxy (ingenieros de ML etiquetando datos específicos de dominio), las tasas de error son significativamente más altas. Hemos visto organizaciones con tasas de error de etiquetado del 8-15% en tareas de clasificación específicas de dominio. No porque alguien sea descuidado, sino porque los etiquetadores carecen del conocimiento de dominio para hacer juicios correctos consistentemente.

El costo se acumula. Un modelo entrenado con datos que tienen 10% de errores de etiqueta no solo pierde 10% de precisión. Los errores crean señales de entrenamiento contradictorias que degradan el rendimiento en general. En la práctica, una tasa de error de etiquetado del 10% puede reducir la precisión del modelo en un 20-30% en los ejemplos más difíciles — que usualmente son los que más importan.

Lo que Realmente Significa "Etiquetado por Expertos de Dominio"

Darle a los expertos de dominio la propiedad del etiquetado no significa enseñarles Python. No significa darles un curso intensivo de Docker o Jupyter notebooks. Significa eliminar cada barrera técnica entre ellos y la tarea de etiquetado.

Un radiólogo debería poder abrir una aplicación, ver imágenes médicas y aplicar etiquetas usando terminología que ya entiende. Un abogado debería poder revisar cláusulas contractuales y etiquetarlas usando las mismas categorías que usa en la práctica. Un topógrafo de cantidades debería poder ver una partida de presupuesto y clasificarla sin aprender qué es un esquema JSON.

Los requisitos para esto son específicos:

Sin complejidad de instalación. La herramienta se instala como cualquier aplicación de escritorio — descargar, doble clic, ejecutar. Sin Docker, sin comandos de terminal, sin variables de entorno.

Sin carga de datos. Los datos específicos de dominio suelen ser sensibles. Registros médicos, documentos legales, datos financieros. La herramienta debe trabajar con archivos locales, en la máquina del usuario, sin enviar datos a servidores externos.

Sin código requerido. La definición de esquema, la aplicación de etiquetas, la revisión de calidad y la exportación deberían ocurrir a través de una interfaz visual. Si alguien necesita escribir una sola línea de código para etiquetar datos, ya has perdido al 90% de tus expertos de dominio.

Interfaces apropiadas para el dominio. Anotación de texto para documentos. Anotación de imágenes para datos visuales. Anotación de campos estructurados para datos tabulares. La interfaz debería coincidir con cómo el experto piensa sobre los datos, no con cómo el pipeline de ML los consume.

El Impuesto del Etiquetado por Proxy

Cuando los expertos de dominio no pueden etiquetar directamente, las organizaciones pagan lo que llamamos el "impuesto del etiquetado por proxy". Esto se manifiesta de tres formas:

Impuesto de tiempo. Cada decisión de etiquetado requiere un ida y vuelta entre el ingeniero de ML y el experto de dominio. El ingeniero encuentra un ejemplo ambiguo, envía un mensaje al experto, espera una respuesta, interpreta la respuesta, aplica la etiqueta. Una tarea que debería tomar 5 segundos toma 15 minutos.

Impuesto de precisión. La comunicación comprime los matices. La respuesta del experto de "depende de la jurisdicción y del lenguaje específico de la excepción" se comprime a una etiqueta binaria. Se pierde contexto. Los casos límite se aplanan.

Impuesto de rendimiento. El equipo de ML se convierte en el cuello de botella. Si tienes 3 ingenieros de ML y 50 expertos de dominio, estás operando al 6% de tu capacidad potencial de etiquetado. Los proyectos que deberían tomar semanas toman meses.

Las organizaciones que eliminan el impuesto del etiquetado por proxy — dando a los expertos de dominio acceso directo a herramientas de etiquetado — típicamente ven una mejora de 3-5x en el rendimiento de etiquetado y mejoras medibles en la precisión de etiquetas dentro del primer mes.

Lo que Cambia Cuando los Expertos Etiquetan Directamente

El cambio del etiquetado por proxy al etiquetado directo por expertos cambia más que los números de rendimiento. Cambia la calidad del dataset de formas que son difíciles de cuantificar pero fáciles de observar.

Primero, los casos límite se etiquetan correctamente. Los ejemplos que confunden a los etiquetadores por proxy — los que requieren conocimiento profundo de dominio — son exactamente los ejemplos que los expertos de dominio manejan con confianza.

Segundo, los esquemas de etiquetas mejoran. Cuando los expertos de dominio interactúan con el esquema de etiquetado directamente, inmediatamente detectan categorías que son demasiado amplias, demasiado estrechas o que faltan por completo. Un abogado etiquetando cláusulas contractuales te dirá en una hora que "desfavorable" necesita subcategorías. Un ingeniero de ML puede que nunca lo descubra.

Tercero, el acuerdo entre anotadores sube. Los expertos de dominio comparten un entendimiento común de terminología y criterios de clasificación. Dos abogados concordarán en la clasificación de cláusulas mucho más a menudo que dos ingenieros de ML intentando la misma tarea.

Cuarto, los ciclos de iteración se acortan. Cuando el modelo produce resultados incorrectos, el experto de dominio puede mirar los datos de entrenamiento e identificar las decisiones de etiquetado que llevaron al error. No necesitan crear un ticket con el equipo de ML, esperar una investigación y esperar que el ingeniero entienda el contexto del dominio.

Haciendo Esto Práctico

El cambio al etiquetado propio de expertos de dominio requiere herramientas que se encuentren con los expertos donde están. Eso significa aplicaciones de escritorio nativas que trabajen con datos locales, interfaces visuales que requieran cero código, y formatos de exportación que se integren con pipelines de ML existentes.

Ertas Data Suite fue construido específicamente para este caso de uso. Se ejecuta como una aplicación de escritorio nativa — sin Docker, sin nube, sin entorno de Python. Los expertos de dominio lo instalan como cualquier otra aplicación, lo apuntan a sus datos locales, definen esquemas de etiquetado a través de una interfaz visual y comienzan a etiquetar. Los datos nunca salen de su máquina. El dataset etiquetado se exporta en formatos estándar listos para el entrenamiento del modelo.

El resultado es que las personas que entienden los datos son las personas que etiquetan los datos. Que es como debería haber sido desde el principio.