Tus Ingenieros de ML No Deberían Estar Haciendo Esto

Esta es una situación que encontramos regularmente: un ingeniero de ML en una organización de salud pasa dos a tres días por semana anotando notas clínicas. No porque lo disfrute, no porque esté especialmente calificado para hacerlo, sino porque el doctor que sí está calificado no puede descifrar cómo operar la herramienta de anotación.

Esta no es una historia sobre un doctor difícil o un ingeniero impaciente. Es una historia sobre herramientas diseñadas para ingenieros de ML que nunca fueron reconsideradas seriamente para nadie más. El resultado es una asignación sistemáticamente incorrecta de mano de obra especializada y costosa — y una degradación sistemática de la calidad de anotación.

El Problema Central

La calidad de anotación depende de la experiencia de dominio. Esto no es controversial. Un doctor revisando notas clínicas para consistencia de etiquetas diagnósticas producirá mejores anotaciones que un ingeniero de ML sin formación médica haciendo la misma tarea. Un ingeniero de construcción revisando partidas de presupuesto está mejor posicionado para clasificar categorías de costos que un científico de datos que nunca ha leído un informe de un topógrafo de cantidades. Un abogado revisando anotaciones de cláusulas contractuales detectará ambigüedades y excepciones que un desarrollador de Python pasará por alto.

Las personas con la experiencia de dominio necesaria para anotación de alta calidad no son, en el caso general, las personas que saben operar las herramientas de anotación. Esto crea un problema estructural: las herramientas van a las personas equivocadas porque son las únicas que pueden operarlas.

La consecuencia es doble. Primero, la calidad de anotación es menor de lo que sería si los expertos de dominio hicieran el trabajo. Segundo, el tiempo de ingeniería de ML se consume en tareas de anotación que deberían ejecutarse con capacidad de expertos de dominio, a una fracción del costo y con mejores resultados.

Lo que los Expertos de Dominio Realmente Enfrentan

Seamos concretos sobre cómo se ve cuando le pides a un experto de dominio que use las herramientas de anotación estándar.

El Escenario de Notas Clínicas

Un equipo de IA en salud necesita anotar 10,000 notas clínicas para un modelo de codificación médica. Las notas necesitan ser revisadas y etiquetadas por clínicos — idealmente el mismo personal clínico que eventualmente usará el sistema de IA. Esta es la configuración ideal: los futuros usuarios del sistema generan los datos de entrenamiento.

El equipo configura Label Studio. Esto requiere: un servidor (o instalación local de Docker) para ejecutar la aplicación web, un runtime de Docker instalado y configurado en la máquina que alojará el servicio, configuración de interfaz de anotación escrita en el formato de plantilla basado en XML de Label Studio, creación y gestión de cuentas de usuario para cada anotador clínico, y configuración de red para que el personal clínico pueda acceder a la herramienta desde sus estaciones de trabajo.

Los clínicos llegan para comenzar a anotar. Encuentran una aplicación web con una interfaz que asume familiaridad con conceptos de anotación — conjuntos de etiquetas, relaciones, predicciones, colas de revisión. La primera sesión requiere soporte de ingeniería de ML para explicar cómo funciona la herramienta. Varios clínicos tienen problemas para acceder a la herramienta desde sus estaciones de trabajo debido a restricciones de red del hospital. Un clínico necesita las instrucciones de anotación en un formato específico; traducirlas a la configuración de Label Studio toma otra hora de ingeniería.

El rendimiento en la primera semana es bajo. Los ingenieros de ML pasan más tiempo apoyando el proceso de anotación que haciendo trabajo de ingeniería. Después de tres semanas, la anotación ha alcanzado 2,000 ejemplos. La revisión de calidad revela inconsistencias porque diferentes clínicos interpretaron las directrices de anotación de manera diferente — pero la herramienta no facilita ver si las inconsistencias son sistémicas o individuales.

Este escenario, con variaciones, es típico. No es un fracaso de esfuerzo o intención. Es un fracaso de diseño de herramientas.

El Escenario de Anotación de Presupuestos

Un equipo de IA en construcción necesita anotar presupuestos de cantidades para un modelo de clasificación de partidas. Los anotadores deberían ser topógrafos de cantidades o estimadores de construcción — personas que trabajan con presupuestos profesionalmente y pueden distinguir confiablemente entre costos directos, preliminares y sumas provisionales.

El equipo construye un script de Python que lee filas del presupuesto desde una hoja de cálculo y las presenta para clasificación mediante un prompt de línea de comandos. El ingeniero de construcción abre la terminal, escribe un comando y ve un prompt pidiéndole que presione 1, 2 o 3 para clasificar cada partida.

Esto es mejor que Label Studio para este escenario en el sentido de que no hay servidor que desplegar. Es peor en el sentido de que requiere familiaridad con la línea de comandos, y si el script se cae a mitad de una sesión, no hay una forma confiable de reanudar desde donde el ingeniero se quedó. El ingeniero llama a un ingeniero de ML para ayuda. El ingeniero de ML arregla el script y reprograma la sesión de anotación.

Rendimiento: bajo. Ciclo de retroalimentación entre trabajo de anotación y experto de dominio: dependiente de la disponibilidad de ingeniería.

El Escenario de Revisión de Contratos

Un equipo de IA legal necesita anotar cláusulas contractuales para clasificación de tipos de cláusula. Los anotadores deberían ser abogados — específicamente abogados que trabajan con los tipos de contratos en el dataset.

El equipo configura un Jupyter notebook. Los abogados abren el notebook en VS Code, o en una sesión de Jupyter basada en navegador, y trabajan las cláusulas celda por celda, modificando una variable de diccionario con su clasificación para cada cláusula. La salida se guarda en un archivo JSON.

Los abogados no son usuarios de Jupyter notebook. La interfaz es confusa. La primera sesión termina cuando un abogado accidentalmente modifica una celda de código y rompe el notebook. El ingeniero de ML pasa una hora en una llamada de soporte.

Alternativa: el equipo exporta las cláusulas a una hoja de cálculo y pide a los abogados que anoten en Excel. Esto funciona mejor desde el punto de vista de usabilidad. Funciona peor desde el punto de vista de gestión de datos — el control de versiones de hojas de cálculo no es confiable, el formato es frágil, y combinar anotaciones de múltiples abogados introduce oportunidades de error.

Lo que Pasa Cuando los Ingenieros de ML Anotan en Su Lugar

Cuando la anotación por expertos de dominio es demasiado difícil de operar, el recurso por defecto es la anotación por ingenieros de ML. Esto no es irracional — los ingenieros de ML están disponibles, pueden operar las herramientas, y el proyecto necesita avanzar.

Pero los ingenieros de ML sin experiencia de dominio producen anotaciones de calidad sistemáticamente inferior en tareas específicas de dominio. Esto no es una crítica a su capacidad — es un hecho estructural. Un informe de radiología requiere conocimiento clínico para anotarse correctamente. Un presupuesto requiere conocimiento de costos de construcción. Un contrato requiere conocimiento legal.

Las consecuencias se acumulan.

Menor precisión inicial de etiquetas significa que el modelo se entrena con señal más ruidosa. En aprendizaje supervisado, el ruido en las etiquetas degrada directamente el rendimiento del modelo — el modelo no puede aprender patrones consistentes de etiquetas inconsistentes. Un dataset anotado por no expertos con 85% de precisión en etiquetas produce un modelo que aprende el 85% de la señal subyacente. El mismo dataset anotado por expertos de dominio con 95% de precisión produce un modelo mediblemente mejor.

Más rondas de iteración porque la menor calidad inicial significa más ciclos de revisión de anotación. El equipo nota que el rendimiento del modelo está por debajo de las expectativas, investiga, encuentra errores de anotación, re-etiqueta. Este ciclo es costoso y lento. Cada ronda requiere volver a involucrar a los anotadores, re-ejecutar el entrenamiento, re-evaluar.

Retroalimentación más débil en casos límite porque los ingenieros de ML sin experiencia de dominio no pueden identificar confiablemente qué decisiones de anotación son casos límite que requieren juicio versus cuáles son claras. Las directrices que aplican son necesariamente más mecánicas y menos matizadas que lo que un experto de dominio aportaría.

Cronograma más lento porque todo esto se suma a más tiempo total desde el inicio de la anotación hasta un modelo utilizable. Los equipos que invierten en hacer accesible la anotación por expertos de dominio típicamente alcanzan sus objetivos de calidad más rápido que los equipos que usan la anotación por ingenieros de ML como solución temporal.

Lo que Realmente Significa Herramientas Accesibles para Expertos de Dominio

La solución no es mejor capacitación para expertos de dominio sobre cómo usar herramientas de desarrollador. Son herramientas que no requieren capacitación de desarrollador para operar.

El estándar debería ser: un experto de dominio que nunca ha usado una herramienta de anotación puede instalar el software, abrirlo y comenzar a anotar en menos de 15 minutos, sin terminal, sin Docker, sin entorno de Python, sin leer una guía de configuración.

Este estándar es alcanzable. Las aplicaciones de escritorio construidas con frameworks multiplataforma modernos pueden empaquetar todas las dependencias, instalarse como software estándar y presentar interfaces diseñadas para el flujo de trabajo específico — no interfaces diseñadas para la flexibilidad del ingeniero de ML y luego adaptadas para todos los demás.

Cómo se ve esto en la práctica:

Instalación: Descargar un instalador, doble clic, se ejecuta. Sin comandos de terminal. Sin Docker. Sin configuración de entorno. Sin configuración de puertos.

Interfaz de anotación: Diseñada para la tarea específica, no configurable para cualquier tarea. Un revisor de notas clínicas ve notas clínicas y botones de etiqueta. Un anotador de presupuestos ve filas y opciones de clasificación. La interfaz no expone conceptos como "conjuntos de etiquetas" o "confianza de predicción" a menos que sean cosas con las que el experto de dominio realmente necesita interactuar.

Reanudación y guardado: El trabajo se guarda automáticamente. Cerrar y reabrir la herramienta reanuda desde la última posición. Sin comando que ejecutar, sin archivo que gestionar, sin dependencia de un servidor en ejecución.

Retroalimentación: El anotador ve claramente qué queda por anotar, qué ha completado y cualquier elemento marcado para revisión. El progreso es visible sin interpretar archivos de log o consultas de base de datos.

Sin ingeniería de ML en el circuito: El experto de dominio puede hacer una sesión completa de anotación, desde abrir el software hasta enviar el trabajo completado, sin llamar a un ingeniero de ML. Si algo sale mal, el mensaje de error es legible y accionable para humanos.

Esta es una filosofía de diseño diferente a "construir una herramienta potente y documentarla exhaustivamente". Requiere restringir la interfaz a lo que el usuario real necesita, lo que significa aceptar que la herramienta no será máximamente flexible. Este es el compromiso correcto para flujos de trabajo de anotación.

La Mejora en la Calidad de Etiquetas

El beneficio práctico de la anotación por expertos de dominio es real y medible.

En anotación de texto clínico, los estudios que comparan datasets anotados por clínicos versus datasets anotados por crowdsourcing o no expertos encuentran consistentemente mejoras de 8-15 puntos porcentuales en el rendimiento del modelo downstream cuando los expertos de dominio hacen la anotación. El efecto es mayor para tareas complejas dependientes del juicio (clasificación diagnóstica, recomendación de tratamiento) y menor para tareas de extracción más simples.

En anotación de documentos legales, el efecto de la anotación experta vs no experta es más visible en los límites entre categorías. Los anotadores no expertos aplican categorías mecánicamente; los anotadores expertos las aplican con conocimiento de las distinciones legales subyacentes. Los modelos entrenados con anotaciones de expertos generalizan mejor a casos límite en producción.

En anotación de dominio técnico (planos de ingeniería, instrumentos financieros, documentos científicos especializados), la brecha entre anotación experta y no experta puede ser aún mayor porque los conceptos mismos no son accesibles sin conocimiento de dominio. Un no experto anotando un presupuesto de ingeniería esencialmente está adivinando la categoría correcta para muchas partidas.

El argumento para hacer accesible la anotación por expertos de dominio no es principalmente sobre ahorrar tiempo de ingeniería, aunque lo hace. Es sobre obtener mejores sistemas de IA. Mejores anotaciones producen mejores modelos. Mejores modelos producen mejores resultados. Las herramientas que permiten la anotación por expertos de dominio no son una conveniencia — son una palanca de calidad.

El Líder de IA en ingeniería y construcción con quien hablamos lo dijo directamente:

"El problema no es fine-tuning sino limpiar y preparar los datos diversos."

Los "datos diversos" incluyen diversidad de experiencia de dominio. Lograr que la experiencia correcta entre en el ciclo de anotación requiere lograr que las personas correctas entren en la herramienta. Eso requiere herramientas diseñadas para las personas correctas, no herramientas diseñadas para ingenieros de ML y entregadas a todos los demás.

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →