Etiquetado de Datos Asistido por LLM Local Sin Egreso de Datos

El etiquetado de datos es la etapa más intensiva en mano de obra del pipeline de preparación de datos. Un dataset de 10,000 ejemplos con requisitos de etiquetado complejos puede llevar a un equipo de anotadores semanas. Multiplica eso por el número de proyectos de cliente que un proveedor de servicios maneja en un año, y el etiquetado se convierte en el cuello de botella principal de productividad.

Las APIs de etiquetado basadas en la nube (OpenAI, Anthropic, Google) pueden acelerar esto dramáticamente — un modelo puede pre-anotar miles de registros en minutos. Pero para clientes empresariales regulados, enviar datos a APIs en la nube no es una opción. Los datos no pueden salir del edificio.

La alternativa práctica: usar LLMs locales ejecutándose on-premise para asistir con el etiquetado. No para reemplazar anotadores humanos, sino para reducir la carga de trabajo por anotador en un 40-60%. Esta guía cubre la configuración, selección de modelos y flujo de trabajo para etiquetado asistido por LLM local.

Qué Pueden Hacer los LLMs Locales para el Etiquetado

Los LLMs locales asisten al etiquetado de tres maneras:

1. Pre-Anotación (Etiquetas Borrador)

El modelo genera una etiqueta propuesta para cada registro. Un anotador humano luego revisa y corrige la propuesta en lugar de etiquetar desde cero.

Para una tarea de clasificación de texto con 10 categorías, un modelo local 7B bien prompteado típicamente alcanza 60-80% de precisión en etiquetas borrador. Eso significa que 60-80% de los registros necesitan solo verificación (rápido), no etiquetado desde cero (lento). El ahorro de tiempo es sustancial — la productividad del anotador se duplica aproximadamente.

Para tareas más complejas (extracción de entidades, clasificación multi-etiqueta, generación de pares instrucción/completación), la precisión varía más, pero incluso un 40% de pre-anotaciones correctas ahorra tiempo significativo.

2. Verificaciones de Calidad de Etiquetas

Después de que los anotadores humanos aplican etiquetas, el modelo revisa la consistencia:

¿Esta etiqueta coincide con el contenido?
¿Es esta etiqueta consistente con cómo se etiquetaron registros similares?
¿Hay patrones de anotación que sugieran fatiga o error sistemático?

Esto atrapa errores que de otra manera sobrevivirían en el conjunto de entrenamiento. Los anotadores humanos operando a velocidad cometen errores — típicamente una tasa de error del 5-15% dependiendo de la complejidad de la tarea y la experiencia del anotador. Una pasada de verificación de calidad atrapa una fracción significativa de esos.

3. Priorización por Aprendizaje Activo

No todos los registros sin etiquetar son igualmente informativos para el entrenamiento del modelo. El aprendizaje activo usa la incertidumbre del modelo para priorizar qué registros deberían etiquetarse a continuación — enfocando el tiempo del anotador en los registros que más mejorarán el rendimiento del modelo.

Con un LLM local, puedes calcular la confianza de predicción para cada registro sin etiquetar y presentar los registros más inciertos primero. Esto produce un mejor conjunto de entrenamiento por unidad de esfuerzo del anotador.

Configuración de Inferencia Local de LLM

Dos opciones prácticas para ejecutar LLMs localmente:

Ollama

Ollama proporciona el camino más simple a la inferencia local de modelos. Instala el binario, descarga un modelo y accede a él vía un endpoint de API local.

Requisitos de hardware para tareas de etiquetado:

Modelos 7B (Mistral 7B, Llama 3 8B): 8 GB de RAM mínimo, 16 GB recomendado. Se ejecuta en CPU pero la aceleración por GPU mejora dramáticamente la productividad.
Modelos 13B: 16 GB de RAM mínimo. Notablemente mejor en tareas de etiquetado complejas.
Modelos 70B+: Requiere infraestructura seria de GPU (48+ GB de VRAM). Generalmente excesivo para asistencia de etiquetado.

Para la mayoría de los casos de uso de etiquetado, un modelo de seguimiento de instrucciones 7B-8B proporciona la mejor relación productividad-precisión.

llama.cpp

Más control, más configuración. llama.cpp ejecuta modelos cuantizados en GGUF directamente en CPU o GPU con control detallado sobre longitud de contexto, tamaño de lote y nivel de cuantización.

Relevante para proveedores de servicios que necesitan:

Ejecutar en hardware sin GPUs compatibles con CUDA (Apple Silicon, AMD, servidores solo CPU)
Maximizar productividad en hardware específico
Desplegar en entornos donde instalar Ollama no es posible

Selección de Modelo para Tareas de Etiquetado

No todos los modelos son igualmente adecuados para etiquetado. La propiedad clave es el seguimiento de instrucciones — el modelo necesita producir output estructurado de forma confiable en el formato que especifiques.

Modelo	Tamaño	Seguimiento de Instrucciones	Output Estructurado	Precisión de Etiquetado (típica)
Llama 3.1 8B Instruct	8B	Excelente	Bueno	65-80%
Mistral 7B Instruct v0.3	7B	Muy Bueno	Bueno	60-75%
Qwen 2.5 7B Instruct	7B	Muy Bueno	Muy Bueno	65-80%
Phi-3.5 Mini Instruct	3.8B	Bueno	Regular	50-65%
Llama 3.1 70B Instruct	70B	Excelente	Excelente	80-90%

Los rangos de precisión son estimaciones para una tarea típica de clasificación de texto con 5-10 categorías. Tu experiencia variará según el dominio, la complejidad de la tarea y el diseño del prompt.

Etiquetado por Lotes vs. Interactivo

Dos patrones de flujo de trabajo:

Pre-Anotación por Lotes

Ejecuta el modelo sobre todo el dataset sin etiquetar, generando etiquetas borrador para todos los registros. Los anotadores luego trabajan a través de la cola, verificando o corrigiendo cada borrador.

Ventajas: Maximiza la utilización de GPU. Los anotadores siempre tienen una cola de registros pre-anotados listos para revisar. Simple de implementar.

Desventajas: El procesamiento inicial por lotes toma tiempo (horas para datasets grandes en hardware modesto). Las etiquetas borrador se generan sin beneficio de correcciones humanas — el modelo no mejora durante el lote.

Etiquetado Interactivo con Co-Piloto

El modelo genera una etiqueta borrador en tiempo real a medida que el anotador abre cada registro. El anotador ve la sugerencia inmediatamente y la acepta, modifica o rechaza.

Ventajas: Se siente más natural. El prompt puede incorporar ejemplos recientemente etiquetados (few-shot), mejorando la precisión a medida que la sesión progresa.

Desventajas: Requiere inferencia de baja latencia (menos de un segundo por registro). Pone un techo de productividad basado en la velocidad de inferencia por registro individual. En hardware solo CPU con un modelo 7B, la latencia puede ser de 5-15 segundos por registro — aceptable para tareas simples, frustrante para anotadores rápidos.

Para la mayoría de los flujos de trabajo de proveedores de servicios, la pre-anotación por lotes es el punto de partida práctico. Cambia a etiquetado interactivo con co-piloto cuando el hardware soporte inferencia de menos de un segundo.

Comparación: Etiquetado con LLM Local vs. Herramientas Existentes

Label Studio

La herramienta de anotación open-source más ampliamente desplegada. Label Studio proporciona una interfaz web para múltiples tipos de anotación (clasificación, NER, bounding boxes, etc.) con gestión de proyectos, soporte multi-anotador e integración básica de backend ML.

Fortalezas: Maduro, flexible, soporta muchos tipos de anotación. Debilidades: El despliegue auto-hospedado agrega complejidad operativa. La integración de backend ML (para pre-anotación) requiere código personalizado. Sin soporte integrado de LLM local — necesitas construir el puente tú mismo.

Prodigy

La herramienta de anotación comercial de Explosion. Construida para eficiencia — diseñada alrededor de aprendizaje activo y flujos de trabajo de anotación rápida.

Fortalezas: Interfaz de anotación rápida, aprendizaje activo integrado, buena integración NLP. Debilidades: Requiere licencia comercial. Aplicación de escritorio (no basada en web), lo que limita flujos de trabajo multi-anotador. Centrada en Python — los expertos de dominio necesitan asistencia técnica para configurar.

Servicios de Etiquetado Cloud (Scale AI, Labelbox)

Plataformas de etiquetado de grado empresarial con gestión de fuerza laboral, control de calidad y funciones de modelo en el bucle.

Fortalezas: Poderosos, escalables, gestión de calidad bien integrada. Debilidades: Los datos deben salir de la infraestructura del cliente. No es una opción para industrias reguladas con requisitos de cero egreso.

Flujo de Trabajo Práctico: De Sin Etiquetar a Listo para Entrenamiento

Aquí hay un flujo de trabajo realista para un proveedor de servicios manejando un proyecto de etiquetado para un cliente empresarial regulado:

Fase 1: Configuración (Día 1)

Desplegar inferencia local de LLM (Ollama o llama.cpp) en hardware del cliente
Diseñar esquema de etiquetado con expertos de dominio
Escribir y probar prompts de etiquetado contra una muestra de 50 registros
Medir precisión de pre-anotación e iterar en prompts hasta que la precisión exceda 60%

Fase 2: Pre-Anotación por Lotes (Día 2)

Ejecutar el modelo sobre el dataset completo
Generar etiquetas borrador con puntuaciones de confianza
Marcar registros de baja confianza para revisión humana prioritaria

Fase 3: Revisión Humana (Días 3-10+)

Los expertos de dominio revisan registros pre-anotados
Etiquetas correctas de alta confianza: verificar y aprobar (rápido)
Etiquetas de baja confianza o incorrectas: corregir manualmente
Rastrear acuerdo de anotadores en registros superpuestos

Fase 4: Aseguramiento de Calidad (Continuo)

Ejecutar el LLM local como verificador de calidad en etiquetas completadas
Marcar inconsistencias para re-revisión
Calcular métricas de acuerdo inter-anotador
Exportar reporte de calidad para la pista de auditoría

Fase 5: Iteración

Después de la ronda inicial de etiquetado, usar datos etiquetados para mejorar prompts
Re-ejecutar pre-anotación en registros sin etiquetar restantes con prompts mejorados
Cada iteración típicamente mejora la precisión de pre-anotación en 5-10%

Recomendaciones de Hardware

Para un proveedor de servicios desplegando infraestructura de etiquetado en el sitio del cliente:

Escenario	Hardware	Modelo	Productividad Esperada
Presupuesto / Solo CPU	Estación de trabajo con 32 GB RAM	Llama 3.1 8B Q4	50-100 registros/hora (lote)
Rango medio	NVIDIA RTX 4090 (24 GB)	Llama 3.1 8B Q8	500-1,000 registros/hora (lote)
Producción	NVIDIA A100 (40 GB)	Llama 3.1 70B Q4	200-400 registros/hora (lote, mayor precisión)
Apple Silicon	M3 Max (64 GB unificados)	Llama 3.1 8B Q8	200-400 registros/hora (lote)

Estos números de productividad son para una tarea típica de clasificación de texto con registros de entrada de 200 tokens y output de 50 tokens. Las tareas de extracción de entidades y generación de instrucciones son más lentas.

Lo Que Esto Habilita

El módulo Label de Ertas Data Suite integra etiquetado asistido por LLM local directamente en el pipeline de preparación de datos. El co-piloto integrado se ejecuta vía Ollama o llama.cpp, soporta pre-anotación por lotes y etiquetado interactivo, y registra cada decisión de etiqueta en la pista de auditoría del proyecto. Los expertos de dominio trabajan en una interfaz visual — sin Python, sin línea de comandos, sin archivos de configuración.

La ventaja clave sobre ensamblar Label Studio + Ollama + código de unión personalizado: todo se ejecuta en una sola aplicación con un modelo de datos unificado. Las etiquetas aplicadas en el módulo Label alimentan directamente el aumento y la exportación sin conversiones de formato de archivo o transferencias de datos.

Conectando al Pipeline

Los datos etiquetados alimentan el aumento, donde la generación de datos sintéticos expande el dataset — especialmente importante cuando los datos etiquetados reales son escasos (el caso empresarial típico).

Para la descripción general completa del pipeline, consulta Cómo Construir un Pipeline On-Premise de Preparación de Datos para Fine-Tuning de LLM.