Back to blog
    Etiquetado de Datos Asistido por LLM Local Sin Egreso de Datos
    data-labelinglocal-llmollamaactive-learningzero-egresson-premisesegment:service-provider

    Etiquetado de Datos Asistido por LLM Local Sin Egreso de Datos

    Cómo usar LLMs locales vía Ollama y llama.cpp para etiquetado de datos asistido por IA — cubriendo pre-anotación, verificaciones de calidad y aprendizaje activo sin enviar datos fuera de las instalaciones.

    EErtas Team·

    El etiquetado de datos es la etapa más intensiva en mano de obra del pipeline de preparación de datos. Un dataset de 10,000 ejemplos con requisitos de etiquetado complejos puede llevar a un equipo de anotadores semanas. Multiplica eso por el número de proyectos de cliente que un proveedor de servicios maneja en un año, y el etiquetado se convierte en el cuello de botella principal de productividad.

    Las APIs de etiquetado basadas en la nube (OpenAI, Anthropic, Google) pueden acelerar esto dramáticamente — un modelo puede pre-anotar miles de registros en minutos. Pero para clientes empresariales regulados, enviar datos a APIs en la nube no es una opción. Los datos no pueden salir del edificio.

    La alternativa práctica: usar LLMs locales ejecutándose on-premise para asistir con el etiquetado. No para reemplazar anotadores humanos, sino para reducir la carga de trabajo por anotador en un 40-60%. Esta guía cubre la configuración, selección de modelos y flujo de trabajo para etiquetado asistido por LLM local.


    Qué Pueden Hacer los LLMs Locales para el Etiquetado

    Los LLMs locales asisten al etiquetado de tres maneras:

    1. Pre-Anotación (Etiquetas Borrador)

    El modelo genera una etiqueta propuesta para cada registro. Un anotador humano luego revisa y corrige la propuesta en lugar de etiquetar desde cero.

    Para una tarea de clasificación de texto con 10 categorías, un modelo local 7B bien prompteado típicamente alcanza 60-80% de precisión en etiquetas borrador. Eso significa que 60-80% de los registros necesitan solo verificación (rápido), no etiquetado desde cero (lento). El ahorro de tiempo es sustancial — la productividad del anotador se duplica aproximadamente.

    Para tareas más complejas (extracción de entidades, clasificación multi-etiqueta, generación de pares instrucción/completación), la precisión varía más, pero incluso un 40% de pre-anotaciones correctas ahorra tiempo significativo.

    2. Verificaciones de Calidad de Etiquetas

    Después de que los anotadores humanos aplican etiquetas, el modelo revisa la consistencia:

    • ¿Esta etiqueta coincide con el contenido?
    • ¿Es esta etiqueta consistente con cómo se etiquetaron registros similares?
    • ¿Hay patrones de anotación que sugieran fatiga o error sistemático?

    Esto atrapa errores que de otra manera sobrevivirían en el conjunto de entrenamiento. Los anotadores humanos operando a velocidad cometen errores — típicamente una tasa de error del 5-15% dependiendo de la complejidad de la tarea y la experiencia del anotador. Una pasada de verificación de calidad atrapa una fracción significativa de esos.

    3. Priorización por Aprendizaje Activo

    No todos los registros sin etiquetar son igualmente informativos para el entrenamiento del modelo. El aprendizaje activo usa la incertidumbre del modelo para priorizar qué registros deberían etiquetarse a continuación — enfocando el tiempo del anotador en los registros que más mejorarán el rendimiento del modelo.

    Con un LLM local, puedes calcular la confianza de predicción para cada registro sin etiquetar y presentar los registros más inciertos primero. Esto produce un mejor conjunto de entrenamiento por unidad de esfuerzo del anotador.


    Configuración de Inferencia Local de LLM

    Dos opciones prácticas para ejecutar LLMs localmente:

    Ollama

    Ollama proporciona el camino más simple a la inferencia local de modelos. Instala el binario, descarga un modelo y accede a él vía un endpoint de API local.

    Requisitos de hardware para tareas de etiquetado:

    • Modelos 7B (Mistral 7B, Llama 3 8B): 8 GB de RAM mínimo, 16 GB recomendado. Se ejecuta en CPU pero la aceleración por GPU mejora dramáticamente la productividad.
    • Modelos 13B: 16 GB de RAM mínimo. Notablemente mejor en tareas de etiquetado complejas.
    • Modelos 70B+: Requiere infraestructura seria de GPU (48+ GB de VRAM). Generalmente excesivo para asistencia de etiquetado.

    Para la mayoría de los casos de uso de etiquetado, un modelo de seguimiento de instrucciones 7B-8B proporciona la mejor relación productividad-precisión.

    llama.cpp

    Más control, más configuración. llama.cpp ejecuta modelos cuantizados en GGUF directamente en CPU o GPU con control detallado sobre longitud de contexto, tamaño de lote y nivel de cuantización.

    Relevante para proveedores de servicios que necesitan:

    • Ejecutar en hardware sin GPUs compatibles con CUDA (Apple Silicon, AMD, servidores solo CPU)
    • Maximizar productividad en hardware específico
    • Desplegar en entornos donde instalar Ollama no es posible

    Selección de Modelo para Tareas de Etiquetado

    No todos los modelos son igualmente adecuados para etiquetado. La propiedad clave es el seguimiento de instrucciones — el modelo necesita producir output estructurado de forma confiable en el formato que especifiques.

    ModeloTamañoSeguimiento de InstruccionesOutput EstructuradoPrecisión de Etiquetado (típica)
    Llama 3.1 8B Instruct8BExcelenteBueno65-80%
    Mistral 7B Instruct v0.37BMuy BuenoBueno60-75%
    Qwen 2.5 7B Instruct7BMuy BuenoMuy Bueno65-80%
    Phi-3.5 Mini Instruct3.8BBuenoRegular50-65%
    Llama 3.1 70B Instruct70BExcelenteExcelente80-90%

    Los rangos de precisión son estimaciones para una tarea típica de clasificación de texto con 5-10 categorías. Tu experiencia variará según el dominio, la complejidad de la tarea y el diseño del prompt.


    Etiquetado por Lotes vs. Interactivo

    Dos patrones de flujo de trabajo:

    Pre-Anotación por Lotes

    Ejecuta el modelo sobre todo el dataset sin etiquetar, generando etiquetas borrador para todos los registros. Los anotadores luego trabajan a través de la cola, verificando o corrigiendo cada borrador.

    Ventajas: Maximiza la utilización de GPU. Los anotadores siempre tienen una cola de registros pre-anotados listos para revisar. Simple de implementar.

    Desventajas: El procesamiento inicial por lotes toma tiempo (horas para datasets grandes en hardware modesto). Las etiquetas borrador se generan sin beneficio de correcciones humanas — el modelo no mejora durante el lote.

    Etiquetado Interactivo con Co-Piloto

    El modelo genera una etiqueta borrador en tiempo real a medida que el anotador abre cada registro. El anotador ve la sugerencia inmediatamente y la acepta, modifica o rechaza.

    Ventajas: Se siente más natural. El prompt puede incorporar ejemplos recientemente etiquetados (few-shot), mejorando la precisión a medida que la sesión progresa.

    Desventajas: Requiere inferencia de baja latencia (menos de un segundo por registro). Pone un techo de productividad basado en la velocidad de inferencia por registro individual. En hardware solo CPU con un modelo 7B, la latencia puede ser de 5-15 segundos por registro — aceptable para tareas simples, frustrante para anotadores rápidos.

    Para la mayoría de los flujos de trabajo de proveedores de servicios, la pre-anotación por lotes es el punto de partida práctico. Cambia a etiquetado interactivo con co-piloto cuando el hardware soporte inferencia de menos de un segundo.


    Comparación: Etiquetado con LLM Local vs. Herramientas Existentes

    Label Studio

    La herramienta de anotación open-source más ampliamente desplegada. Label Studio proporciona una interfaz web para múltiples tipos de anotación (clasificación, NER, bounding boxes, etc.) con gestión de proyectos, soporte multi-anotador e integración básica de backend ML.

    Fortalezas: Maduro, flexible, soporta muchos tipos de anotación. Debilidades: El despliegue auto-hospedado agrega complejidad operativa. La integración de backend ML (para pre-anotación) requiere código personalizado. Sin soporte integrado de LLM local — necesitas construir el puente tú mismo.

    Prodigy

    La herramienta de anotación comercial de Explosion. Construida para eficiencia — diseñada alrededor de aprendizaje activo y flujos de trabajo de anotación rápida.

    Fortalezas: Interfaz de anotación rápida, aprendizaje activo integrado, buena integración NLP. Debilidades: Requiere licencia comercial. Aplicación de escritorio (no basada en web), lo que limita flujos de trabajo multi-anotador. Centrada en Python — los expertos de dominio necesitan asistencia técnica para configurar.

    Servicios de Etiquetado Cloud (Scale AI, Labelbox)

    Plataformas de etiquetado de grado empresarial con gestión de fuerza laboral, control de calidad y funciones de modelo en el bucle.

    Fortalezas: Poderosos, escalables, gestión de calidad bien integrada. Debilidades: Los datos deben salir de la infraestructura del cliente. No es una opción para industrias reguladas con requisitos de cero egreso.


    Flujo de Trabajo Práctico: De Sin Etiquetar a Listo para Entrenamiento

    Aquí hay un flujo de trabajo realista para un proveedor de servicios manejando un proyecto de etiquetado para un cliente empresarial regulado:

    Fase 1: Configuración (Día 1)

    • Desplegar inferencia local de LLM (Ollama o llama.cpp) en hardware del cliente
    • Diseñar esquema de etiquetado con expertos de dominio
    • Escribir y probar prompts de etiquetado contra una muestra de 50 registros
    • Medir precisión de pre-anotación e iterar en prompts hasta que la precisión exceda 60%

    Fase 2: Pre-Anotación por Lotes (Día 2)

    • Ejecutar el modelo sobre el dataset completo
    • Generar etiquetas borrador con puntuaciones de confianza
    • Marcar registros de baja confianza para revisión humana prioritaria

    Fase 3: Revisión Humana (Días 3-10+)

    • Los expertos de dominio revisan registros pre-anotados
    • Etiquetas correctas de alta confianza: verificar y aprobar (rápido)
    • Etiquetas de baja confianza o incorrectas: corregir manualmente
    • Rastrear acuerdo de anotadores en registros superpuestos

    Fase 4: Aseguramiento de Calidad (Continuo)

    • Ejecutar el LLM local como verificador de calidad en etiquetas completadas
    • Marcar inconsistencias para re-revisión
    • Calcular métricas de acuerdo inter-anotador
    • Exportar reporte de calidad para la pista de auditoría

    Fase 5: Iteración

    • Después de la ronda inicial de etiquetado, usar datos etiquetados para mejorar prompts
    • Re-ejecutar pre-anotación en registros sin etiquetar restantes con prompts mejorados
    • Cada iteración típicamente mejora la precisión de pre-anotación en 5-10%

    Recomendaciones de Hardware

    Para un proveedor de servicios desplegando infraestructura de etiquetado en el sitio del cliente:

    EscenarioHardwareModeloProductividad Esperada
    Presupuesto / Solo CPUEstación de trabajo con 32 GB RAMLlama 3.1 8B Q450-100 registros/hora (lote)
    Rango medioNVIDIA RTX 4090 (24 GB)Llama 3.1 8B Q8500-1,000 registros/hora (lote)
    ProducciónNVIDIA A100 (40 GB)Llama 3.1 70B Q4200-400 registros/hora (lote, mayor precisión)
    Apple SiliconM3 Max (64 GB unificados)Llama 3.1 8B Q8200-400 registros/hora (lote)

    Estos números de productividad son para una tarea típica de clasificación de texto con registros de entrada de 200 tokens y output de 50 tokens. Las tareas de extracción de entidades y generación de instrucciones son más lentas.


    Lo Que Esto Habilita

    El módulo Label de Ertas Data Suite integra etiquetado asistido por LLM local directamente en el pipeline de preparación de datos. El co-piloto integrado se ejecuta vía Ollama o llama.cpp, soporta pre-anotación por lotes y etiquetado interactivo, y registra cada decisión de etiqueta en la pista de auditoría del proyecto. Los expertos de dominio trabajan en una interfaz visual — sin Python, sin línea de comandos, sin archivos de configuración.

    La ventaja clave sobre ensamblar Label Studio + Ollama + código de unión personalizado: todo se ejecuta en una sola aplicación con un modelo de datos unificado. Las etiquetas aplicadas en el módulo Label alimentan directamente el aumento y la exportación sin conversiones de formato de archivo o transferencias de datos.


    Conectando al Pipeline

    Los datos etiquetados alimentan el aumento, donde la generación de datos sintéticos expande el dataset — especialmente importante cuando los datos etiquetados reales son escasos (el caso empresarial típico).

    Para la descripción general completa del pipeline, consulta Cómo Construir un Pipeline On-Premise de Preparación de Datos para Fine-Tuning de LLM.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading