
Etiquetado de Datos Asistido por LLM Local Sin Egreso de Datos
Cómo usar LLMs locales vía Ollama y llama.cpp para etiquetado de datos asistido por IA — cubriendo pre-anotación, verificaciones de calidad y aprendizaje activo sin enviar datos fuera de las instalaciones.
El etiquetado de datos es la etapa más intensiva en mano de obra del pipeline de preparación de datos. Un dataset de 10,000 ejemplos con requisitos de etiquetado complejos puede llevar a un equipo de anotadores semanas. Multiplica eso por el número de proyectos de cliente que un proveedor de servicios maneja en un año, y el etiquetado se convierte en el cuello de botella principal de productividad.
Las APIs de etiquetado basadas en la nube (OpenAI, Anthropic, Google) pueden acelerar esto dramáticamente — un modelo puede pre-anotar miles de registros en minutos. Pero para clientes empresariales regulados, enviar datos a APIs en la nube no es una opción. Los datos no pueden salir del edificio.
La alternativa práctica: usar LLMs locales ejecutándose on-premise para asistir con el etiquetado. No para reemplazar anotadores humanos, sino para reducir la carga de trabajo por anotador en un 40-60%. Esta guía cubre la configuración, selección de modelos y flujo de trabajo para etiquetado asistido por LLM local.
Qué Pueden Hacer los LLMs Locales para el Etiquetado
Los LLMs locales asisten al etiquetado de tres maneras:
1. Pre-Anotación (Etiquetas Borrador)
El modelo genera una etiqueta propuesta para cada registro. Un anotador humano luego revisa y corrige la propuesta en lugar de etiquetar desde cero.
Para una tarea de clasificación de texto con 10 categorías, un modelo local 7B bien prompteado típicamente alcanza 60-80% de precisión en etiquetas borrador. Eso significa que 60-80% de los registros necesitan solo verificaci ón (rápido), no etiquetado desde cero (lento). El ahorro de tiempo es sustancial — la productividad del anotador se duplica aproximadamente.
Para tareas más complejas (extracción de entidades, clasificación multi-etiqueta, generación de pares instrucción/completación), la precisión varía más, pero incluso un 40% de pre-anotaciones correctas ahorra tiempo significativo.
2. Verificaciones de Calidad de Etiquetas
Después de que los anotadores humanos aplican etiquetas, el modelo revisa la consistencia:
- ¿Esta etiqueta coincide con el contenido?
- ¿Es esta etiqueta consistente con cómo se etiquetaron registros similares?
- ¿Hay patrones de anotación que sugieran fatiga o error sistemático?
Esto atrapa errores que de otra manera sobrevivirían en el conjunto de entrenamiento. Los anotadores humanos operando a velocidad cometen errores — típicamente una tasa de error del 5-15% dependiendo de la complejidad de la tarea y la experiencia del anotador. Una pasada de verificación de calidad atrapa una fracción significativa de esos.
3. Priorización por Aprendizaje Activo
No todos los registros sin etiquetar son igualmente informativos para el entrenamiento del modelo. El aprendizaje activo usa la incertidumbre del modelo para priorizar qué registros deberían etiquetarse a continuación — enfocando el tiempo del anotador en los registros que más mejorarán el rendimiento del modelo.
Con un LLM local, puedes calcular la confianza de predicción para cada registro sin etiquetar y presentar los registros más inciertos primero. Esto produce un mejor conjunto de entrenamiento por unidad de esfuerzo del anotador.
Configuración de Inferencia Local de LLM
Dos opciones prácticas para ejecutar LLMs localmente:
Ollama
Ollama proporciona el camino más simple a la inferencia local de modelos. Instala el binario, descarga un modelo y accede a él vía un endpoint de API local.
Requisitos de hardware para tareas de etiquetado:
- Modelos 7B (Mistral 7B, Llama 3 8B): 8 GB de RAM mínimo, 16 GB recomendado. Se ejecuta en CPU pero la aceleración por GPU mejora dramáticamente la productividad.
- Modelos 13B: 16 GB de RAM mínimo. Notablemente mejor en tareas de etiquetado complejas.
- Modelos 70B+: Requiere infraestructura seria de GPU (48+ GB de VRAM). Generalmente excesivo para asistencia de etiquetado.
Para la mayoría de los casos de uso de etiquetado, un modelo de seguimiento de instrucciones 7B-8B proporciona la mejor relación productividad-precisión.
llama.cpp
Más control, más configuración. llama.cpp ejecuta modelos cuantizados en GGUF directamente en CPU o GPU con control detallado sobre longitud de contexto, tamaño de lote y nivel de cuantización.
Relevante para proveedores de servicios que necesitan:
- Ejecutar en hardware sin GPUs compatibles con CUDA (Apple Silicon, AMD, servidores solo CPU)
- Maximizar productividad en hardware específico
- Desplegar en entornos donde instalar Ollama no es posible
Selección de Modelo para Tareas de Etiquetado
No todos los modelos son igualmente adecuados para etiquetado. La propiedad clave es el seguimiento de instrucciones — el modelo necesita producir output estructurado de forma confiable en el formato que especifiques.
| Modelo | Tamaño | Seguimiento de Instrucciones | Output Estructurado | Precisión de Etiquetado (típica) |
|---|---|---|---|---|
| Llama 3.1 8B Instruct | 8B | Excelente | Bueno | 65-80% |
| Mistral 7B Instruct v0.3 | 7B | Muy Bueno | Bueno | 60-75% |
| Qwen 2.5 7B Instruct | 7B | Muy Bueno | Muy Bueno | 65-80% |
| Phi-3.5 Mini Instruct | 3.8B | Bueno | Regular | 50-65% |
| Llama 3.1 70B Instruct | 70B | Excelente | Excelente | 80-90% |
Los rangos de precisión son estimaciones para una tarea típica de clasificación de texto con 5-10 categorías. Tu experiencia variará según el dominio, la complejidad de la tarea y el diseño del prompt.
Etiquetado por Lotes vs. Interactivo
Dos patrones de flujo de trabajo:
Pre-Anotación por Lotes
Ejecuta el modelo sobre todo el dataset sin etiquetar, generando etiquetas borrador para todos los registros. Los anotadores luego trabajan a través de la cola, verificando o corrigiendo cada borrador.
Ventajas: Maximiza la utilización de GPU. Los anotadores siempre tienen una cola de registros pre-anotados listos para revisar. Simple de implementar.
Desventajas: El procesamiento inicial por lotes toma tiempo (horas para datasets grandes en hardware modesto). Las etiquetas borrador se generan sin beneficio de correcciones humanas — el modelo no mejora durante el lote.
Etiquetado Interactivo con Co-Piloto
El modelo genera una etiqueta borrador en tiempo real a medida que el anotador abre cada registro. El anotador ve la sugerencia inmediatamente y la acepta, modifica o rechaza.
Ventajas: Se siente más natural. El prompt puede incorporar ejemplos recientemente etiquetados (few-shot), mejorando la precisión a medida que la sesión progresa.
Desventajas: Requiere inferencia de baja latencia (menos de un segundo por registro). Pone un techo de productividad basado en la velocidad de inferencia por registro individual. En hardware solo CPU con un modelo 7B, la latencia puede ser de 5-15 segundos por registro — aceptable para tareas simples, frustrante para anotadores rápidos.
Para la mayoría de los flujos de trabajo de proveedores de servicios, la pre-anotación por lotes es el punto de partida práctico. Cambia a etiquetado interactivo con co-piloto cuando el hardware soporte inferencia de menos de un segundo.
Comparación: Etiquetado con LLM Local vs. Herramientas Existentes
Label Studio
La herramienta de anotación open-source más ampliamente desplegada. Label Studio proporciona una interfaz web para múltiples tipos de anotación (clasificación, NER, bounding boxes, etc.) con gestión de proyectos, soporte multi-anotador e integración básica de backend ML.
Fortalezas: Maduro, flexible, soporta muchos tipos de anotación. Debilidades: El despliegue auto-hospedado agrega complejidad operativa. La integración de backend ML (para pre-anotación) requiere código personalizado. Sin soporte integrado de LLM local — necesitas construir el puente tú mismo.
Prodigy
La herramienta de anotación comercial de Explosion. Construida para eficiencia — diseñada alrededor de aprendizaje activo y flujos de trabajo de anotación rápida.
Fortalezas: Interfaz de anotación rápida, aprendizaje activo integrado, buena integración NLP. Debilidades: Requiere licencia comercial. Aplicación de escritorio (no basada en web), lo que limita flujos de trabajo multi-anotador. Centrada en Python — los expertos de dominio necesitan asistencia técnica para configurar.
Servicios de Etiquetado Cloud (Scale AI, Labelbox)
Plataformas de etiquetado de grado empresarial con gestión de fuerza laboral, control de calidad y funciones de modelo en el bucle.
Fortalezas: Poderosos, escalables, gestión de calidad bien integrada. Debilidades: Los datos deben salir de la infraestructura del cliente. No es una opción para industrias reguladas con requisitos de cero egreso.
Flujo de Trabajo Práctico: De Sin Etiquetar a Listo para Entrenamiento
Aquí hay un flujo de trabajo realista para un proveedor de servicios manejando un proyecto de etiquetado para un cliente empresarial regulado:
Fase 1: Configuración (Día 1)
- Desplegar inferencia local de LLM (Ollama o llama.cpp) en hardware del cliente
- Diseñar esquema de etiquetado con expertos de dominio
- Escribir y probar prompts de etiquetado contra una muestra de 50 registros
- Medir precisión de pre-anotación e iterar en prompts hasta que la precisión exceda 60%
Fase 2: Pre-Anotación por Lotes (Día 2)
- Ejecutar el modelo sobre el dataset completo
- Generar etiquetas borrador con puntuaciones de confianza
- Marcar registros de baja confianza para revisión humana prioritaria
Fase 3: Revisión Humana (Días 3-10+)
- Los expertos de dominio revisan registros pre-anotados
- Etiquetas correctas de alta confianza: verificar y aprobar (rápido)
- Etiquetas de baja confianza o incorrectas: corregir manualmente
- Rastrear acuerdo de anotadores en registros superpuestos
Fase 4: Aseguramiento de Calidad (Continuo)
- Ejecutar el LLM local como verificador de calidad en etiquetas completadas
- Marcar inconsistencias para re-revisión
- Calcular métricas de acuerdo inter-anotador
- Exportar reporte de calidad para la pista de auditoría
Fase 5: Iteración
- Después de la ronda inicial de etiquetado, usar datos etiquetados para mejorar prompts
- Re-ejecutar pre-anotación en registros sin etiquetar restantes con prompts mejorados
- Cada iteración típicamente mejora la precisión de pre-anotación en 5-10%
Recomendaciones de Hardware
Para un proveedor de servicios desplegando infraestructura de etiquetado en el sitio del cliente:
| Escenario | Hardware | Modelo | Productividad Esperada |
|---|---|---|---|
| Presupuesto / Solo CPU | Estación de trabajo con 32 GB RAM | Llama 3.1 8B Q4 | 50-100 registros/hora (lote) |
| Rango medio | NVIDIA RTX 4090 (24 GB) | Llama 3.1 8B Q8 | 500-1,000 registros/hora (lote) |
| Producción | NVIDIA A100 (40 GB) | Llama 3.1 70B Q4 | 200-400 registros/hora (lote, mayor precisión) |
| Apple Silicon | M3 Max (64 GB unificados) | Llama 3.1 8B Q8 | 200-400 registros/hora (lote) |
Estos números de productividad son para una tarea típica de clasificación de texto con registros de entrada de 200 tokens y output de 50 tokens. Las tareas de extracción de entidades y generación de instrucciones son más lentas.
Lo Que Esto Habilita
El módulo Label de Ertas Data Suite integra etiquetado asistido por LLM local directamente en el pipeline de preparación de datos. El co-piloto integrado se ejecuta vía Ollama o llama.cpp, soporta pre-anotación por lotes y etiquetado interactivo, y registra cada decisión de etiqueta en la pista de auditoría del proyecto. Los expertos de dominio trabajan en una interfaz visual — sin Python, sin línea de comandos, sin archivos de configuración.
La ventaja clave sobre ensamblar Label Studio + Ollama + código de unión personalizado: todo se ejecuta en una sola aplicación con un modelo de datos unificado. Las etiquetas aplicadas en el módulo Label alimentan directamente el aumento y la exportación sin conversiones de formato de archivo o transferencias de datos.
Conectando al Pipeline
Los datos etiquetados alimentan el aumento, donde la generación de datos sintéticos expande el dataset — especialmente importante cuando los datos etiquetados reales son escasos (el caso empresarial típico).
Para la descripción general completa del pipeline, consulta Cómo Construir un Pipeline On-Premise de Preparación de Datos para Fine-Tuning de LLM.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Optimizing Local LLM Inference for Data Labeling and Augmentation Tasks
Practical guide to optimizing local LLM inference for data prep — model selection, quantization trade-offs, batch strategies, and throughput tuning for labeling and augmentation.

Running Ollama for AI-Assisted Data Prep in Air-Gapped Enterprise Environments
Step-by-step guide to deploying Ollama for AI-assisted data labeling in air-gapped environments — model transfer, offline setup, GPU configuration, and common failure modes.

Synthetic Data Generation in Air-Gapped Environments for Fine-Tuning
How to generate synthetic training data in air-gapped environments — covering paraphrasing, instruction generation, DPO pairs, and seed expansion using local LLMs only.