Ertas para Clasificación de Documentos

Ajusta modelos de IA que categorizan automáticamente documentos por tipo, departamento, urgencia o taxonomías personalizadas — con una precisión que los modelos genéricos no pueden igualar.

The Challenge

Las organizaciones procesan miles de documentos diariamente — contratos, facturas, correspondencia, reportes, solicitudes y presentaciones de cumplimiento — y enrutar cada documento al equipo o flujo de trabajo correcto depende de una clasificación precisa. La clasificación manual es lenta, inconsistente y escala pobremente. Cuando un solo documento mal enrutado puede retrasar una presentación legal o perder una oportunidad de negocio sensible al tiempo, el costo de los errores es significativo.

Los modelos de IA genéricos tienen dificultades con la clasificación de documentos en dominios especializados porque carecen de contexto sobre la taxonomía de documentos específica de una organización. Un modelo general puede distinguir entre una factura y un contrato, pero no puede diferenciar de manera fiable entre un acuerdo marco de servicios y una declaración de trabajo, o entre una presentación regulatoria y un memorando interno de cumplimiento. Estas distinciones de grano fino requieren conocimiento de dominio que solo puede provenir del entrenamiento con el corpus de documentos real de la organización — exactamente el tipo de tarea para la que fue diseñado el fine-tuning.

The Solution

Ertas permite a las organizaciones ajustar modelos de clasificación con su propia taxonomía de documentos usando ejemplos reales de sus archivos. Con Ertas Studio, los equipos suben muestras de documentos etiquetados en formato JSONL — donde cada entrada mapea texto de documento a su categoría correcta — y entrenan un adaptador LoRA ligero que enseña al modelo a reconocer los patrones específicos, vocabulario e indicios estructurales que distinguen cada tipo de documento en su taxonomía.

El modelo ajustado puede desplegarse como un endpoint de clasificación a través de Ollama, vLLM o Ertas Cloud, procesando documentos entrantes en tiempo real con latencia menor a un segundo. Debido a que el modelo se ejecuta en tu infraestructura, el contenido sensible de documentos nunca sale de tu red. Ertas Vault asegura que todos los datos de entrenamiento y artefactos del modelo estén cifrados y con acceso controlado, cumpliendo los requisitos de gobernanza de datos de industrias reguladas. A medida que la taxonomía de documentos evoluciona — se agregan nuevas categorías, las existentes se dividen o fusionan — los equipos pueden reentrenar el modelo en Ertas Studio con ejemplos actualizados y redesplegar sin ningún cambio en la aplicación.

Key Features

Studio

Entrenamiento de Taxonomía Personalizada

Entrena modelos de clasificación con la taxonomía exacta de documentos de tu organización usando ejemplos etiquetados. Soporte para categorías jerárquicas, clasificación multi-etiqueta y puntuación de confianza por categoría.

Hub

Modelos de Documentos Pre-Entrenados

Comienza desde modelos base en Hub que ya comprenden la estructura de documentos — encabezados, pies de página, tablas, firmas — para que tu fine-tuning se enfoque en la precisión de clasificación en lugar de la comprensión básica de documentos.

Cloud

API de Clasificación en Tiempo Real

Despliega tu clasificador como un endpoint REST de baja latencia a través de Cloud. Procesa documentos a su llegada con clasificación en menos de un segundo y enrútalos automáticamente a flujos de trabajo posteriores.

Vault

Procesamiento Seguro de Documentos

Vault asegura que todos los documentos de entrenamiento y datos de inferencia estén cifrados en reposo y en tránsito. Las políticas de retención configurables purgan automáticamente los documentos procesados después de la clasificación.

Example Workflow

Una gran compañía de seguros recibe más de 10,000 documentos diarios a través de canales de email, fax y portal web. Los documentos incluyen nuevas reclamaciones, enmiendas de pólizas, registros médicos, informes de ajustadores y correspondencia legal — cada uno requiriendo enrutamiento a un departamento diferente. El equipo exporta 50,000 ejemplos de documentos etiquetados de su archivo y los sube a Ertas Vault. En Ertas Studio, ajustan un modelo de 7B con un adaptador LoRA dirigido a su taxonomía de 28 categorías. Después del entrenamiento, el modelo alcanza un 96% de precisión de clasificación en un conjunto de prueba reservado — comparado con el 71% de un modelo genérico. El clasificador se despliega como un endpoint API detrás de su sistema de ingesta de documentos, enrutando automáticamente cada documento entrante a la cola del departamento correcto con una puntuación de confianza. Los documentos por debajo del umbral de confianza se marcan para revisión humana, creando un ciclo de retroalimentación que genera datos de entrenamiento adicionales para futuras mejoras del modelo.