OpenVINO + Ertas

Despliega modelos ajustados de Ertas en CPUs, GPUs y NPUs de Intel usando el toolkit de optimización de inferencia de OpenVINO, logrando inferencia local eficiente sin requerir hardware NVIDIA.

Overview

OpenVINO es el toolkit de código abierto de Intel para optimizar y desplegar modelos de aprendizaje profundo en hardware Intel — desde CPUs de servidor Xeon y GPUs Arc hasta las unidades de procesamiento neural (NPUs) integradas en laptops Core Ultra. Para modelos de lenguaje grandes, OpenVINO aplica compresión de pesos, optimización de kernel y compilación específica de hardware para ofrecer rendimiento de inferencia competitivo en silicio Intel. Esto es significativo porque el hardware Intel es ubicuo: la mayoría de los servidores empresariales, estaciones de trabajo de desarrolladores y laptops ejecutan procesadores Intel, sin embargo la conversación sobre despliegue de LLMs ha sido dominada por las GPUs de NVIDIA.

El soporte de LLM de OpenVINO incluye compresión de pesos INT4 e INT8, decodificación especulativa, batching continuo e integración con la biblioteca Optimum de Hugging Face para conversión simplificada de modelos. El toolkit también proporciona una capa de servicio compatible con OpenAI a través de su componente Model Server, haciendo los modelos desplegados accesibles a aplicaciones cliente estándar. Para organizaciones con infraestructura Intel existente — o aquellas que buscan evitar cuellos de botella y costos de adquisición de GPUs — OpenVINO ofrece un camino práctico hacia la inferencia local de LLM usando el hardware que ya tienen en sus centros de datos y en los escritorios de sus empleados.

How Ertas Integrates

Ertas Studio se encarga del paso de personalización del modelo, ajustando un modelo base con tus datos específicos de dominio para crear un modelo especialista para tu caso de uso. OpenVINO luego se encarga del paso de optimización de despliegue, convirtiendo ese modelo ajustado a un formato optimizado para Intel que se ejecuta eficientemente en tu hardware existente. Esta combinación es especialmente valiosa para empresas que tienen flotas de servidores Intel y quieren desplegar modelos de IA personalizados sin adquirir capacidad GPU escasa.

El flujo de trabajo se conecta naturalmente: ajusta en Ertas Studio, exporta el modelo en formato Hugging Face y usa las herramientas de conversión de OpenVINO (o Hugging Face Optimum Intel) para compilarlo para tu hardware Intel objetivo. Aplica compresión de pesos INT4 para ajustar modelos más grandes en la memoria disponible y despliega a través de OpenVINO Model Server con un endpoint compatible con OpenAI. Tus aplicaciones se conectan a este endpoint igual que lo harían a cualquier API de IA en la nube — pero el modelo está ajustado con tus datos, ejecutándose en tu hardware Intel, con costos predecibles y control total de datos.

Getting Started

1
Ajusta un modelo en Ertas Studio
Prepara tu dataset específico de dominio y entrena un modelo ajustado en Ertas Studio. Selecciona un modelo base con un número de parámetros apropiado para tu hardware Intel — modelos de 7B a 13B funcionan bien en servidores Xeon modernos con suficiente RAM.
2
Exporta y convierte al formato OpenVINO
Exporta el modelo ajustado desde Ertas en formato safetensors de Hugging Face. Usa Optimum Intel o el convertidor de modelos de OpenVINO para compilarlo a la representación intermedia (IR) de OpenVINO con compresión de pesos INT4 o INT8.
3
Benchmark en tu hardware objetivo
Ejecuta la herramienta de benchmark de OpenVINO para medir el rendimiento de inferencia y la latencia en tu hardware Intel específico. Prueba con prompts representativos de tu caso de uso para verificar tanto el rendimiento como la calidad de salida después de la compresión.
4
Despliega con OpenVINO Model Server
Carga el modelo optimizado en OpenVINO Model Server, que proporciona endpoints REST y gRPC compatibles con el formato de API de OpenAI. Configura la longitud de contexto, los parámetros de batching y la asignación de recursos para tu entorno de servicio.
5
Integra e itera
Conecta tus aplicaciones al endpoint de OpenVINO Model Server. Monitorea la calidad de salida y el rendimiento en producción. Ajusta versiones mejoradas en Ertas cuando necesites expandir el conocimiento de dominio del modelo o corregir problemas recurrentes.

Benefits

Despliega modelos ajustados en CPUs, GPUs y NPUs de Intel sin hardware NVIDIA
Aprovecha la infraestructura de servidores Intel existente ya presente en la mayoría de centros de datos empresariales
La compresión de pesos INT4 permite ejecutar modelos más grandes dentro de la memoria del sistema disponible
Endpoint de servicio compatible con OpenAI para integración fluida con bibliotecas cliente estándar
Costos de infraestructura predecibles y fijos sin cargos de API por token
Soporte para NPUs Intel Core Ultra que trae inferencia eficiente a laptops de desarrolladores