LocalAI + Ertas

Despliega modelos ajustados de Ertas a través del servidor API compatible con OpenAI de LocalAI, proporcionando un reemplazo autoalojado directo de OpenAI que funciona con cualquier aplicación o biblioteca que espere el formato de la API de OpenAI.

Overview

LocalAI es un servidor API de código abierto y autoalojado que proporciona un reemplazo directo para la especificación de la API de OpenAI. Soporta generación de texto, embeddings, transcripción de audio, generación de imágenes y llamadas a funciones — todo a través de los mismos endpoints API y formatos de solicitud que las aplicaciones usan para comunicarse con OpenAI. Esto significa que cualquier aplicación, SDK o herramienta construida para la API de OpenAI puede redirigirse a LocalAI simplemente cambiando la URL base, sin necesidad de cambios en el código.

LocalAI soporta múltiples backends de inferencia incluyendo llama.cpp, whisper.cpp y modelos de difusión, ejecutándose tanto en hardware CPU como GPU. Gestiona la administración de modelos, la descarga automática de GGUF desde Hugging Face y sirve múltiples modelos concurrentemente. Para organizaciones que desean migrar de APIs de IA en la nube a modelos autoalojados — por control de costos, privacidad de datos o cumplimiento regulatorio — LocalAI proporciona el camino más simple: mantén el código de tu aplicación existente y cambia el endpoint de API a un servidor ejecutándose en tu propia infraestructura.

How Ertas Integrates

Ertas Studio produce modelos ajustados optimizados para tu caso de uso específico, y LocalAI hace que esos modelos sean instantáneamente accesibles para cada herramienta y aplicación en tu stack que hable el protocolo de la API de OpenAI. Después de ajustar un modelo con tus datos de dominio en Ertas — conversaciones de soporte al cliente, patrones de codificación, ejemplos de procesamiento de documentos o contenido especializado — lo exportas en formato GGUF y lo configuras como modelo en LocalAI. Desde ese punto, cualquier aplicación que llame a tu endpoint de LocalAI obtiene respuestas de tu modelo ajustado.

Esta combinación es particularmente potente para equipos que reemplazan el uso de la API de OpenAI con modelos ajustados autoalojados. En lugar de reescribir el código de la aplicación, despliegas LocalAI con tu modelo entrenado con Ertas y rediriges las llamadas a la API. Bots de soporte al cliente, procesadores de documentos, herramientas de codificación y aplicaciones internas continúan funcionando con sus bibliotecas cliente de OpenAI existentes — pero las respuestas ahora provienen de un modelo específicamente entrenado con tus datos, ejecutándose en tu hardware, sin costos por token y con privacidad total de datos. Ertas se encarga de la personalización de la inteligencia, y LocalAI se encarga de la compatibilidad fluida con la API.

Getting Started

1
Ajusta un modelo para tu caso de uso en Ertas Studio
Cura un dataset específico de dominio y ajusta un modelo en Ertas Studio. Ya sea que estés construyendo un bot de soporte al cliente, un asistente de codificación o una herramienta de generación de contenido, entrena el modelo con ejemplos que representen tus estándares de calidad.
2
Exporta el modelo en formato GGUF
Exporta el modelo ajustado desde Ertas en formato GGUF con un nivel de cuantización apropiado. Elige Q4_K_M para entornos con memoria limitada o Q8_0 para máxima calidad en hardware con suficiente RAM.
3
Configura LocalAI con tu modelo
Instala LocalAI y agrega tu modelo GGUF a su directorio de modelos. Crea un archivo de configuración YAML del modelo especificando la longitud de contexto, la plantilla de prompt y los parámetros de inferencia que coincidan con los requisitos de tu modelo.
4
Redirige las aplicaciones existentes a LocalAI
Actualiza la URL base en las configuraciones de tu cliente OpenAI para apuntar a tu servidor LocalAI. Las aplicaciones que usan el paquete openai de Python, el SDK de Node.js o llamadas a la API REST funcionarán sin cambios en el código — solo necesitas actualizar el endpoint y el nombre del modelo.
5
Escala y monitorea tu despliegue
Monitorea la latencia de respuesta y la calidad en producción. Usa el soporte multi-modelo de LocalAI para servir diferentes modelos ajustados para diferentes tareas. Cuando mejores un modelo en Ertas, intercambia el archivo GGUF para actualizar sin cambiar ningún código de aplicación.

Benefits

Cero cambios en el código de la aplicación — reemplazo directo de los endpoints de la API de OpenAI
Soberanía total de datos con toda la inferencia ejecutándose en tu propia infraestructura
Sin costos de API por token sin importar el volumen de solicitudes o el número de aplicaciones
Sirve múltiples modelos ajustados simultáneamente para diferentes casos de uso
Compatible con cada SDK, biblioteca y herramienta de OpenAI en cualquier lenguaje de programación
Actualizaciones de modelo simples — intercambia el archivo GGUF cuando las nuevas versiones ajustadas estén listas