Ollama + Ertas

Despliega modelos entrenados con Ertas a través de Ollama para inferencia local rápida y privada con un CLI simple y una API compatible con OpenAI.

Overview

Ollama simplifica el despliegue local de modelos empaquetando los pesos del modelo, la configuración y el runtime en una sola herramienta optimizada. Con un CLI familiar inspirado en flujos de trabajo de contenedores, Ollama permite a los desarrolladores descargar y ejecutar modelos de lenguaje grandes en su propio hardware sin configurar servidores de inferencia complejos ni gestionar controladores de GPU manualmente. Su API REST compatible con OpenAI integrada significa que el código de aplicación existente puede cambiar a inferencia local con un solo cambio de endpoint.

Para equipos que han invertido en ajustar modelos personalizados con Ertas, Ollama proporciona el camino más rápido desde los pesos entrenados hasta un endpoint de inferencia en funcionamiento. La combinación de Ertas para el entrenamiento y Ollama para el servicio crea un pipeline de IA completamente local donde los datos sensibles nunca salen de tu infraestructura, haciéndolo ideal para industrias reguladas y organizaciones conscientes de la privacidad.

How Ertas Integrates

Después de que un trabajo de entrenamiento se completa en Ertas Studio, puedes descargar tu modelo ajustado en formato GGUF directamente desde la plataforma — que Ollama soporta nativamente. Ertas también proporciona un Modelfile descargable con la plantilla correcta, el prompt de sistema y la configuración de cuantización incorporados, para que puedas registrar el modelo con Ollama en un solo paso. La descarga preserva las plantillas de chat, los tokens de parada y cualquier parámetro personalizado que hayas configurado durante el entrenamiento.

Una vez desplegado, Ertas Cloud puede monitorear tus instancias de Ollama para métricas de salud, rendimiento y latencia. Puedes gestionar múltiples endpoints de Ollama desde el dashboard de Ertas, enrutar tráfico entre versiones de modelos para pruebas A/B y revertir a checkpoints anteriores sin reiniciar el servidor. Este ciclo de retroalimentación estrecho entre entrenamiento y servicio permite a los equipos iterar en la calidad del modelo con mínima carga operativa.

Getting Started

1
Descarga el modelo en formato GGUF
Después de ajustar en Ertas Studio, descarga el modelo en formato GGUF con tu nivel de cuantización preferido (Q4_K_M, Q5_K_M, Q8_0 o precisión completa) desde la plataforma.
2
Descarga el Modelfile de Ollama
Ertas proporciona un Modelfile listo junto con tu descarga GGUF que incluye la plantilla de chat correcta, el prompt de sistema y los parámetros de runtime.
3
Registra el modelo con Ollama
Ejecuta un solo comando CLI para crear el modelo de Ollama a partir del Modelfile generado y los pesos GGUF.
4
Inicia el servidor de inferencia
Lanza Ollama para servir tu modelo localmente. La API compatible con OpenAI está disponible inmediatamente en localhost:11434.
5
Conecta tu aplicación
Apunta tu aplicación al endpoint local de Ollama. Cualquier SDK de OpenAI o cliente HTTP funciona directamente sin cambios en el código más allá de la URL base.

bash

# After downloading the GGUF model and Modelfile from Ertas Studio,
# create an Ollama model from the downloaded files
ollama create my-model -f ./models/Modelfile

# Run the model locally
ollama run my-model "Summarize this patient report"

# Or use the OpenAI-compatible API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "my-model",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Después de descargar tu modelo GGUF desde Ertas Studio, despliégalo localmente a través de Ollama con compatibilidad total de API.

Benefits

Despliega modelos ajustados localmente con un solo comando CLI
API compatible con OpenAI para reemplazo directo en aplicaciones existentes
Ningún dato sale de tu infraestructura durante la inferencia
Generación automática de Modelfile con plantillas de chat y parámetros correctos
Soporte para múltiples niveles de cuantización para equilibrar velocidad y calidad
Monitorea instancias de Ollama desde el dashboard de Ertas Cloud