LM Studio Server API + Ertas

Sirve modelos entrenados con Ertas como endpoints API locales usando el modo servidor integrado de LM Studio para integración de aplicaciones, desarrollo y pruebas.

Overview

LM Studio es una aplicación de escritorio para descubrir, descargar y ejecutar modelos de lenguaje locales. Aunque es ampliamente conocido por su interfaz de chat, el modo servidor de LM Studio es igualmente potente — convierte cualquier modelo cargado en un servidor API completamente funcional compatible con OpenAI ejecutándose en localhost. Este modo servidor local expone los endpoints /v1/chat/completions, /v1/completions y /v1/embeddings, que son compatibles directamente con el SDK de OpenAI, haciendo trivial redirigir cualquier aplicación de una API en la nube a un modelo local.

El modo servidor de LM Studio es particularmente valioso para flujos de trabajo de desarrollo y pruebas. En lugar de gastar créditos de API mientras iteras sobre prompts y lógica de aplicación, los desarrolladores pueden ejecutar su modelo ajustado localmente a través de LM Studio y probar contra el mismo contrato de API que usarán en producción. El servidor proporciona registro de solicitudes, métricas de rendimiento y monitoreo de utilización de GPU — dando a los desarrolladores visibilidad sobre cómo se comporta su modelo bajo diferentes patrones de carga y longitudes de contexto. Para equipos que necesitan una forma amigable de servir modelos localmente sin gestionar contenedores Docker o herramientas CLI, LM Studio Server ofrece una solución con un solo clic.

How Ertas Integrates

Después de ajustar un modelo en Ertas Studio, descargas el archivo GGUF y lo cargas directamente en LM Studio. Desde ahí, activar el modo servidor es un solo interruptor — LM Studio comienza inmediatamente a servir el modelo en un puerto configurable con compatibilidad total con la API de OpenAI. Cualquier aplicación, framework o herramienta que soporte la API de OpenAI puede conectarse a tu modelo entrenado con Ertas sin cambios en el código más allá de actualizar la URL base.

Esta ruta de integración es especialmente útil durante la fase de desarrollo de aplicaciones de IA. Los equipos pueden ajustar múltiples variantes de modelo en Ertas Studio — diferentes modelos base, diferentes configuraciones de LoRA, diferentes niveles de cuantización — y cambiar rápidamente entre ellos en LM Studio para comparar resultados. La vista de conversación de LM Studio te permite probar el modelo interactivamente mientras el modo servidor simultáneamente lo sirve a tu aplicación. Una vez que hayas identificado la mejor configuración de modelo, puedes desplegarlo en un servidor de inferencia de producción como vLLM o Ertas Cloud mientras mantienes LM Studio como tu herramienta local de desarrollo y depuración.

Getting Started

1
Exporta tu modelo desde Ertas Studio
Descarga el modelo ajustado en formato GGUF desde Ertas Studio. Elige el nivel de cuantización que equilibre calidad y velocidad para tu hardware.
2
Carga el modelo en LM Studio
Abre LM Studio y carga tu archivo GGUF. Configura la longitud de contexto, las capas de GPU y otros parámetros de inferencia en el panel de configuración del modelo.
3
Activa el modo servidor
Activa el modo servidor en la pestaña de servidor de LM Studio. El servidor API se inicia en localhost:1234 por defecto, exponiendo endpoints compatibles con OpenAI.
4
Conecta tu aplicación
Apunta tu aplicación a http://localhost:1234/v1 como URL base. Usa cualquier SDK de OpenAI o cliente HTTP — el contrato de API es idéntico al de OpenAI.
5
Monitorea e itera
Usa el registro y las métricas integradas de LM Studio para monitorear la latencia de solicitudes, el rendimiento de tokens y la utilización de GPU. Intercambia modelos sin reiniciar el servidor para comparar rendimiento.

typescript

import OpenAI from "openai";

// Connect to LM Studio's local server running your Ertas-trained model
const client = new OpenAI({
  baseURL: "http://localhost:1234/v1",
  apiKey: "lm-studio", // LM Studio doesn't require a real key
});

async function analyzeContract(text: string) {
  const response = await client.chat.completions.create({
    model: "ertas-legal-7b",
    messages: [
      { role: "system", content: "You are a contract analyst. Extract key terms and obligations." },
      { role: "user", content: `Analyze this contract clause:\n\n${text}` },
    ],
    temperature: 0.1,
    max_tokens: 1024,
  });

  return response.choices[0].message.content;
}

// Works identically to calling OpenAI's API
const analysis = await analyzeContract("The Licensee shall pay...");
console.log(analysis);

Usa el servidor local de LM Studio con el SDK estándar de OpenAI para TypeScript para integrar tu modelo entrenado con Ertas en cualquier aplicación.

Benefits

Modo servidor con un solo clic, sin configuración de CLI ni Docker
Compatibilidad total con la API de OpenAI para integración fluida de aplicaciones
Registro de solicitudes y métricas de rendimiento integrados para depuración
Intercambio de modelos en caliente sin reiniciar el servidor durante el desarrollo
Controles de descarga de capas a GPU para rendimiento óptimo en cualquier hardware
Chat interactivo y servidor API ejecutándose simultáneamente para pruebas