LM Studio Server API + Ertas

    使用 LM Studio 的内置服务器模式将 Ertas 训练的模型作为本地 API 端点提供服务,用于应用集成、开发和测试。

    Overview

    LM Studio 是一款用于发现、下载和运行本地语言模型的桌面应用程序。虽然它以聊天界面广为人知,但 LM Studio 的服务器模式同样强大——它将任何加载的模型转变为在 localhost 上运行的完全功能的兼容 OpenAI API 服务器。此本地服务器模式暴露 /v1/chat/completions、/v1/completions 和 /v1/embeddings 端点,与 OpenAI SDK 完全兼容,使任何应用只需更改 API 端点即可从云 API 切换到本地模型。

    LM Studio 的服务器模式对于开发和测试工作流特别有价值。开发者无需在迭代提示和应用逻辑时消耗 API 额度,可以通过 LM Studio 在本地运行微调模型,并针对生产中将使用的相同 API 契约进行测试。服务器提供请求日志、性能指标和 GPU 利用率监控——让开发者了解模型在不同负载模式和上下文长度下的表现。对于需要一种用户友好的方式在本地提供模型服务而无需管理 Docker 容器或 CLI 工具的团队,LM Studio Server 提供了一键解决方案。

    How Ertas Integrates

    在 Ertas Studio 中微调模型后,下载 GGUF 文件并直接加载到 LM Studio 中。从那里,启用服务器模式只需一个开关——LM Studio 立即在可配置端口上开始提供模型服务,完全兼容 OpenAI API。任何支持 OpenAI API 的应用、框架或工具都可以连接到您的 Ertas 训练模型,只需更新基础 URL 即可。

    这种集成路径在 AI 应用的开发阶段特别有用。团队可以在 Ertas Studio 中微调多个模型变体——不同的基础模型、不同的 LoRA 配置、不同的量化级别——并在 LM Studio 中快速切换以比较输出。LM Studio 的对话视图让您交互式测试模型,同时服务器模式同时为您的应用提供服务。一旦确定了最佳模型配置,您可以将其部署到 vLLM 或 Ertas Cloud 等生产推理服务器,同时保留 LM Studio 作为本地开发和调试工具。

    Getting Started

    1. 1

      从 Ertas Studio 导出模型

      从 Ertas Studio 以 GGUF 格式下载微调模型。选择平衡您硬件质量和速度的量化级别。

    2. 2

      在 LM Studio 中加载模型

      打开 LM Studio 并加载您的 GGUF 文件。在模型设置面板中配置上下文长度、GPU 层数和其他推理参数。

    3. 3

      启用服务器模式

      在 LM Studio 的服务器选项卡中切换服务器模式。API 服务器默认在 localhost:1234 启动,暴露兼容 OpenAI 的端点。

    4. 4

      连接您的应用

      将应用指向 http://localhost:1234/v1 作为基础 URL。使用任何 OpenAI SDK 或 HTTP 客户端——API 契约与 OpenAI 的完全相同。

    5. 5

      监控并迭代

      使用 LM Studio 内置的日志和指标监控请求延迟、token 吞吐量和 GPU 利用率。在不重启服务器的情况下切换模型以比较性能。

    typescript
    import OpenAI from "openai";
    
    // Connect to LM Studio's local server running your Ertas-trained model
    const client = new OpenAI({
      baseURL: "http://localhost:1234/v1",
      apiKey: "lm-studio", // LM Studio doesn't require a real key
    });
    
    async function analyzeContract(text: string) {
      const response = await client.chat.completions.create({
        model: "ertas-legal-7b",
        messages: [
          { role: "system", content: "You are a contract analyst. Extract key terms and obligations." },
          { role: "user", content: `Analyze this contract clause:\n\n${text}` },
        ],
        temperature: 0.1,
        max_tokens: 1024,
      });
    
      return response.choices[0].message.content;
    }
    
    // Works identically to calling OpenAI's API
    const analysis = await analyzeContract("The Licensee shall pay...");
    console.log(analysis);
    使用标准 OpenAI TypeScript SDK 配合 LM Studio 的本地服务器,将您的 Ertas 训练模型集成到任何应用中。

    Benefits

    • 一键服务器模式,无需 CLI 或 Docker 配置
    • 完全兼容 OpenAI API,实现无缝应用集成
    • 内置请求日志和性能指标用于调试
    • 开发期间热切换模型,无需重启服务器
    • GPU 层卸载控制,在任何硬件上实现最优性能
    • 交互式聊天和 API 服务器同时运行,方便测试

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.