LM Studio + Ertas

从 Ertas Studio 导出微调的 GGUF 模型并加载到 LM Studio 中，使用直观的聊天界面、兼容 OpenAI 的 API 和硬件感知的性能调优进行本地推理。

Overview

LM Studio 是一款桌面应用程序，使在本地运行大语言模型像使用原生聊天应用一样简单。它提供可视化模型浏览器、自动硬件检测和内置聊天界面，在可用性上与云托管的 AI 助手相媲美。底层使用 llama.cpp 进行推理，支持多种 GGUF 量化模型，可在 CPU、NVIDIA GPU、AMD GPU 和 Apple Silicon 上运行，具备自动 GPU 卸载和内存管理。

除聊天界面外，LM Studio 还暴露了一个本地的兼容 OpenAI 的 API 服务器，使开发者能够使用与云 API 相同的 SDK 和库来构建针对本地模型的应用。用户友好的 GUI 用于探索和开发者就绪的 API 用于集成的组合，使 LM Studio 成为本地 AI 生态系统中最通用的工具之一，同时服务于团队中的技术和非技术用户。

How Ertas Integrates

在 Ertas Studio 中微调模型后，您可以以首选量化级别下载 GGUF 格式的训练权重。导出的 GGUF 文件完全自包含，包含嵌入的分词器配置和聊天模板，因此 LM Studio 在导入后立即识别模型的功能。只需将下载的 GGUF 文件拖入 LM Studio 的模型目录或使用文件导入对话框，模型就会出现在本地模型列表中，准备好进行对话。

这个工作流在云端微调和本地部署之间创建了无缝桥梁。团队可以在 Ertas Studio 中使用云 GPU 迭代模型质量，导出最佳检查点，并将 GGUF 文件分发给在 LM Studio 中本地运行的团队成员，无需任何 ML 基础设施。非技术利益相关者可以通过 LM Studio 的聊天 UI 评估微调模型，提供反馈为 Ertas 中的下一次训练迭代提供参考。

Getting Started

1
在 Ertas Studio 中微调您的模型
将 JSONL 训练数据上传到 Ertas Studio，在可视化画布上配置训练运行，并在托管云 GPU 上启动微调。
2
导出为 GGUF
训练完成后，以 GGUF 格式下载模型。选择与本地硬件匹配的量化级别——大多数消费机器选择 Q4_K_M，强大硬件选择 Q8_0 以获得更高质量。
3
导入到 LM Studio
打开 LM Studio 并将下载的 GGUF 文件拖入模型目录，或使用文件 → 导入模型。LM Studio 自动检测架构、聊天模板和参数。
4
配置推理设置
在 LM Studio 的设置面板中调整上下文长度、温度、GPU 层卸载和线程数。LM Studio 根据系统的可用内存和计算提供硬件感知的默认值。
5
聊天和评估
通过 LM Studio 的聊天界面与微调模型开始对话。测试领域特定的提示并将输出与基线进行比较以验证训练质量。
6
启用本地 API 服务器
打开 LM Studio 的本地服务器，在 localhost:1234 暴露兼容 OpenAI 的端点。将应用指向此端点实现完全本地的私密推理。

bash

# After downloading your GGUF model from Ertas Studio,
# copy it to LM Studio's models directory
cp ./my-model-Q4_K_M.gguf ~/.lmstudio/models/my-model/

# LM Studio auto-detects the model on next launch.
# Once loaded, the local API is available at:
curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "my-model",
    "messages": [{"role": "user", "content": "Summarize this report"}]
  }'

将 Ertas 导出的 GGUF 模型复制到 LM Studio 的模型目录中，并通过本地兼容 OpenAI 的 API 进行查询。