ExLlamaV2 + Ertas

使用 ExLlamaV2 高度优化的量化推理引擎部署 Ertas 微调的模型，在消费级和数据中心 NVIDIA GPU 上都能实现卓越的生成速度和内存效率。

Overview

ExLlamaV2 是一个高性能推理库，专注于在 NVIDIA GPU 上从量化语言模型中提取最大速度。它实现了专门针对量化矩阵乘法优化的自定义 CUDA 内核，在独立基准测试中始终名列最快。ExLlamaV2 支持 GPTQ、EXL2 和其他量化格式，其中 EXL2 提供特别精细的逐层量化级别控制，以平衡质量和内存使用。

ExLlamaV2 的独特之处在于其对单 GPU 和双 GPU 配置的实际效率关注。虽然其他推理引擎针对大规模多 GPU 集群，ExLlamaV2 擅长让大模型在大多数开发者实际拥有的硬件上快速运行——单张 RTX 4090、二手 3090 或一对消费级 GPU。其分页注意力实现、推测解码支持和缓存量化使其能够服务于本来需要更昂贵硬件的模型。对于在本地部署微调模型的开发者和小型团队，ExLlamaV2 无需生产级基础设施即可提供生产级速度。

How Ertas Integrates

Ertas Studio 生产的微调模型可以量化为 ExLlamaV2 的 EXL2 格式以优化部署。在 Ertas 中完成微调作业后——使用 LoRA 在您的领域特定数据上训练并合并适配器——您导出完整模型并通过 ExLlamaV2 的量化管道运行。EXL2 格式允许您设定特定的每权重比特率（通常为 3.0 到 6.0 bpp），精确控制模型质量和 GPU 内存需求之间的权衡。

量化完成后，模型通过 ExLlamaV2 的推理服务器运行，该服务器暴露兼容 OpenAI 的 API 端点，可与任何客户端应用集成。这种组合对于在消费级硬件上部署领域特定模型特别有效：Ertas 通过微调处理知识注入，ExLlamaV2 通过量化和自定义内核处理性能优化。在单张 RTX 4090 上，针对您的用例微调的 13B 参数模型可以以每秒 80+ token 的速度服务请求——对于交互式应用和并发用户来说足够快。

Getting Started

1
在 Ertas Studio 中微调并导出
在 Ertas Studio 中使用 LoRA 微调训练您的领域特定模型。对质量满意后，将 LoRA 适配器合并到基础模型中，并以 safetensors 格式导出完整的合并模型。
2
量化为 EXL2 格式
使用 ExLlamaV2 的转换工具将合并模型量化为 EXL2 格式。选择平衡质量和内存的每权重比特率目标——4.0 bpp 是消费级 GPU 的常见最佳选择，而 5.0-6.0 bpp 为更大显存预算保留更多质量。
3
基准测试推理性能
运行 ExLlamaV2 的内置基准测试，在您的目标 GPU 上测量生成速度、提示处理吞吐量和内存使用。验证性能是否满足交互使用的延迟要求。
4
启动推理服务器
启动 ExLlamaV2 的 TabbyAPI 或兼容服务器，将量化模型暴露为兼容 OpenAI 的端点。配置上下文长度、并发请求处理，以及如果使用草稿模型则配置推测解码。
5
连接客户端应用
将您的编码助手、聊天界面或自定义应用指向 ExLlamaV2 端点。在实际使用中监控生成质量，如果模型在特定任务上需要改进则在 Ertas 中重新微调。