OpenVINO + Ertas

使用 OpenVINO 的推理优化工具包在 Intel CPU、GPU 和 NPU 上部署 Ertas 微调的模型，无需 NVIDIA 硬件即可实现高效的本地推理。

Overview

OpenVINO 是 Intel 的开源工具包，用于在 Intel 硬件上优化和部署深度学习模型——从 Xeon 服务器 CPU 和 Arc GPU 到嵌入 Core Ultra 笔记本电脑的神经处理单元 (NPU)。对于大语言模型，OpenVINO 应用权重压缩、内核优化和硬件特定编译，在 Intel 硅片上提供有竞争力的推理性能。这很重要，因为 Intel 硬件无处不在：大多数企业服务器、开发者工作站和笔记本电脑运行 Intel 处理器，但 LLM 部署的讨论一直被 NVIDIA GPU 主导。

OpenVINO 的 LLM 支持包括 INT4 和 INT8 权重压缩、推测解码、连续批处理以及与 Hugging Face 的 Optimum 库的集成，以简化模型转换。该工具包还通过其 Model Server 组件提供兼容 OpenAI 的服务层，使部署的模型可被标准客户端应用访问。对于拥有现有 Intel 基础设施的组织——或希望避免 GPU 采购瓶颈和成本的组织——OpenVINO 提供了一条使用数据中心和员工桌面上已有硬件进行本地 LLM 推理的实用路径。

How Ertas Integrates

Ertas Studio 处理模型定制步骤，在领域特定数据上微调基础模型，为您的用例创建专业模型。然后 OpenVINO 处理部署优化步骤，将微调模型转换为在现有硬件上高效运行的 Intel 优化格式。这种配对对于拥有 Intel 服务器集群并希望无需采购稀缺 GPU 容量即可部署自定义 AI 模型的企业特别有价值。

工作流自然衔接：在 Ertas Studio 中微调，以 Hugging Face 格式导出模型，并使用 OpenVINO 的转换工具（或 Hugging Face Optimum Intel）为目标 Intel 硬件编译。应用 INT4 权重压缩以在可用内存中容纳更大的模型，并通过 OpenVINO Model Server 部署兼容 OpenAI 的端点。您的应用连接到此端点就像连接任何云 AI API 一样——但模型是在您的数据上微调的，运行在您的 Intel 硬件上，具有可预测的成本和完整的数据控制。

Getting Started

1
在 Ertas Studio 中微调模型
准备领域特定数据集并在 Ertas Studio 中训练微调模型。选择参数数量适合您 Intel 硬件的基础模型——7B 到 13B 的模型在具有足够 RAM 的现代 Xeon 服务器上运行良好。
2
导出并转换为 OpenVINO 格式
从 Ertas 以 Hugging Face safetensors 格式导出微调模型。使用 Optimum Intel 或 OpenVINO 的模型转换器将其编译为 OpenVINO 的中间表示 (IR)，应用 INT4 或 INT8 权重压缩。
3
在目标硬件上基准测试
运行 OpenVINO 的基准测试工具，在您的特定 Intel 硬件上测量推理吞吐量和延迟。使用来自您用例的代表性提示进行测试，以验证压缩后的性能和输出质量。
4
使用 OpenVINO Model Server 部署
将优化的模型加载到 OpenVINO Model Server 中，它提供兼容 OpenAI API 格式的 REST 和 gRPC 端点。为您的服务环境配置上下文长度、批处理参数和资源分配。
5
集成并迭代
将应用连接到 OpenVINO Model Server 端点。在生产环境中监控输出质量和性能。当需要扩展模型的领域知识或修正反复出现的问题时，在 Ertas 中微调改进版本。