OpenVINO + Ertas

使用 OpenVINO 的推理最佳化工具包在 Intel CPU、GPU 和 NPU 上部署 Ertas 微調的模型，無需 NVIDIA 硬體即可實現高效的本地推理。

Overview

OpenVINO 是 Intel 的開源工具包，用於在 Intel 硬體上最佳化和部署深度學習模型——從 Xeon 伺服器 CPU 和 Arc GPU 到嵌入在 Core Ultra 筆記型電腦中的神經處理單元 (NPU)。對於大型語言模型，OpenVINO 應用權重壓縮、核心最佳化和硬體特定編譯以在 Intel 晶片上提供有競爭力的推理效能。這很重要，因為 Intel 硬體無處不在：大多數企業伺服器、開發者工作站和筆記型電腦運行 Intel 處理器，然而 LLM 部署的討論一直以 NVIDIA GPU 為主。

OpenVINO 的 LLM 支援包括 INT4 和 INT8 權重壓縮、推測解碼、連續批次處理，以及與 Hugging Face 的 Optimum 函式庫的整合以實現簡化的模型轉換。該工具包還透過其 Model Server 元件提供 OpenAI 相容的服務層，使部署的模型可以被標準客戶端應用程式存取。對於擁有現有 Intel 基礎設施的組織——或希望避免 GPU 採購瓶頸和成本的組織——OpenVINO 提供了一條使用資料中心和員工桌面上已有硬體進行本地 LLM 推理的實際路徑。

How Ertas Integrates

Ertas Studio 處理模型自訂步驟，在您的領域特定資料上微調基礎模型以建立適用於您使用場景的專家模型。然後 OpenVINO 處理部署最佳化步驟，將微調模型轉換為在現有硬體上高效運行的 Intel 最佳化格式。這種搭配對擁有 Intel 伺服器群且希望在不採購稀缺 GPU 容量的情況下部署自訂 AI 模型的企業特別有價值。

工作流程自然連接：在 Ertas Studio 中微調，以 Hugging Face 格式匯出模型，並使用 OpenVINO 的轉換工具（或 Hugging Face Optimum Intel）為目標 Intel 硬體編譯。應用 INT4 權重壓縮以在可用記憶體中容納更大的模型，並透過 OpenVINO Model Server 以 OpenAI 相容端點部署。您的應用程式連接到此端點就像連接任何雲端 AI API 一樣——但模型是在您的資料上微調的，在您的 Intel 硬體上運行，具有可預測的成本和完整的資料控制。

Getting Started

1
在 Ertas Studio 中微調模型
準備領域特定資料集並在 Ertas Studio 中訓練微調模型。選擇適合 Intel 硬體的參數數量的基礎模型——7B 到 13B 模型在具有充足 RAM 的現代 Xeon 伺服器上效果良好。
2
匯出並轉換為 OpenVINO 格式
從 Ertas 以 Hugging Face safetensors 格式匯出微調模型。使用 Optimum Intel 或 OpenVINO 的模型轉換器將其編譯為 OpenVINO 的中間表示 (IR)，並應用 INT4 或 INT8 權重壓縮。
3
在目標硬體上進行基準測試
運行 OpenVINO 的基準工具在您特定的 Intel 硬體上測量推理吞吐量和延遲。使用您使用場景的代表性提示進行測試，以驗證壓縮後的效能和輸出品質。
4
使用 OpenVINO Model Server 部署
將最佳化的模型載入 OpenVINO Model Server，它提供與 OpenAI API 格式相容的 REST 和 gRPC 端點。為您的服務環境設定上下文長度、批次參數和資源分配。
5
整合和迭代
將您的應用程式連接到 OpenVINO Model Server 端點。在生產中監控輸出品質和效能。當需要擴展模型的領域知識或修正反覆出現的問題時，在 Ertas 中微調改善版本。