Fine-Tune Neural Chat with Ertas
Intel 基於 Mistral 7B 微調的 70 億參數對話模型,針對 Intel 硬體最佳化,展現強大的聊天效能,特別注重 CPU 推論效率。
Overview
Neural Chat 是 Intel Labs 開發的對話式語言模型,基於 Mistral 7B 微調,專注於在 Intel 硬體上提供高品質的聊天效能和高效推論。Neural Chat 7B v3.3 於 2023 年 11 月發布,在發布時登上了 Hugging Face Open LLM 排行榜榜首,展示了 Intel 在語言模型開發方面日益增長的專業能力。
模型使用 Intel 的 Neural Compressor 和 Intel Extension for PyTorch(IPEX)框架在精心策劃的開源對話資料集混合上進行微調。訓練過程強調指令跟隨、有幫助的回應和對話連貫性。Intel 還專門為 Neural Chat 開發了最佳化的推論核心,使其能在 Intel Xeon 處理器、Intel Arc GPU 和搭載 NPU 的 Intel Core Ultra 處理器上高效執行。
在架構方面,Neural Chat 繼承了 Mistral 7B 的特性:滑動視窗注意力、分組查詢注意力、32K token 上下文視窗和 32K 詞彙量。模型使用標準的 Mistral 聊天範本進行多輪對話。Intel 提供了針對其硬體最佳化的量化變體,包括為 Intel AMX(Advanced Matrix Extensions)指令調校的 INT4 和 INT8 配置。
Neural Chat 以 Apache 2.0 授權發布。雖然許多開源模型專注於 GPU 推論,但 Neural Chat 對 Intel 硬體的最佳化使其對在 Intel 基礎設施上部署的組織特別相關,而 Intel 基礎設施代表了全球大多數企業伺服器硬體。
Key Features
Intel 硬體最佳化是 Neural Chat 的主要差異化特色。Intel 使用 IPEX(Intel Extension for PyTorch)和 OpenVINO 開發了自訂推論核心,利用 Intel 特有的指令,包括第四代和第五代 Xeon 處理器上的 AMX(Advanced Matrix Extensions)、VNNI(Vector Neural Network Instructions)和 AVX-512。與通用實作相比,這些最佳化在 Intel 硬體上提供了顯著更快的 CPU 推論速度。
Neural Chat 包含針對 Intel 硬體 最佳化的量化配置檔。使用 Intel Neural Compressor 的 INT4 量化在品質損失最小的情況下實現了在支援 AMX 的 Xeon CPU 上的高效執行。這對 GPU 可用性有限但 Intel Xeon 伺服器豐富的企業環境特別有價值。
模型在其 7B 參數量下展現了強大的對話基準效能。Intel 的微調過程包含了仔細的資料集策劃,包括拒絕抽樣,其中生成多個候選回應並選擇最佳的進行訓練。這種方法在不需要昂貴的人類偏好標註的情況下提高了回應品質。
Fine-Tuning with Ertas
Neural Chat 與 Ertas Studio 的微調管線完全相容,因為它使用標準的 Mistral 7B 架構。QLoRA 微調需要 8-10GB VRAM,可在消費級 GPU 上執行。對於擁有 Intel GPU 硬體的組織(例如 Arc A770 16GB),Ertas Studio 可以利用 IPEX 進行訓練加速。
對於將在 Intel 硬體基礎設施上部署的組織,建議微調 Neural Chat。從 Intel 最佳化的基礎開始,在 Ertas Studio 中對特定領域的資料進行微調,然後使用 Intel 最佳化的推論堆疊部署。這種端到端的 Intel 最佳化路徑在基於 Xeon 的伺服器和 Intel GPU 系統上提供最佳效能。
微調後,Ertas Studio 匯出為 GGUF 格式。對於 Intel 硬體部署,模型也可以匯出為 OpenVINO IR 格式以最大化 Intel 硬體利用率。透過 Ollama 和 llama.cpp 的標準 GGUF 部署運作良好,並受益於 Intel CPU 上的 AVX-512 最佳化,llama.cpp 會自動偵測和使用可用的 Intel 指令集。
Use Cases
Neural Chat 是擁有大量 Intel 硬體部署、希望在現有基礎設施上執行 AI 推論的組織的自然選擇。執行 Intel Xeon 伺服器的企業資料中心可以部署 Neural Chat 用於內部聊天機器人、文件處理和員工協助,而無需購買專用 GPU 硬體。最佳化的 CPU 推論路徑為互動式應用提供實用的速度。
模型非常適合在基於 Intel 的裝置上進行邊緣部署:工業 PC、銷售點系統、自助服務機和執行 Intel 處理器的嵌入式系統。INT4 量化變體在搭載 NPU 加速的 Intel Core Ultra 處理器上高效執行,使客戶端應用實現裝置端 AI。
Neural Chat 也作為評估 LLM 在 CPU 與 GPU 推論效能特性的有用基準。規劃 AI 基礎設施的組織可以使用 Neural Chat 來衡量 Intel Xeon 吞吐量與 GPU 替代方案的比較,基於實際工作負載效能來指導硬體採購決策。
Hardware Requirements
Neural Chat 7B 在 Q4_K_M 下需要約 4.4GB RAM,與 Mistral 7B 相同。模型可在任何配備 8GB 以上 RAM 的系統上執行,但 Intel 硬體提供最佳化效能。在支援 AMX 的 Intel Xeon 第四代(Sapphire Rapids)上,使用 INT4 量化的 CPU 推論預計每秒 15-25 個 token——比非最佳化的 CPU 推論快得多。
在消費級 Intel 硬體上,模型可在搭載 NPU 加速的 Intel Core Ultra 處理器和 Intel Arc GPU 上執行(Arc A770 16GB 提供每秒 20-35 個 token)。標準的非 Intel CPU 和 NVIDIA GPU 透過 llama.cpp 和 Ollama 搭配標準 GGUF 量化也能良好執行。
在 Ertas Studio 中進行微調,任何支援的 GPU 上使用 QLoRA 8-10GB VRAM 即足夠。Intel Arc A770 16GB 可透過 IPEX 用 於微調,但 NVIDIA GPU 仍然是最簡化的選項。7B 模型的大小確保了無論硬體平台如何,訓練都很快速。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.