Fine-Tune Neural Chat with Ertas

    Intel 基于 Mistral 7B 微调的 70 亿参数对话模型,针对 Intel 硬件优化,展示了出色的聊天性能并特别注重 CPU 推理效率。

    7BIntel

    Overview

    Neural Chat 是由 Intel Labs 开发的对话语言模型,基于 Mistral 7B 微调,专注于在 Intel 硬件上提供高质量的聊天性能和高效推理。Neural Chat 7B v3.3 于 2023 年 11 月发布,发布时曾在 Hugging Face Open LLM 排行榜上占据榜首位置,展示了 Intel 在语言模型开发方面日益增长的专业能力。

    该模型使用 Intel 的 Neural Compressor 和 Intel Extension for PyTorch(IPEX)框架在精心策划的开源对话数据集上微调。训练过程强调指令遵循、有帮助的回复和对话连贯性。Intel 还专门为 Neural Chat 开发了优化的推理内核,可在 Intel Xeon 处理器、Intel Arc GPU 和配备 NPU 的 Intel Core Ultra 处理器上高效执行。

    在架构上,Neural Chat 继承了 Mistral 7B 的特性:滑动窗口注意力、分组查询注意力、32K token 上下文窗口和 32K 词表。模型使用标准的 Mistral 聊天模板进行多轮对话。Intel 提供了针对其硬件优化的量化变体,包括针对 Intel AMX(高级矩阵扩展)指令调优的 INT4 和 INT8 配置。

    Neural Chat 在 Apache 2.0 许可下发布。虽然许多开源模型关注 GPU 推理,但 Neural Chat 对 Intel 硬件的优化使其在部署于 Intel 基础设施的组织中具有独特的相关性,而 Intel 基础设施代表了全球大多数企业服务器硬件。

    Key Features

    Intel 硬件优化是 Neural Chat 的主要差异化优势。Intel 使用 IPEX(Intel Extension for PyTorch)和 OpenVINO 开发了自定义推理内核,利用 Intel 特有的指令集,包括第 4 代和第 5 代 Xeon 处理器上的 AMX(高级矩阵扩展)、VNNI(向量神经网络指令)和 AVX-512。与通用实现相比,这些优化在 Intel 硬件上提供了显著更快的 CPU 推理速度。

    Neural Chat 包含针对 Intel 硬件优化的量化配置。使用 Intel Neural Compressor 的 INT4 量化在质量损失最小的情况下,可在支持 AMX 的 Xeon CPU 上高效执行。这对于 GPU 可用性有限但 Intel Xeon 服务器充足的企业环境特别有价值。

    该模型在同等 7B 参数量级的对话基准测试中表现出色。Intel 的微调过程包括精心的数据集策划,包括拒绝采样——生成多个候选回复并选择最佳的进行训练。这种方法在不需要昂贵的人类偏好标注的情况下提高了回复质量。

    Fine-Tuning with Ertas

    Neural Chat 完全兼容 Ertas Studio 的微调管道,因为它使用标准的 Mistral 7B 架构。QLoRA 微调需要 8-10GB VRAM,可在消费级 GPU 上运行。对于拥有 Intel GPU 硬件(例如 Arc A770 16GB)的组织,Ertas Studio 可以利用 IPEX 进行训练加速。

    对于将在 Intel 硬件基础设施上部署的组织,建议微调 Neural Chat。从 Intel 优化的基础开始,在 Ertas Studio 中用您的领域特定数据微调,然后使用 Intel 优化的推理栈部署。这种端到端的 Intel 优化路径在基于 Xeon 的服务器和 Intel GPU 系统上提供了最佳性能。

    微调完成后,Ertas Studio 导出为 GGUF 格式。对于 Intel 硬件部署,模型也可以导出为 OpenVINO IR 格式以最大化 Intel 硬件利用率。通过 Ollama 和 llama.cpp 的标准 GGUF 部署效果良好,并受益于 Intel CPU 上的 AVX-512 优化,llama.cpp 会自动检测并使用可用的 Intel 指令集。

    Use Cases

    Neural Chat 是拥有大量 Intel 硬件部署的组织在现有基础设施上运行 AI 推理的自然选择。运行 Intel Xeon 服务器的企业数据中心可以在无需购买专用 GPU 硬件的情况下部署 Neural Chat 用于内部聊天机器人、文档处理和员工协助。优化的 CPU 推理路径为交互式应用提供了实用的速度。

    该模型非常适合在基于 Intel 的设备上进行边缘部署:工业 PC、销售点系统、信息亭和运行 Intel 处理器的嵌入式系统。INT4 量化变体在配备 NPU 加速的 Intel Core Ultra 处理器上高效运行,支持客户端应用中的设备端 AI。

    Neural Chat 还可用作评估大语言模型在 CPU 与 GPU 推理上性能特征的有用基准。规划 AI 基础设施的组织可以使用 Neural Chat 来对比 Intel Xeon 吞吐量与基于 GPU 的替代方案,基于实际工作负载性能来指导硬件采购决策。

    Hardware Requirements

    Neural Chat 7B 在 Q4_K_M 下约需 4.4GB 内存,与 Mistral 7B 相同。模型可在任何配备 8GB 以上内存的系统上运行,但 Intel 硬件提供了优化的性能。在配备 AMX 的 Intel Xeon 第 4 代(Sapphire Rapids)上,INT4 量化的 CPU 推理预计每秒 15-25 个 token——显著快于非优化的 CPU 推理。

    在消费级 Intel 硬件上,模型可在配备 NPU 加速的 Intel Core Ultra 处理器和 Intel Arc GPU 上运行(Arc A770 16GB 可提供每秒 20-35 个 token)。标准非 Intel CPU 和 NVIDIA GPU 也可通过 llama.cpp 和 Ollama 使用标准 GGUF 量化良好运行。

    在 Ertas Studio 中微调时,任何支持的 GPU 使用 QLoRA 需要 8-10GB VRAM 即可。Intel Arc A770 16GB 可通过 IPEX 用于微调,但 NVIDIA GPU 仍然是最顺畅的选项。7B 的模型大小确保了无论硬件平台如何都能快速训练。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.