Fine-Tune Neural Chat with Ertas

Modelo conversacional de 7 mil millones de parámetros de Intel, ajustado a partir de Mistral 7B, optimizado para hardware Intel y demostrando fuerte rendimiento en chat con enfoque particular en eficiencia de inferencia en CPU.

7BIntel

Overview

Neural Chat es un modelo de lenguaje conversacional desarrollado por Intel Labs, ajustado a partir de Mistral 7B con enfoque en entregar rendimiento de chat de alta calidad con inferencia eficiente en hardware Intel. Lanzado en noviembre de 2023, Neural Chat 7B v3.3 alcanzó la primera posición en el Open LLM Leaderboard de Hugging Face en el momento de su lanzamiento, demostrando la creciente experiencia de Intel en desarrollo de modelos de lenguaje.

El modelo fue ajustado con una mezcla curada de datasets conversacionales de código abierto usando los frameworks Neural Compressor de Intel e Intel Extension for PyTorch (IPEX). El proceso de entrenamiento enfatizó el seguimiento de instrucciones, respuestas útiles y coherencia conversacional. Intel también desarrolló kernels de inferencia optimizados específicamente para Neural Chat, habilitando ejecución eficiente en procesadores Intel Xeon, GPUs Intel Arc y procesadores Intel Core Ultra con NPUs.

Arquitectónicamente, Neural Chat hereda las características de Mistral 7B: atención de ventana deslizante, atención de consultas agrupadas, ventana de contexto de 32K tokens y vocabulario de 32K. El modelo usa la plantilla de chat estándar de Mistral para conversaciones multi-turno. Intel proporciona variantes cuantizadas optimizadas para su hardware, incluyendo configuraciones INT4 e INT8 ajustadas para instrucciones Intel AMX (Advanced Matrix Extensions).

Neural Chat se publica bajo la licencia Apache 2.0. Mientras muchos modelos de código abierto se enfocan en inferencia GPU, la optimización de Neural Chat para hardware Intel lo hace únicamente relevante para organizaciones que despliegan en infraestructura basada en Intel, que representa la mayoría del hardware de servidores empresariales a nivel mundial.

Key Features

La optimización para hardware Intel es el diferenciador principal de Neural Chat. Intel desarrolló kernels de inferencia personalizados usando IPEX (Intel Extension for PyTorch) y OpenVINO que aprovechan instrucciones específicas de Intel incluyendo AMX (Advanced Matrix Extensions) en procesadores Xeon de 4ta y 5ta generación, VNNI (Vector Neural Network Instructions) y AVX-512. Estas optimizaciones entregan inferencia CPU significativamente más rápida en hardware Intel comparado con implementaciones genéricas.

Neural Chat incluye perfiles de cuantización optimizados para hardware Intel. La cuantización INT4 usando Neural Compressor de Intel logra pérdida mínima de calidad mientras habilita ejecución eficiente en CPUs Xeon con soporte AMX. Esto es particularmente valioso para entornos empresariales donde la disponibilidad de GPU es limitada pero los servidores Intel Xeon son abundantes.

El modelo demuestra fuerte rendimiento en benchmarks conversacionales relativo a su conteo de 7B parámetros. El proceso de fine-tuning de Intel incorporó curación cuidadosa del dataset, incluyendo muestreo por rechazo donde se generaron múltiples respuestas candidatas y se seleccionó la mejor para entrenamiento. Este enfoque mejora la calidad de las respuestas sin requerir costosa anotación de preferencias humanas.

Fine-Tuning with Ertas

Neural Chat es totalmente compatible con el pipeline de fine-tuning de Ertas Studio ya que usa la arquitectura estándar de Mistral 7B. El fine-tuning con QLoRA requiere 8-10GB de VRAM, haciéndolo accesible en GPUs de consumo. Para organizaciones con hardware GPU Intel (Arc A770 de 16GB, por ejemplo), Ertas Studio puede aprovechar IPEX para aceleración del entrenamiento.

El fine-tuning de Neural Chat se recomienda para organizaciones que desplegarán en infraestructura de hardware Intel. Comienza con la base optimizada para Intel de Neural Chat, ajusta con tus datos específicos de dominio en Ertas Studio, y luego despliega usando el stack de inferencia optimizado de Intel. Esta ruta de optimización Intel de extremo a extremo entrega el mejor rendimiento posible en servidores basados en Xeon y sistemas GPU Intel.

Después del fine-tuning, Ertas Studio exporta a formato GGUF. Para despliegue en hardware Intel, el modelo también puede exportarse en formato OpenVINO IR para máxima utilización del hardware Intel. El despliegue estándar en GGUF a través de Ollama y llama.cpp funciona bien y se beneficia de las optimizaciones AVX-512 en CPUs Intel, con llama.cpp detectando y usando automáticamente los conjuntos de instrucciones Intel disponibles.

Use Cases

Neural Chat es la opción natural para organizaciones con despliegues significativos de hardware Intel que buscan ejecutar inferencia de IA en infraestructura existente. Los centros de datos empresariales con servidores Intel Xeon pueden desplegar Neural Chat para chatbots internos, procesamiento de documentos y asistencia a empleados sin comprar hardware GPU dedicado. La ruta de inferencia CPU optimizada entrega velocidades prácticas para aplicaciones interactivas.

El modelo es muy adecuado para despliegue edge en dispositivos basados en Intel: PCs industriales, sistemas de punto de venta, quioscos y sistemas embebidos con procesadores Intel. La variante cuantizada INT4 funciona eficientemente en procesadores Intel Core Ultra con aceleración NPU, habilitando IA en dispositivo en aplicaciones del lado del cliente.

Neural Chat también sirve como una línea base útil para evaluar las características de rendimiento de LLMs en inferencia CPU versus GPU. Las organizaciones que planifican su infraestructura de IA pueden usar Neural Chat para comparar el rendimiento de Intel Xeon contra alternativas basadas en GPU, informando decisiones de compra de hardware basadas en el rendimiento real de la carga de trabajo.

Hardware Requirements

Neural Chat 7B en Q4_K_M requiere aproximadamente 4.4GB de RAM, idéntico a Mistral 7B. El modelo funciona en cualquier sistema con 8GB+ de RAM, pero el hardware Intel proporciona rendimiento optimizado. En Intel Xeon 4ta Gen (Sapphire Rapids) con AMX, se esperan 15-25 tokens por segundo para inferencia CPU con cuantización INT4 — significativamente más rápido que la inferencia CPU no optimizada.

En hardware Intel de consumo, el modelo funciona en procesadores Intel Core Ultra con aceleración NPU y GPUs Intel Arc (Arc A770 de 16GB proporciona 20-35 tokens por segundo). CPUs no Intel estándar y GPUs NVIDIA también funcionan bien a través de llama.cpp y Ollama con cuantización GGUF estándar.

Para fine-tuning en Ertas Studio, 8-10GB de VRAM con QLoRA es suficiente en cualquier GPU soportada. Intel Arc A770 de 16GB puede usarse para fine-tuning vía IPEX, aunque las GPUs NVIDIA siguen siendo la opción más fluida. El tamaño de modelo de 7B asegura entrenamiento rápido independientemente de la plataforma de hardware.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →