Fine-Tune Phi-4 with Ertas

Modelo de lenguaje pequeño de 14 mil millones de parámetros de Microsoft que enfatiza la calidad de razonamiento a través de entrenamiento con datos sintéticos, logrando rendimiento competitivo con modelos varias veces más grandes en benchmarks de matemáticas y lógica.

14BMicrosoft

Overview

Phi-4 es la entrada más reciente de Microsoft en la serie de modelos de lenguaje pequeños Phi, lanzado en diciembre de 2024. Con 14 mil millones de parámetros, Phi-4 fue diseñado específicamente para maximizar la capacidad de razonamiento relativa al tamaño del modelo. Microsoft logró esto a través de una metodología de entrenamiento que enfatiza fuertemente los datos sintéticos — ejemplos de entrenamiento cuidadosamente generados que apuntan a patrones de razonamiento específicos, resolución de problemas matemáticos y deducción lógica.

El modelo demuestra un rendimiento notable en benchmarks para su clase de tamaño. En benchmarks de razonamiento matemático como MATH y GSM8K, Phi-4 compite con modelos de 70B+ parámetros e incluso se acerca a algunos modelos frontera. Esto lo hace particularmente valioso para aplicaciones donde se requiere razonamiento fuerte pero los recursos computacionales son limitados.

Phi-4 usa una arquitectura de transformer densa con 40 capas, una dimensión oculta de 5120 y 40 cabezas de atención. Soporta una ventana de contexto de 16K tokens y usa el tokenizer tiktoken con vocabulario de 100K. La arquitectura incluye características modernas estándar como embeddings posicionales RoPE y atención de consultas agrupadas.

El modelo se publica bajo la licencia MIT, haciéndolo uno de los modelos de alta calidad con licencia más permisiva disponibles. Esto ha fomentado amplia adopción tanto en investigación como en aplicaciones comerciales, particularmente en dominios que requieren razonamiento estructurado.

Key Features

La característica destacada de Phi-4 es su capacidad de razonamiento, lograda a través del innovador pipeline de entrenamiento con datos sintéticos de Microsoft. En lugar de depender únicamente de texto rastreado de la web, los datos de entrenamiento incluyen millones de pares de pregunta-respuesta generados sintéticamente, demostraciones matemáticas paso a paso, puzzles lógicos y trazas de razonamiento de código. Este enfoque de entrenamiento dirigido produce un modelo que razona de manera más confiable que modelos entrenados principalmente en texto natural.

El modelo demuestra un rendimiento particularmente fuerte en tareas estructuradas: resolución de problemas matemáticos, generación de código con restricciones lógicas, razonamiento científico y lógica formal. En el benchmark MATH, Phi-4 logra puntuaciones que rivalizan con GPT-4 Turbo, a pesar de ser aproximadamente 100x más pequeño en conteo de parámetros.

Phi-4 también muestra mejor seguimiento de instrucciones comparado con Phi-3, con mejor adherencia a requisitos de formato de salida, manejo más consistente de instrucciones de múltiples pasos y tendencia reducida a alucinar. La variante ajustada para chat soporta prompts de sistema y conversaciones multi-turno efectivamente.

Fine-Tuning with Ertas

Phi-4 es un excelente candidato para fine-tuning en Ertas Studio, particularmente para aplicaciones que requieren razonamiento específico de dominio. Con 14B parámetros, está en un punto óptimo — lo suficientemente grande para capturar patrones complejos pero lo suficientemente pequeño para entrenamiento eficiente con QLoRA en una sola GPU de 24GB. Con cuantización de 4 bits, el fine-tuning requiere aproximadamente 10-14GB de VRAM, alcanzable en una RTX 4090, RTX 3090 o A5000.

En Ertas Studio, sube tu dataset enfocado en razonamiento (los ejemplos de cadena de pensamiento funcionan particularmente bien con Phi-4), selecciona el modelo y configura los parámetros LoRA. El modelo responde bien a rangos LoRA relativamente bajos (8-32) para tareas de razonamiento, manteniendo los tamaños de adaptador pequeños y el entrenamiento rápido. Una ejecución típica de fine-tuning en 10,000 ejemplos se completa en 1-2 horas en una sola GPU.

Después del entrenamiento, exporta a formato GGUF. El tamaño de 14B de Phi-4 se cuantiza eficientemente — en Q4_K_M, el modelo resultante es de aproximadamente 8.5GB, lo suficientemente pequeño para funcionar en una laptop. Esto hace a Phi-4 ideal para crear modelos de razonamiento especializados que pueden desplegarse en cualquier lugar sin dependencias de la nube.

Use Cases

Phi-4 destaca en aplicaciones que requieren razonamiento estructurado: sistemas de tutoría matemática, herramientas de análisis científico, asistentes de revisión y depuración de código, y sistemas de soporte a decisiones. Su fuerte rendimiento en tareas lógicas lo hace particularmente adecuado para procesamiento basado en reglas, verificación de cumplimiento y extracción de datos estructurados.

El modelo es una excelente opción para aplicaciones de tecnología educativa, donde las explicaciones paso a paso de resolución de problemas son valoradas. Un Phi-4 ajustado puede servir como tutor de matemáticas, explicador de ciencias o instructor de programación, proporcionando trazas de razonamiento detalladas que ayudan a los usuarios a entender el proceso de solución.

Para despliegues empresariales, Phi-4 ofrece una combinación convincente de razonamiento fuerte con requisitos de recursos manejables. Es muy adecuado para pipelines de análisis de documentos que requieren inferencia lógica, generación automatizada de informes con conclusiones basadas en datos, y flujos de trabajo de aseguramiento de calidad que necesitan verificar consistencia lógica.

Hardware Requirements

Phi-4 con cuantización Q4_K_M requiere aproximadamente 8.5GB de RAM, haciéndolo cómodo de ejecutar en sistemas con 16GB de RAM, la mayoría de GPUs modernas con 10GB+ de VRAM y Macs con Apple Silicon con 16GB de memoria unificada. En Q8_0, se esperan aproximadamente 15GB, aún manejable en una GPU de 24GB o sistema de 32GB.

La inferencia completa en FP16 requiere aproximadamente 28GB de VRAM, ajustándose en una sola A6000 de 48GB o A100 de 40GB. La velocidad de inferencia en hardware de consumo es excelente — se esperan 30-50 tokens por segundo en una RTX 4090 con Q4_K_M y 10-20 tokens por segundo en un MacBook M2 Pro con 32GB de RAM.

Para fine-tuning con QLoRA en Ertas Studio, 12-16GB de VRAM es suficiente (RTX 4070 Ti, RTX 4080, RTX 4090). Fine-tuning con LoRA completo requiere aproximadamente 20-24GB de VRAM. El tamaño moderado del modelo permite iteración rápida durante el proceso de fine-tuning.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →