Fine-Tune Phi-3 with Ertas

Familia de modelos de lenguaje compactos pero capaces de Microsoft, disponible en tamaños de 3.8B, 7B y 14B, diseñados para despliegue en dispositivo y edge con rendimiento sorprendentemente fuerte en tareas de razonamiento y seguimiento de instrucciones.

3.8B7B14BMicrosoft

Overview

Phi-3 es la tercera generación de la familia de modelos de lenguaje pequeños de Microsoft, lanzada en abril de 2024. La línea incluye Phi-3 Mini (3.8B), Phi-3 Small (7B) y Phi-3 Medium (14B). La serie Phi fue pionera en el concepto de que datos de entrenamiento cuidadosamente curados pueden compensar tamaños de modelo más pequeños, y Phi-3 lleva esta filosofía más lejos con una mezcla de entrenamiento que combina datos web filtrados con extensos datasets sintéticos generados por modelos más grandes.

Phi-3 Mini, el buque insignia de la familia con solo 3.8B parámetros, entrega rendimiento comparable a modelos como Mixtral 8x7B y GPT-3.5 en muchos benchmarks, a pesar de ser más de 10x más pequeño. Esto lo convierte en uno de los modelos más eficientes jamás publicados en términos de calidad por parámetro. El modelo soporta una ventana de contexto de 128K tokens a través de la extensión LongRoPE, habilitando procesamiento de documentos largos incluso en dispositivos con cómputo limitado.

Phi-3 Small (7B) y Phi-3 Medium (14B) mejoran aún más la calidad mientras permanecen eficientes. Phi-3 Small usa un novedoso mecanismo de atención block-sparse que reduce el uso de memoria durante inferencia de contexto largo. Phi-3 Medium se aproxima a la calidad de Llama 3 8B y Mistral 7B mientras ofrece rendimiento competitivo a costos de inferencia similares.

Todos los modelos Phi-3 se publican bajo la licencia MIT y están disponibles tanto en variantes base como ajustadas con instrucciones. Microsoft también proporciona versiones optimizadas con ONNX para despliegue en dispositivos móviles y navegadores, y ha demostrado Phi-3 Mini ejecutándose eficientemente en smartphones y dispositivos Raspberry Pi.

Key Features

La característica más distintiva de la familia Phi-3 es su metodología de datos de entrenamiento. Microsoft emplea un pipeline de entrenamiento multietapa que comienza con datos web filtrados a través de un clasificador entrenado para identificar contenido educativo y de alta calidad, luego lo aumenta con millones de pasajes estilo libro de texto generados sintéticamente, cadenas de razonamiento y ejemplos de código. Este enfoque en la calidad de los datos permite a los modelos pequeños aprender más efectivamente de cada token de entrenamiento.

Phi-3 Mini soporta ventanas de contexto de hasta 128K tokens a través de LongRoPE, una extensión de codificación posicional que habilita procesamiento eficiente de secuencias largas sin degradación significativa de calidad. Esto es notable para un modelo de 3.8B y habilita casos de uso típicamente reservados para modelos mucho más grandes, como analizar documentos completos o mantener historiales de conversación muy largos.

Todos los modelos de la familia soportan despliegue con ONNX Runtime, habilitando inferencia acelerada por hardware en una amplia gama de dispositivos incluyendo teléfonos móviles (vía ONNX Runtime Mobile), navegadores web (vía WebAssembly/WebGPU) y dispositivos edge. Esto hace a Phi-3 únicamente adecuado para aplicaciones de IA en dispositivo donde la conectividad a la nube es poco confiable o los requisitos de privacidad de datos prohíben el procesamiento en la nube.

Fine-Tuning with Ertas

Los modelos Phi-3 están entre los más accesibles para fine-tuning en Ertas Studio debido a sus tamaños pequeños. Phi-3 Mini (3.8B) puede ajustarse con QLoRA usando tan solo 4-6GB de VRAM — esto funciona en prácticamente cualquier GPU moderna, incluyendo la RTX 3060 de 6GB, GTX 1660 Ti de 6GB, o incluso sistemas de GPU integrada con suficiente memoria compartida. El entrenamiento es rápido, con ejecuciones típicas completándose en menos de una hora para datasets de 10,000 ejemplos.

Phi-3 Medium (14B) requiere aproximadamente 10-14GB de VRAM para entrenamiento con QLoRA, bien dentro de la capacidad de GPUs de consumo como la RTX 4070 de 12GB o RTX 4080 de 16GB. Las variantes ajustadas con instrucciones responden bien a la adaptación de dominio, haciéndolas excelentes puntos de partida para asistentes especializados.

El pipeline de exportación de Ertas Studio genera archivos GGUF que pueden desplegarse a través de Ollama o llama.cpp. Los tamaños de modelo pequeños significan que los archivos GGUF resultantes son altamente portátiles — un Phi-3 Mini cuantizado en Q4_K_M es de solo unos 2.3GB, lo suficientemente pequeño para distribuir como parte de una aplicación de escritorio o integrar en un pipeline de computación edge. Esto hace a Phi-3 ideal para crear modelos personalizados y especializados que funcionen completamente sin conexión.

Use Cases

Phi-3 Mini es la opción principal para aplicaciones de IA en dispositivo. Su tamaño de 3.8B parámetros habilita despliegue en smartphones, tablets, sistemas embebidos y dispositivos IoT donde modelos más grandes simplemente no caben. Los casos de uso incluyen asistentes conversacionales sin conexión, resumen de documentos en dispositivo, análisis de texto con preservación de privacidad y procesamiento de lenguaje en tiempo real en entornos sin conectividad a internet.

La familia de modelos destaca en tareas estructuradas en configuraciones con recursos limitados: procesamiento de formularios, extracción de datos, clasificación y generación de código simple. Para aplicaciones como automatización de soporte al cliente, respuesta a preguntas frecuentes y moderación de contenido, los modelos Phi-3 ajustados ofrecen una relación costo-calidad sobresaliente.

Phi-3 también es valioso como componente en sistemas más grandes. Puede servir como modelo de borrador rápido en pipelines de decodificación especulativa, un clasificador o enrutador ligero que dirige consultas a modelos especializados apropiados, o un paso de preprocesamiento que extrae información estructurada antes de pasar a modelos más capaces para razonamiento complejo.

Hardware Requirements

Phi-3 Mini (3.8B) con cuantización Q4_K_M requiere aproximadamente 2.3GB de RAM. Es lo suficientemente pequeño para funcionar en prácticamente cualquier dispositivo moderno: smartphones con 4GB+ de RAM, Raspberry Pi 5 (8GB), laptops antiguas e incluso algunos despliegues basados en navegador vía WebAssembly. En Q8_0, el requisito es aproximadamente 4.1GB, aún notablemente portátil.

Phi-3 Small (7B) en Q4_K_M necesita aproximadamente 4.3GB, y Phi-3 Medium (14B) requiere aproximadamente 8.4GB — ambos cómodos en hardware de consumo con 16GB de RAM o GPUs con 8GB+ de VRAM. La inferencia completa en FP16 para Medium requiere aproximadamente 28GB de VRAM.

Para fine-tuning en Ertas Studio, Phi-3 Mini requiere solo 4-6GB de VRAM con QLoRA, Phi-3 Small necesita 6-10GB, y Phi-3 Medium requiere 10-14GB. Estos bajos requisitos hacen que toda la familia Phi-3 sea accesible para desarrolladores individuales y equipos pequeños sin hardware especializado.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →