Fine-Tune SOLAR with Ertas

Modelo de 10.7 mil millones de parámetros de Upstage creado mediante escalado en profundidad (depth up-scaling), una técnica novedosa que fusiona y extiende las capas de un modelo preentrenado para lograr calidad de modelo grande a un costo de inferencia eficiente.

10.7BUpstage

Overview

SOLAR 10.7B es un modelo de lenguaje desarrollado por Upstage, una empresa surcoreana de IA. Lanzado en diciembre de 2023, SOLAR introdujo una técnica innovadora de creación de modelos llamada depth up-scaling (DUS), que produce un modelo más grande y más capaz al duplicar y fusionar inteligentemente capas de un modelo preentrenado más pequeño. Partiendo de una arquitectura basada en Llama 2, Upstage usó DUS para crear un modelo de 10.7B parámetros que superó a muchos modelos existentes de 13B y compitió con algunos modelos de 30B+ en benchmarks clave.

El enfoque de depth up-scaling funciona tomando un modelo preentrenado, duplicando un subconjunto de sus capas, y luego realizando preentrenamiento continuado en el modelo expandido. Esto permite al nuevo modelo heredar el conocimiento de los pesos preentrenados originales mientras gana capacidad adicional de las capas extra. El resultado es un modelo que entrena más rápido y logra mayor calidad que entrenar un modelo de 10.7B desde cero.

SOLAR 10.7B usa una arquitectura de transformer densa con 48 capas, una dimensión oculta de 4096 y 32 cabezas de atención. Soporta atención de consultas agrupadas para inferencia eficiente y usa una ventana de contexto de 4K tokens, extensible a través de escalado RoPE. El modelo usa el tokenizer de Llama con vocabulario de 32K.

La variante ajustada con instrucciones (SOLAR 10.7B Instruct) fue entrenada usando una combinación de SFT y DPO, demostrando fuerte seguimiento de instrucciones, capacidad conversacional y habilidades de razonamiento. SOLAR se publica bajo la licencia Apache 2.0 para uso comercial completo.

Key Features

El depth up-scaling (DUS) es la contribución pionera de SOLAR a la comunidad de desarrollo de modelos. La técnica demuestra que nuevos modelos más grandes pueden crearse eficientemente a partir de modelos preentrenados existentes al duplicar capas y continuar el entrenamiento, en lugar de entrenar desde cero. Este enfoque reduce significativamente el costo computacional y el tiempo requerido para producir un modelo capaz en un tamaño objetivo, y la técnica ha influenciado otras estrategias de escalado de modelos desde entonces.

SOLAR 10.7B ocupa un nicho interesante en el panorama de tamaños de modelo — se sitúa entre los populares niveles de 7B y 13B. Este tamaño de 10.7B proporciona una mejora de calidad significativa sobre modelos de 7B mientras permanece más eficiente que modelos de 13B en términos de memoria y velocidad de inferencia. Para aplicaciones donde la calidad de 7B es insuficiente pero los recursos de 13B son excesivos, SOLAR ofrece un atractivo punto intermedio.

La variante de instrucciones entrenada con DPO demuestra rendimiento particularmente fuerte en tareas de idioma coreano además de inglés, reflejando el enfoque de Upstage en el mercado coreano. Esto hace de SOLAR una opción notable para aplicaciones bilingües coreano-inglés, aunque es fundamentalmente un modelo de propósito general con amplio soporte de idiomas.

Fine-Tuning with Ertas

SOLAR 10.7B es un modelo conveniente para ajustar en Ertas Studio debido a su tamaño moderado. El fine-tuning con QLoRA requiere aproximadamente 8-12GB de VRAM, bien dentro de la capacidad de GPUs de consumo como la RTX 4070 Ti de 12GB, RTX 4080 de 16GB o RTX 4090 de 24GB. La arquitectura con depth up-scaling del modelo significa que tiene más capas que un modelo típico de 10B (48 vs. las usuales 32), proporcionando más puntos potenciales de inserción LoRA para adaptación de grano fino.

En Ertas Studio, selecciona SOLAR 10.7B como tu modelo base, sube tu dataset en formato JSONL o CSV y configura tus parámetros LoRA. El modelo responde bien a rangos LoRA de 16-64 y tasas de aprendizaje alrededor de 1e-4 a 3e-4. El entrenamiento con 10,000 ejemplos típicamente se completa en 1-3 horas en una sola GPU, haciéndolo práctico para desarrollo iterativo.

Después del fine-tuning, Ertas Studio exporta a formato GGUF. El modelo de 10.7B en Q4_K_M produce un archivo de aproximadamente 6.5GB — muy manejable para despliegue local. Despliega a través de Ollama, llama.cpp o LM Studio para uso inmediato. El tamaño ligeramente superior a 7B significa que los modelos SOLAR ajustados ofrecen calidad notablemente mejor que alternativas de 7B mientras permanecen altamente portátiles.

Use Cases

SOLAR 10.7B está bien posicionado para aplicaciones donde los modelos de 7B se quedan ligeramente cortos pero los modelos de 13B+ son demasiado intensivos en recursos. IA conversacional, generación de contenido, automatización de soporte al cliente y resumen de documentos todos se benefician del aumento de calidad que los parámetros adicionales de SOLAR proporcionan. El modelo es particularmente efectivo para aplicaciones de idioma coreano, haciéndolo una fuerte opción para negocios que operan en Corea del Sur.

Las fuertes capacidades de seguimiento de instrucciones del modelo lo hacen adecuado para generación de salida estructurada: extracción de JSON, llenado de formularios, clasificación de datos y creación de contenido basada en plantillas. Los modelos SOLAR ajustados pueden servir como motores confiables de procesamiento de datos en flujos de trabajo automatizados.

SOLAR también es valioso para contextos educativos y de investigación que exploran el escalado de modelos. La técnica de depth up-scaling abre posibilidades para crear tamaños de modelo personalizados optimizados para restricciones de despliegue específicas. Los investigadores pueden estudiar los efectos de la duplicación de capas y el entrenamiento continuado en el comportamiento del modelo, retención de conocimiento y escalado de capacidades.

Hardware Requirements

SOLAR 10.7B con cuantización Q4_K_M requiere aproximadamente 6.5GB de RAM, cómodo en la mayoría de sistemas con 8-16GB de RAM y GPUs con 8GB+ de VRAM. En Q8_0, el requisito es aproximadamente 11.5GB, ajustándose en GPUs de 16GB y sistemas con 16GB+ de RAM. La inferencia completa en FP16 requiere aproximadamente 21.5GB de VRAM, alcanzable en RTX 4090 de 24GB o A5000 de 24GB.

La velocidad de inferencia en hardware de consumo es excelente. En una RTX 4090 con cuantización Q4_K_M, se esperan 45-60 tokens por segundo para generación. En Apple M2 Pro con 16GB de memoria unificada, se esperan 12-18 tokens por segundo. La inferencia CPU en hardware moderno con Q4_K_M típicamente produce 5-10 tokens por segundo.

Para fine-tuning con QLoRA en Ertas Studio, se recomiendan 8-12GB de VRAM. LoRA completo (sin cuantización) requiere aproximadamente 16-18GB de VRAM. El tamaño moderado del modelo permite tamaños de lote razonables incluso en GPUs de consumo, habilitando entrenamiento eficiente.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →