Fine-Tune SmolLM with Ertas

    Familia de modelos de lenguaje ultracompactos de HuggingFace en tamaños de 135M, 360M y 1.7B, entrenados con el dataset sintético de alta calidad Cosmopedia y diseñados para aplicaciones de IA en dispositivo con requisitos mínimos de recursos.

    135M360M1.7BHuggingFace

    Overview

    SmolLM es una familia de modelos de lenguaje compactos desarrollados por HuggingFace, diseñados específicamente para despliegue en dispositivos edge, teléfonos móviles y entornos con recursos limitados. La familia incluye tres tamaños: 135M, 360M y 1.7B parámetros. A pesar de sus diminutas huellas, los modelos SmolLM demuestran rendimiento sorprendentemente capaz, superando a muchos modelos más grandes en métricas de eficiencia por parámetro.

    Los modelos fueron entrenados con una mezcla de datos cuidadosamente curada anclada en Cosmopedia, un masivo dataset sintético de contenido estilo libro de texto generado por modelos más grandes. Este contenido educativo, combinado con datos web filtrados y código, produce modelos con fuerte conocimiento fundamental relativo a su tamaño. SmolLM 2, la generación actual, fue entrenado con aproximadamente 11 billones de tokens para el modelo de 1.7B — una relación datos-parámetros excepcionalmente alta que maximiza la densidad de información de los limitados parámetros del modelo.

    Arquitectónicamente, SmolLM usa un decoder transformer denso estándar reducido a sus tamaños objetivo. El modelo de 135M tiene 12 capas con una dimensión oculta de 576, el de 360M tiene 32 capas con una dimensión oculta de 640, y el de 1.7B tiene 24 capas con una dimensión oculta de 2048. Todos los modelos usan atención de consultas agrupadas y embeddings posicionales RoPE, soportando ventanas de contexto de hasta 8K tokens.

    Los modelos SmolLM se publican bajo la licencia Apache 2.0. HuggingFace proporciona los modelos en múltiples formatos incluyendo ONNX (para despliegue multiplataforma), CoreML (para dispositivos Apple) y safetensors estándar, haciendo de SmolLM una de las familias de modelos más flexibles para despliegue disponibles.

    Key Features

    El dataset de entrenamiento Cosmopedia es un diferenciador clave para SmolLM. Este dataset sintético contiene miles de millones de tokens de contenido educativo de calidad de libro de texto cubriendo ciencias, matemáticas, historia, tecnología y conocimiento general. Al entrenar con contenido educativo curado en lugar de texto web crudo, los modelos SmolLM desarrollan representaciones de conocimiento más estructuradas que modelos de tamaño similar entrenados con datos sin filtrar, llevando a mejor razonamiento y precisión factual.

    La disponibilidad multi-formato del modelo hace a SmolLM excepcionalmente fácil de desplegar en múltiples plataformas. HuggingFace proporciona exportaciones ONNX para despliegue multiplataforma, paquetes CoreML para integración con iOS y macOS, TensorFlow Lite para Android, y compilaciones WebAssembly para despliegue en navegador. Esto significa que un solo modelo SmolLM puede desplegarse en apps de iOS, apps de Android, aplicaciones de escritorio, páginas web y backends de servidor usando optimizaciones nativas de runtime para cada plataforma.

    El modelo de 135M es particularmente notable — con menos de 300MB en FP16, es uno de los modelos de lenguaje coherentes más pequeños disponibles. Puede ejecutarse en dispositivos con tan solo 512MB de RAM libre, abriendo escenarios de despliegue en dispositivos de ultra-bajos recursos, teléfonos básicos y sistemas embebidos profundos. Aunque sus capacidades son limitadas comparadas con modelos de miles de millones de parámetros, maneja tareas enfocadas como clasificación, extracción simple y generación basada en plantillas efectivamente.

    Fine-Tuning with Ertas

    Los modelos SmolLM son los más rápidos y eficientes en recursos para ajustar en Ertas Studio. El modelo de 135M puede ajustarse completamente (no solo LoRA) con tan solo 1-2GB de VRAM — esto funciona en prácticamente cualquier GPU, incluyendo GPUs de laptop antiguas. El modelo de 360M requiere 2-3GB para fine-tuning completo, y el modelo de 1.7B requiere 3-5GB para QLoRA o 6-8GB para fine-tuning completo.

    Los tamaños de modelo pequeños habilitan un flujo de trabajo de fine-tuning único: puedes permitirte probar muchas configuraciones. Ejecuta 10-20 experimentos en una sola tarde, variando composición del dataset, tasas de aprendizaje, duración del entrenamiento y rango LoRA. Esta iteración rápida produce un modelo bien optimizado mucho más rápido de lo que es posible con modelos más grandes donde cada ejecución de entrenamiento toma horas.

    Después del fine-tuning, Ertas Studio exporta a formato GGUF. Los archivos GGUF de SmolLM son diminutos: el de 135M en Q4_K_M es aproximadamente 100MB, el de 360M es aproximadamente 230MB, y el de 1.7B es aproximadamente 1GB. Estos pueden empaquetarse directamente en aplicaciones, distribuirse a través de tiendas de apps o incluirse en imágenes de contenedor con impacto de tamaño despreciable. Despliega a través de Ollama para acceso API local o integra directamente vía la interfaz de biblioteca de llama.cpp.

    Use Cases

    Los modelos SmolLM están diseñados para IA en dispositivo donde el modelo debe distribuirse como parte de la aplicación. Apps móviles que necesitan procesamiento de texto sin conexión, extensiones de navegador con características de IA integradas, aplicaciones de escritorio con asistentes integrados y dispositivos IoT con inteligencia local todos se benefician de la mínima huella de SmolLM. Los archivos del modelo son lo suficientemente pequeños para descargarse por conexiones celulares y almacenarse en dispositivos móviles sin impacto significativo de almacenamiento.

    Las tareas de NLP enfocadas son el punto fuerte de SmolLM: clasificación de texto, análisis de sentimiento, extracción de entidades, detección de idioma, resumen simple y generación basada en plantillas. Ajustados con datos específicos de tarea, los modelos SmolLM pueden igualar la precisión de modelos mucho más grandes en tareas específicas mientras funcionan órdenes de magnitud más rápido y más barato. Muchos sistemas en producción usan SmolLM para tareas de clasificación y enrutamiento de alto rendimiento.

    SmolLM también es valioso para aplicaciones sensibles a la privacidad donde los datos no pueden salir del dispositivo. El análisis de texto en dispositivo para apps de salud, apps financieras y apps de mensajería puede usar SmolLM para procesar información sensible localmente sin ninguna comunicación de red. El pequeño tamaño del modelo significa que puede ejecutarse como un servicio en segundo plano sin impactar la experiencia del usuario.

    Hardware Requirements

    SmolLM 135M en Q4_K_M requiere aproximadamente 100MB de RAM — ejecutable en prácticamente cualquier dispositivo de computación fabricado en la última década. El modelo de 360M necesita aproximadamente 230MB, y el de 1.7B necesita aproximadamente 1GB. Incluso en FP16, los requisitos son mínimos: 270MB (135M), 720MB (360M) y 3.4GB (1.7B). Estos están entre los requisitos más bajos absolutos para cualquier modelo de lenguaje capaz de generación coherente.

    La velocidad de inferencia es excepcionalmente rápida. El modelo de 135M en un CPU moderno genera más de 100 tokens por segundo. El modelo de 1.7B en una RTX 4090 genera más de 100 tokens por segundo en Q4_K_M, y 30-50 tokens por segundo en CPU. En dispositivos móviles, los modelos de 135M y 360M proporcionan inferencia en tiempo real con latencias inferiores a 50ms por token.

    Para fine-tuning en Ertas Studio, el de 135M necesita 1-2GB de VRAM (fine-tuning completo), el de 360M necesita 2-3GB, y el de 1.7B necesita 3-5GB con QLoRA o 6-8GB para fine-tuning completo. Las ejecuciones de entrenamiento completas terminan en minutos para los modelos más pequeños, habilitando iteración extremadamente rápida.

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.