Fine-Tune StarCoder with Ertas

Un modelo de generación de código de acceso abierto entrenado con código fuente bajo licencias permisivas, disponible en tamaños de 3B, 7B y 15B con gobernanza transparente de datos de entrenamiento y fuerte soporte de programación multi-lenguaje.

3B7B15BBigCode / HuggingFace

Overview

StarCoder es una familia de modelos de lenguaje enfocados en código desarrollados por BigCode, una colaboración entre Hugging Face y ServiceNow Research. El proyecto se distingue por su compromiso con el desarrollo de IA responsable y transparente — los datos de entrenamiento consisten exclusivamente en código con licencias permisivas del dataset The Stack v2, con prácticas claras de gobernanza de datos incluyendo un mecanismo de exclusión para autores de código.

La serie StarCoder 2 (la generación actual) incluye tres tamaños: 3B, 7B y 15B parámetros. El modelo de 15B fue entrenado con aproximadamente 4 billones de tokens de más de 600 lenguajes de programación, haciéndolo uno de los modelos de código lingüísticamente más diversos disponibles. A pesar de su tamaño moderado, StarCoder 2 15B logra rendimiento competitivo con modelos más grandes en benchmarks de generación de código como HumanEval y MBPP.

Arquitectónicamente, StarCoder usa un transformer decoder-only con atención multi-query (MQA) en la variante de 15B y atención de consultas agrupadas (GQA) en las variantes de 3B y 7B. Todos los modelos soportan fill-in-the-middle (FIM) para tareas de completado de código y tienen una ventana de contexto de 8K tokens (extensible mediante fine-tuning). Los modelos usan un tokenizer personalizado entrenado específicamente en código, logrando tokenización eficiente de sintaxis de lenguajes de programación, patrones de espacios en blanco y construcciones de código comunes.

Los modelos StarCoder se publican bajo la licencia BigCode OpenRAIL-M, que permite uso comercial con restricciones de uso responsable. La procedencia transparente de datos de entrenamiento hace a StarCoder particularmente atractivo para organizaciones con requisitos estrictos de cumplimiento respecto a licencias de datos de entrenamiento.

Key Features

La transparencia de datos de entrenamiento es el diferenciador más fuerte de StarCoder. Cada archivo en el dataset de entrenamiento proviene de un repositorio con licencia permisiva, y BigCode proporciona la herramienta Am I In The Stack que permite a los autores de código verificar si su código fue incluido y excluirse si lo desean. Este nivel de transparencia es único entre modelos de código y hace a StarCoder defendible desde una perspectiva legal y de cumplimiento — importante para la adopción empresarial.

El soporte multi-lenguaje se extiende mucho más allá de los lenguajes principales. Mientras la mayoría de modelos de código se enfocan en Python, JavaScript, Java y un puñado de otros, StarCoder cubre más de 600 lenguajes de programación incluyendo lenguajes especializados como VHDL, SystemVerilog, Solidity, Julia, R, MATLAB, Fortran y muchos más. Esta amplitud lo hace valioso para equipos que trabajan con lenguajes de nicho o específicos de dominio.

La capacidad fill-in-the-middle (FIM) soporta tres modos: prefix-suffix-middle (PSM), suffix-prefix-middle (SPM) y un modo combinado. Esta flexibilidad en el formato FIM mejora la compatibilidad de integración con diferentes backends de IDE y servicios de completado de código. StarCoder también soporta contexto a nivel de repositorio, donde rutas de archivos y otros archivos del mismo proyecto se incluyen como contexto para completados más precisos.

Fine-Tuning with Ertas

Los modelos StarCoder son excelentes candidatos para fine-tuning en Ertas Studio, especialmente para organizaciones con necesidades específicas de lenguajes de programación o estándares de codificación. El modelo de 3B requiere solo 4-6GB de VRAM con QLoRA, haciéndolo entrenable en prácticamente cualquier GPU moderna. El modelo de 7B necesita 8-10GB, y el modelo de 15B requiere 10-14GB — todo bien dentro de las capacidades de hardware de consumo.

Para organizaciones preocupadas por la procedencia de datos de entrenamiento, el fine-tuning de StarCoder proporciona una base defendible. Comienza con un modelo entrenado exclusivamente con código bajo licencia permisiva, luego ajusta con tu propia base de código propietaria. Esto crea una cadena limpia de procedencia de datos que los equipos legales y de cumplimiento pueden verificar.

Ertas Studio soporta formatos de fine-tuning específicos de código incluyendo pares de instrucción-respuesta, triples FIM y ejemplos de contexto de repositorio. Después del entrenamiento, exporta a GGUF y despliega a través de Ollama o llama.cpp. El tamaño moderado de StarCoder significa que los modelos GGUF ajustados son altamente portátiles — un modelo de 15B cuantizado en Q4_K_M es de aproximadamente 9GB, adecuado para distribución como parte de herramientas de desarrollo o pipelines de CI/CD.

Use Cases

StarCoder es la opción preferida para organizaciones con requisitos estrictos de licenciamiento de datos de entrenamiento. Empresas de tecnología legal, agencias gubernamentales y empresas con fuertes culturas de cumplimiento eligen StarCoder porque pueden verificar todo el pipeline de datos de entrenamiento. Ajustado con bases de código internas, StarCoder se convierte en un asistente de código totalmente defendible.

La amplia cobertura de lenguajes de programación hace a StarCoder valioso para equipos que trabajan en dominios especializados: lenguajes de descripción de hardware (VHDL, SystemVerilog), computación científica (Julia, R, MATLAB), desarrollo blockchain (Solidity) y sistemas embebidos (C, Rust). Muchos de estos lenguajes tienen representación limitada en modelos de código de propósito general.

El tamaño moderado de StarCoder lo hace ideal para integración en herramientas de desarrollo: extensiones de VS Code, plugins de JetBrains, plugins de Vim/Neovim y herramientas de línea de comandos. El modelo de 3B es lo suficientemente rápido para completado de código en tiempo real en CPU, mientras que los modelos de 7B y 15B proporcionan mayor calidad para tareas offline como revisión de código, generación de documentación y creación de casos de prueba.

Hardware Requirements

StarCoder 3B en Q4_K_M requiere aproximadamente 2GB de RAM, ejecutable en prácticamente cualquier máquina de desarrollo. El de 7B necesita unos 4.3GB, y el de 15B unos 9GB. Estos modestos requisitos significan que los modelos StarCoder pueden ejecutarse junto a la carga de trabajo normal de un desarrollador sin requerir hardware dedicado. La inferencia CPU es práctica para el modelo de 3B, proporcionando 10-20 tokens por segundo en CPUs de laptop modernos.

Para inferencia GPU, el modelo de 15B en Q4_K_M funciona en cualquier GPU con 10GB+ de VRAM, logrando 40-60 tokens por segundo en RTX 4070 Ti y superiores. La inferencia completa en FP16 requiere aproximadamente 6.5GB (3B), 14.5GB (7B) o 30GB (15B), todo alcanzable en GPUs de consumo o estaciones de trabajo.

Para fine-tuning en Ertas Studio, el modelo de 3B necesita 4-6GB de VRAM (QLoRA), el de 7B necesita 8-10GB, y el de 15B necesita 10-14GB. Los tamaños pequeños permiten experimentación rápida: entrena múltiples variantes con diferentes datasets, compara resultados e itera rápidamente antes de definir una configuración de producción.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →