Fine-Tune Falcon with Ertas

Familia de modelos de pesos abiertos del Instituto de Innovación Tecnológica en tamaños de 7B, 40B y 180B, entrenados con el masivo dataset RefinedWeb y pioneros en el uso de datos web filtrados de alta calidad para el entrenamiento de LLMs.

7B40B180BTII Abu Dhabi

Overview

Falcon es una familia de modelos de lenguaje desarrollados por el Instituto de Innovación Tecnológica (TII) en Abu Dabi, Emiratos Árabes Unidos. Cuando Falcon 40B fue lanzado en mayo de 2023, brevemente encabezó el Open LLM Leaderboard de Hugging Face, demostrando que datos web cuidadosamente curados podían producir modelos que rivalizaban con aquellos entrenados en datasets más costosos y curados manualmente.

La familia Falcon incluye tres tamaños: 7B, 40B y 180B parámetros. Los modelos fueron entrenados principalmente con RefinedWeb, un masivo dataset de páginas web filtradas que TII creó aplicando extenso filtrado de calidad, deduplicación y extracción de contenido a datos de Common Crawl. El modelo de 180B fue entrenado con aproximadamente 3.5 billones de tokens, haciéndolo uno de los modelos más grandes entrenados abiertamente en el momento de su lanzamiento.

Arquitectónicamente, Falcon usa un transformer decoder-only con atención multi-query (una sola cabeza de clave-valor compartida entre todas las cabezas de consulta) en la variante de 7B y atención de consultas agrupadas en las variantes de 40B y 180B. Los modelos usan un tokenizer personalizado con un vocabulario de aproximadamente 65K tokens y soportan una ventana de contexto de 2K (extensible mediante fine-tuning y escalado RoPE).

Los modelos Falcon se publican bajo la licencia Apache 2.0. Aunque modelos más nuevos han superado a Falcon en la mayoría de benchmarks, su contribución a demostrar la viabilidad del entrenamiento centrado en datos web fue influyente en dar forma a las prácticas de desarrollo de modelos subsiguientes en toda la industria.

Key Features

El dataset RefinedWeb es la contribución más significativa de Falcon al ecosistema de LLMs. TII demostró que con filtrado suficientemente riguroso — incluyendo filtrado basado en URL, extracción de contenido con trafilatura, eliminación de duplicados exactos y cercanos con MinHash, y puntuación de calidad — datos rastreados de la web por sí solos pueden producir modelos competitivos con aquellos entrenados en datasets curados. Este hallazgo influyó en las estrategias de datos de entrenamiento de muchos modelos posteriores.

La atención multi-query en Falcon 7B reduce el KV cache a una sola cabeza, proporcionando un rendimiento de inferencia excepcional. Esto hace que Falcon 7B sea particularmente eficiente para escenarios de servicio de alta concurrencia donde el ancho de banda de memoria es el cuello de botella. Los modelos de 40B y 180B usan atención de consultas agrupadas para un equilibrio entre eficiencia y calidad del modelo.

Las variantes ajustadas con instrucciones de Falcon (Falcon Instruct) fueron ajustadas con una mezcla de datos de chat e instrucciones, demostrando capacidad conversacional competente. Los modelos responden bien a fine-tuning adicional, con la comunidad produciendo numerosas variantes especializadas para diferentes dominios e idiomas, particularmente árabe, dada la conexión de TII con los EAU.

Fine-Tuning with Ertas

Los modelos Falcon son sencillos de ajustar en Ertas Studio. El modelo de 7B es particularmente eficiente, requiriendo solo 6-10GB de VRAM con QLoRA debido a que su atención multi-query reduce la sobrecarga de memoria. El modelo de 40B requiere 24-32GB de VRAM, ajustándose en una sola A100 de 40GB o A6000 de 48GB. El modelo de 180B requiere configuraciones multi-GPU para fine-tuning.

Falcon responde bien al fine-tuning con datos específicos de dominio, y su entrenamiento con RefinedWeb proporciona una base sólida de conocimiento general. Para aplicaciones en idioma árabe, Falcon es un fuerte punto de partida — el dataset RefinedWeb incluye contenido en árabe, y TII ha lanzado variantes específicas para árabe. El fine-tuning con datos conversacionales o de dominio en árabe en Ertas Studio puede producir un asistente de IA en árabe capaz.

Después del entrenamiento, exporta a formato GGUF para despliegue. Ten en cuenta que la ventana de contexto predeterminada más corta de Falcon (2K) puede requerir configuración explícita de escalado RoPE si tu aplicación necesita contextos más largos. Ertas Studio incluye opciones para extensión de contexto durante el fine-tuning, permitiéndote extender la longitud de contexto efectiva de Falcon a 8K o 16K tokens.

Use Cases

Falcon 7B es una opción sólida para aplicaciones que requieren inferencia rápida y eficiente con buena calidad general. Su atención multi-query lo hace uno de los modelos de 7B más eficientes en rendimiento para servicio por API, y funciona bien en tareas estándar de NLP: resumen, respuesta a preguntas, clasificación e IA conversacional.

El modelo de 40B es adecuado para aplicaciones empresariales donde la calidad importa pero no se requiere rendimiento de modelo frontera. Maneja seguimiento de instrucciones complejas, generación de contenido y tareas analíticas de manera competente. Organizaciones que adoptaron Falcon tempranamente y tienen variantes ajustadas existentes pueden encontrar rentable continuar con el ecosistema Falcon en lugar de migrar.

Falcon tiene particular relevancia para aplicaciones de IA en idioma árabe, dada la inversión continua de TII en NLP árabe. Modelos Falcon ajustados sirven para soporte al cliente en árabe, generación de contenido y tareas de traducción en la región del Medio Oriente y Norte de África.

Hardware Requirements

Falcon 7B en Q4_K_M requiere aproximadamente 4.3GB de RAM, fácilmente ejecutable en hardware de consumo con 8GB+ de RAM. El modelo de 40B en Q4_K_M necesita aproximadamente 23GB, ajustándose en una RTX 4090 de 24GB (ajustado) o A6000 de 48GB. El de 180B en Q4_K_M requiere aproximadamente 103GB, necesitando configuraciones multi-GPU o inferencia CPU con gran memoria.

En Q8_0, los requisitos son aproximadamente 7.5GB (7B), 43GB (40B) y 190GB (180B). La inferencia completa en FP16 requiere 14.5GB (7B), 80GB (40B) y 360GB (180B). La atención multi-query del modelo de 7B proporciona un excelente rendimiento de tokens por segundo, frecuentemente 20-30% más rápido que modelos GQA comparables del mismo conteo de parámetros.

Para fine-tuning en Ertas Studio, el de 7B necesita 6-10GB de VRAM, el de 40B necesita 24-32GB y el de 180B necesita 80-120GB con QLoRA. Los bajos requisitos del modelo de 7B lo hacen accesible para desarrolladores individuales y equipos pequeños que exploran el desarrollo de modelos personalizados.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →