Fine-Tune Yi with Ertas

Familia de modelos bilingües chino-inglés de 01.AI disponible en tamaños de 6B, 9B y 34B, conocida por su fuerte rendimiento en benchmarks tanto de chino como de inglés con excelentes capacidades de seguimiento de instrucciones.

6B9B34B01.AI

Overview

Yi es una familia de modelos de lenguaje bilingües desarrollados por 01.AI, la empresa de IA fundada por el Dr. Kai-Fu Lee. La serie Yi fue uno de los primeros modelos de pesos abiertos desarrollados en China en lograr rendimiento globalmente competitivo, clasificándose consistentemente cerca del tope de benchmarks independientes como el Open LLM Leaderboard y el Chatbot Arena.

La generación actual incluye modelos Yi-1.5 en tamaños de 6B, 9B y 34B, entrenados con aproximadamente 3.6 billones de tokens de datos multilingües de alta calidad con un fuerte énfasis en contenido chino e inglés. El modelo de 34B, en particular, rinde muy por encima de su peso — frecuentemente supera a modelos de clase 70B en tareas de idioma chino y compite fuertemente con ellos en tareas de inglés también.

Arquitectónicamente, Yi usa un transformer decoder denso estándar con atención de consultas agrupadas, activaciones SwiGLU y embeddings posicionales RoPE. Los modelos soportan una ventana de contexto de 200K tokens a través de extensión de contexto basada en YaRN, habilitando el procesamiento de documentos extremadamente largos — una de las ventanas de contexto más largas disponibles en la clase de menos de 40B parámetros.

Los modelos Yi se publican bajo la licencia Apache 2.0 (para Yi-1.5), haciéndolos completamente disponibles para uso comercial sin restricciones. Los modelos han sido particularmente populares en mercados de habla china y entre desarrolladores que construyen aplicaciones bilingües que sirven a usuarios de chino e inglés.

Key Features

La excelencia bilingüe es la fortaleza definitoria de Yi. Los modelos fueron entrenados con una mezcla cuidadosamente balanceada de datos en chino e inglés, produciendo modelos que son genuinamente fluidos en ambos idiomas en lugar de ser principalmente centrados en inglés con chino como una consideración secundaria. El tokenizer usa un vocabulario de 64K optimizado para codificación eficiente tanto de caracteres chinos como de texto en inglés, logrando fuerte eficiencia de tokenización en ambos idiomas.

La ventana de contexto de 200K tokens es excepcional para modelos en este rango de tamaño. Esto habilita el procesamiento de documentos chinos de longitud de libro, repositorios de código extensos e historiales de conversación muy largos. El enfoque de escalado basado en YaRN mantiene la calidad incluso en longitudes de contexto extremas, haciendo de Yi una fuerte opción para aplicaciones con muchos documentos.

Yi demuestra un rendimiento particularmente fuerte en tareas que requieren comprensión cultural y uso matizado del lenguaje. Las tareas de idioma chino frecuentemente involucran contexto cultural, expresiones idiomáticas y convenciones estilísticas que los modelos centrados en inglés manejan pobremente. Los datos de entrenamiento de Yi incluyen extenso contenido literario, técnico y conversacional en chino, produciendo respuestas que se sienten naturales y culturalmente apropiadas.

Fine-Tuning with Ertas

Los modelos Yi son objetivos populares de fine-tuning en Ertas Studio, especialmente para construir aplicaciones bilingües chino-inglés. El modelo de 6B requiere 6-10GB de VRAM con QLoRA, el de 9B necesita 8-12GB, y el de 34B necesita 20-24GB — todos accesibles en hardware GPU estándar. El modelo de 9B ofrece un punto particularmente favorable para fine-tuning bilingüe, proporcionando fuerte calidad con requisitos moderados de recursos.

Para fine-tuning bilingüe, prepara tu dataset con ejemplos en chino e inglés. El pipeline de procesamiento de datos de Ertas Studio maneja la tokenización de idiomas mixtos automáticamente. El vocabulario balanceado del tokenizer de Yi significa que ambos idiomas se entrenan eficientemente sin que uno domine las actualizaciones de gradiente. Incluye una mezcla de tareas solo en chino, solo en inglés y entre idiomas (como traducción o resumen bilingüe) para los mejores resultados.

Después del entrenamiento, exporta a formato GGUF para despliegue. El Yi 34B con cuantización Q4_K_M produce un modelo de aproximadamente 20GB que ofrece capacidad bilingüe excepcional — competitivo con modelos mucho más grandes en tareas de chino. Despliega a través de Ollama o llama.cpp, ambos soportan la plantilla de chat de Yi de forma nativa.

Use Cases

Yi es la primera opción para aplicaciones que sirven a usuarios de habla china o que requieren capacidad bilingüe chino-inglés. Plataformas de servicio al cliente, sistemas de generación de contenido e IA conversacional para el mercado chino todos se benefician de la fluidez natural en chino de Yi. El modelo entiende el contexto cultural chino, la etiqueta empresarial y los estilos de comunicación de maneras que la mayoría de modelos desarrollados en Occidente no logran.

Las aplicaciones bilingües son un caso de uso principal: traducción entre chino e inglés, recuperación de información entre idiomas, creación de contenido bilingüe y herramientas de comunicación empresarial internacional. Los modelos Yi ajustados pueden servir como intérpretes que entienden terminología específica de dominio en ambos idiomas.

La ventana de contexto de 200K hace a Yi especialmente valioso para procesamiento de documentos en chino: analizar extensos documentos gubernamentales, contratos legales, manuales técnicos y obras literarias. Combinado con sistemas RAG, Yi puede servir como un asistente inteligente para bases de conocimiento en idioma chino, archivos de investigación y sistemas de gestión documental empresarial.

Hardware Requirements

Yi 6B con cuantización Q4_K_M requiere aproximadamente 3.8GB de RAM, adecuado para laptops y GPUs de consumo. El modelo de 9B necesita unos 5.5GB, y el de 34B necesita unos 20GB. El modelo de 34B en Q4_K_M funciona bien en RTX 4090 de 24GB o Macs con Apple M-series con 32GB de memoria unificada, ofreciendo 15-25 tokens por segundo.

Con cuantización Q8_0, el de 6B necesita unos 6.5GB, el de 9B unos 9.7GB, y el de 34B unos 36GB. La inferencia completa en FP16 para el de 34B requiere aproximadamente 68GB de VRAM, cabiendo en una sola A100 de 80GB. Los modelos de 6B y 9B en FP16 requieren 12GB y 18GB respectivamente, fácilmente acomodados por GPUs de consumo.

Para fine-tuning en Ertas Studio, el de 6B necesita 6-10GB de VRAM (QLoRA), el de 9B necesita 8-12GB, y el de 34B necesita 20-24GB. El modelo de 34B, a pesar de sus mayores requisitos de recursos, es altamente recomendado para aplicaciones bilingües en producción debido a su significativa ventaja de calidad sobre las variantes más pequeñas.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →