Fine-Tune InternLM with Ertas
Serie de modelos multilingües del Laboratorio de IA de Shanghái en tamaños de 7B y 20B, con fuertes capacidades chino-inglés, soporte de contexto largo y excelente rendimiento en benchmarks de razonamiento y uso de herramientas.
Overview
InternLM es una serie de modelos de lenguaje desarrollados por el Laboratorio de Inteligencia Artificial de Shanghái (Shanghai AI Lab) en colaboración con varias universidades e instituciones de investigación chinas. La generación actual, InternLM 2.5, está disponible en tamaños de 7B y 20B parámetros y representa una de las familias de modelos de pesos abiertos más fuertes desarrolladas en China.
Los modelos fueron entrenados con un corpus diverso que supera los 2.6 billones de tokens, cuidadosamente curado para incluir texto de alta calidad en chino e inglés, código, contenido matemático y literatura científica. InternLM 2.5 demuestra un rendimiento particularmente fuerte en tareas que requieren razonamiento, uso de herramientas y comprensión de contexto largo, posicionándose frecuentemente entre los mejores modelos en benchmarks de idioma chino mientras mantiene un rendimiento competitivo en inglés.
Arquitectónicamente, InternLM 2.5 usa un decoder transformer denso con atención de consultas agrupadas, activaciones SwiGLU y embeddings posicionales RoPE. Los modelos soportan una ventana de contexto de 1 millón de tokens a través de interpolación dinámica NTK, una de las ventanas de contexto más largas disponibles en cualquier modelo de pesos abiertos. Esto permite procesar documentos extremadamente largos, bases de código completas e historiales de conversación extensos.
Los modelos InternLM se publican bajo la licencia Apache 2.0, soportando tanto investigación como uso comercial. El Shanghai AI Lab también proporciona un ecosistema integral alrededor de InternLM, incluyendo el modelo multimodal XComposer, el modelo de razonamiento Math y el framework de agentes Lagent.
Key Features
La ventana de contexto de 1 millón de tokens de InternLM 2.5 es su característica más llamativa. Mientras muchos modelos afirman tener contexto largo a través del escalado RoPE, InternLM demuestra un rendimiento confiable en todo su rango de contexto, manteniendo comprensión coherente y recuperación precisa incluso en longitudes de secuencia extremas. Esto se logra mediante una combinación de interpolación dinámica NTK y datos de entrenamiento especializados para contexto largo.
El uso de herramientas y las capacidades de agente son otra área donde InternLM destaca. El modelo fue entrenado específicamente con datos de uso de herramientas, incluyendo integración de intérprete de código, búsqueda web y llamadas a funciones. InternLM sirve como la columna vertebral del framework de agentes Lagent, demostrando fuerte rendimiento en benchmarks de agentes como AgentBench y T-Bench. El modelo puede planificar interacciones con herramientas en múltiples pasos, manejar errores de herramientas con elegancia y sintetizar resultados de múltiples llamadas a herramientas.
InternLM demuestra fuerte razonamiento matemático y científico, con entrenamiento especializado en demostraciones matemáticas, artículos científicos y tareas de razonamiento estructurado. La variante InternLM-Math lleva esto más lejos, logrando resultados competitivos en problemas de olimpiada matemática y preguntas de ciencia a nivel de posgrado.
Fine-Tuning with Ertas
Los modelos InternLM son muy adecuados para fine-tuning en Ertas Studio, particularmente para aplicaciones que requieren capacidad bilingüe chino-inglés o comportamiento agéntico de uso de herramientas. El modelo de 7B requiere 8-12GB de VRAM con QLoRA, haciéndolo accesible en GPUs de consumo como la RTX 4070 Ti o RTX 4080. El modelo de 20B requiere 14-20GB de VRAM, ajustándose en una RTX 4090 o A5000.
Para fine-tuning de agentes y uso de herramientas, Ertas Studio soporta datasets de entrenamiento que incluyen anotaciones de llamadas a herramientas. Estructura tus ejemplos con consultas en lenguaje natural, las invocaciones de herramientas esperadas y la respuesta sintetizada final. Las capacidades preexistentes de uso de herramientas de InternLM significan que requiere relativamente pocos datos de fine-tuning para adaptarse a nuevas herramientas y APIs — tan pocos como 500-1000 ejemplos pueden producir un comportamiento confiable de llamada a herramientas para APIs personalizadas.
Después del fine-tuning, exporta a formato GGUF para despliegue local. La capacidad de contexto largo de InternLM se preserva a través de la cuantización, aunque contextos extremadamente largos requerirán proporcionalmente más RAM para el KV cache. Despliega a través de Ollama o llama.cpp para integración en tu stack de aplicación.
Use Cases
InternLM es una excelente opción para construir agentes de IA que necesitan interactuar con herramientas, APIs y fuentes de datos externas. Su fuerte entrenamiento en uso de herramientas lo hace confiable para llamadas a funciones, ejecución de código, integración de búsqueda web y planificación de tareas en múltiples pasos. Las organizaciones que construyen asistentes de IA internos que necesitan consultar bases de datos, llamar APIs internas y sintetizar resultados de múltiples fuentes encuentran en InternLM una base sólida.
La ventana de contexto de 1 millón de tokens hace a InternLM valioso para aplicaciones de contexto extremadamente largo: procesar libros enteros o colecciones de documentos, analizar grandes bases de código en un solo paso, y mantener historiales de conversación muy largos para asistentes de IA persistentes. Esto es particularmente útil para revisión de documentos legales, análisis de patentes y estudios bibliográficos exhaustivos.
Las aplicaciones bilingües chino-inglés son otro caso de uso clave. InternLM compite con modelos dedicados al chino como Yi y Qwen en tareas en chino mientras mantiene fuerte capacidad en inglés. Las organizaciones que sirven mercados tanto en China como en regiones de habla inglesa pueden usar InternLM como una única columna vertebral de modelo para ambos idiomas.
Hardware Requirements
InternLM 7B con cuantización Q4_K_M requiere aproximadamente 4.5GB de RAM para los pesos del modelo. Sin embargo, la ventana de contexto de 1M significa que el KV cache puede consumir memoria adicional significativa para secuencias largas — procesar 100K tokens puede requerir 8-12GB adicionales de RAM solo para el KV cache. Planifica la memoria según las longitudes de contexto esperadas.
El modelo de 20B en Q4_K_M requiere aproximadamente 12GB para pesos del modelo, con escalado similar del KV cache para contextos largos. En Q8_0, el modelo de 20B necesita unos 21GB para pesos. La inferencia completa en FP16 requiere aproximadamente 14.5GB (7B) o 40GB (20B) solo para pesos.
Para fine-tuning en Ertas Studio, el modelo de 7B necesita 8-12GB de VRAM con QLoRA, y el de 20B necesita 14-20GB. Entrenar con ejemplos de contexto largo requerirá memoria adicional proporcional a la longitud de secuencia. Para la mayoría de tareas de fine-tuning, una longitud de contexto de 4K-8K tokens es suficiente y mantiene los requisitos de memoria manejables.
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.