Fine-Tune Apertus with Ertas

La familia de modelos fundacionales open-weight de Suiza — pesos, datos de entrenamiento y recetas totalmente abiertos, lanzados bajo Apache 2.0 con soporte de primera clase para más de 1.000 idiomas y alineación explícita con los requisitos del EU AI Act y de protección de datos suiza.

8B70BSwiss AI Initiative (ETH Zurich + EPFL + CSCS)

Overview

Apertus es el modelo fundacional open-weight de la Swiss AI Initiative — una colaboración entre ETH Zurich, EPFL y el Swiss National Supercomputing Centre (CSCS). Se lanzó a finales de 2025 y se actualizó sustancialmente a lo largo de 2026 como la respuesta europea a las familias Llama, Qwen y Mistral. El nombre del modelo significa 'abierto' en latín, y el compromiso definitorio del proyecto es la apertura total: pesos, datos de entrenamiento, recetas de entrenamiento, datos de evaluación y model cards son todos públicos, y todo se lanza bajo Apache 2.0.

Esto importa para dos audiencias distintas. Para empresas europeas y equipos de industrias reguladas, Apertus es la ruta más limpia a un modelo cuya procedencia entera es auditable — una ventaja significativa bajo los requisitos de transparencia del EU AI Act y bajo las reglas de protección de datos suizas. Para aplicaciones multilingües, Apertus es inusual: los datos de entrenamiento cubren más de 1.000 idiomas (incluyendo cobertura sustancial de idiomas europeos de bajos recursos, dialectos del alemán suizo e idiomas africanos que los modelos abiertos mainstream subponderan), y las evaluaciones multilingües son competitivas con Qwen 3 y Llama 4 en los idiomas donde se solapan.

La familia se envía en variantes densas de 8B y 70B. Ambas comparten el mismo corpus de entrenamiento, el mismo tokenizador y la misma receta de alineación, lo que hace al 8B un sustituto útil de escala de laboratorio para desarrollo antes de escalar al 70B para despliegue. CSCS proporciona endpoints de inferencia públicos y el modelo está disponible en Hugging Face bajo `swiss-ai/Apertus-8B` y `swiss-ai/Apertus-70B`.

Key Features

El licenciamiento Apache 2.0 en todo el stack — pesos, código y datos de entrenamiento — es la característica destacada. Esto es más permisivo que Llama (licencia comunitaria personalizada) y es la misma postura de licenciamiento que Mistral, Qwen y Gemma 4. Para usuarios comerciales, la redistribución y los trabajos derivados están explícitamente permitidos sin negociación separada.

La transparencia completa de los datos de entrenamiento es lo distintivo de Apertus. La mayoría de los modelos open-weight — incluyendo la mayoría que son 'open source' de nombre — lanzan los pesos sin lanzar los datos de entrenamiento. El corpus de entrenamiento de Apertus está publicado, documentado y filtrable; el linaje de datos desde la fuente cruda hasta el checkpoint final es reconstruible. Para el cumplimiento del EU AI Act y para organizaciones cuyas propias políticas de gobernanza de datos requieren procedencia de modelo auditable, esto transforma lo que antes era un bloqueador estructural en un problema de due diligence solucionable.

La cobertura multilingüe es inusualmente amplia. Donde la mayoría de los modelos open-weight se concentran en inglés más un conjunto curado de 20–100 idiomas, el tokenizador y el corpus de entrenamiento de Apertus abarcan más de 1.000 idiomas con énfasis intencional en el multilingüismo europeo (incluyendo alemán, francés, italiano, romanche — los cuatro idiomas nacionales suizos — e idiomas europeos minoritarios como catalán, vasco y galés). Para constructores europeos que envían productos multilingües, este es a menudo el factor decisivo.

Fine-Tuning with Ertas

Apertus 8B está bien adaptado al fine-tuning de Ertas Studio para casos de uso multilingües y de industrias reguladas. El fine-tuning QLoRA cabe cómodamente en una sola GPU de consumo de 16-24GB a longitudes de secuencia típicas de 2048 tokens. El licenciamiento Apache 2.0 significa que los derivados ajustados pueden redistribuirse sin complejidad de licenciamiento, lo que simplifica las rutas de agencia y reventa en los niveles Pro y Business de Studio.

La transparencia completa de datos es un activo significativo en los flujos de trabajo de fine-tuning. Las ejecuciones de fine-tuning de Studio producen model cards que enlazan al linaje del modelo base, y con Apertus ese linaje es en sí mismo totalmente auditable. Para equipos que venden modelos ajustados a clientes de industrias reguladas (legal, salud, servicios financieros en jurisdicciones de la UE), la capacidad de entregar una cadena de procedencia completa — datos de entrenamiento del modelo base → datos de fine-tuning → adaptador final — es una ventaja en adquisiciones.

Para fine-tuning multilingüe específicamente, Apertus es a menudo la base correcta sobre Llama 3 o Qwen 3 cuando el conjunto de idiomas objetivo incluye idiomas minoritarios europeos o idiomas de bajos recursos donde las otras bases tienen un rendimiento inferior. La suite de evaluación multilingüe de Studio admite configuraciones de idioma personalizadas y puede apuntarse al conjunto de evaluación de Apertus para comparación directa contra la baseline publicada.

Use Cases

El caso de uso más fuerte para Apertus es el despliegue europeo en industrias reguladas: IA legal para jurisdicciones de la UE, IA de salud bajo el RGPD, IA de servicios financieros sujeta a MiCA y otras regulaciones de la UE, y despliegues del sector público bajo las obligaciones de transparencia del Artículo 50 del EU AI Act. La combinación de transparencia completa de datos y licenciamiento Apache 2.0 es única entre los modelos open-weight creíbles y acorta significativamente el ciclo de adquisición.

Los equipos de productos multilingües que apuntan a mercados europeos son un segundo ajuste fuerte. La cobertura de Apertus de alemán suizo, romanche, catalán, vasco y otros idiomas europeos subponderados produce salidas significativamente mejores que Llama o Qwen en estos idiomas — tanto para generación directa como como base para fine-tuning de traducción. Para aplicaciones de consumo con una base de usuarios multilingüe en Europa, Apertus es cada vez más el punto de partida correcto.

Los usos de investigación y académicos son un tercer ajuste natural. Como el pipeline de entrenamiento entero es reproducible desde artefactos públicos, Apertus es una de las pocas bases open-weight creíbles para investigación de ML que necesita reproducibilidad completa (p. ej., papers que estudian la influencia de los datos de entrenamiento, leyes de escala, transferencia multilingüe). Varios papers de 2026 sobre medición de contaminación de datos y sobre equidad multilingüe usan Apertus como la base de referencia.

Hardware Requirements

Apertus 8B con Q4_K_M es aproximadamente 4,5GB. El hardware de consumo de una sola GPU (RTX 3060 12GB y superiores) maneja la inferencia y el fine-tuning QLoRA. El rendimiento en GPUs de consumo es típicamente 50–80 tokens por segundo a longitudes de contexto estándar.

Apertus 70B con Q4_K_M es aproximadamente 38GB. Una sola GPU de 48GB (RTX 6000 Ada, A6000) maneja la inferencia; se requiere multi-GPU para fine-tuning a longitud de secuencia completa. La mayoría de los despliegues en producción de Apertus 70B se ejecutan en hardware de centro de datos (H100, MI300X) o vía los endpoints proporcionados por CSCS.

Para despliegue móvil vía Ertas Deployment CLI, Apertus 8B con Q4_K_M es demasiado grande para la mayoría de los teléfonos hoy (4,5GB excede el presupuesto de memoria de trabajo de los dispositivos de gama media), pero las ejecuciones de destilación de Apertus en Studio pueden producir derivados más pequeños adecuados para envío en dispositivo. La licencia Apache 2.0 hace que tales derivados de destilación sean libremente redistribuibles.