Back to blog
    Curación de Datos de Entrenamiento para Phi-4 y Qwen 2.5: Lo Que los Equipos Empresariales Necesitan Saber
    phi-4qwentraining-dataenterprisedata-preparationsegment:enterprise

    Curación de Datos de Entrenamiento para Phi-4 y Qwen 2.5: Lo Que los Equipos Empresariales Necesitan Saber

    Phi-4 y Qwen 2.5 tienen diferentes tokenizadores, ventanas de contexto y sesgos de datos de entrenamiento. Tu dataset de fine-tuning necesita tener en cuenta estas diferencias. Esto es lo que debes vigilar con cada modelo.

    EErtas Team·

    "Solo ajústalo con nuestros datos" es una frase que omite un detalle crítico: qué modelo estás ajustando determina cómo deberías preparar los datos. Phi-4 y Qwen 2.5 — dos de los modelos open-weight más capaces para fine-tuning empresarial en 2026 — tienen diferentes arquitecturas, diferentes tokenizadores, diferentes ventanas de contexto y diferentes sesgos de datos de entrenamiento. Un dataset optimizado para Phi-4 puede rendir mal con Qwen 2.5, y viceversa.

    Esto no se trata de qué modelo es "mejor". Ambos son excelentes. Se trata de entender las consideraciones específicas de cada modelo que afectan la preparación de datos para que tu dataset de fine-tuning coincida con lo que el modelo espera.

    Phi-4: Lo Que Necesitas Saber

    Contexto

    Phi-4 es el modelo de 14B parámetros de Microsoft, lanzado a finales de 2024 y refinado hasta principios de 2025. Representa la culminación de la filosofía de investigación de Microsoft de "modelos pequeños, datos de alta calidad". Phi-4 fue entrenado intensivamente con datos sintéticos generados por modelos más grandes y contenido curado estilo libro de texto.

    Fortalezas a Aprovechar

    Razonamiento y matemáticas. Phi-4 puntúa 80.4 en el benchmark MATH y 82.6 en GPQA — competitivo con modelos 4-5x su tamaño. El modelo fue específicamente entrenado con datos de razonamiento multi-paso y resolución de problemas matemáticos.

    Implicación para la preparación de datos: Tus datos de fine-tuning deberían incluir ejemplos de cadena de pensamiento donde sea apropiado. Si tu tarea involucra cualquier forma de razonamiento (análisis de documentos, clasificación con explicación, extracción estructurada que requiere inferencia), formatea tu salida para incluir los pasos de razonamiento, no solo la respuesta final.

    Ejemplo — en lugar de:

    Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
    Output: {"payment_terms": "net-90", "discount": "2% early payment"}
    

    Usa:

    Input: "The contract specifies 90-day payment terms with a 2% early payment discount."
    Output: {"reasoning": "The clause states '90-day payment terms' indicating net-90. The '2% early payment discount' is a standard incentive for payment before the net-90 deadline.", "payment_terms": "net-90", "discount": "2% early payment"}
    

    El campo de razonamiento aprovecha la fortaleza entrenada de Phi-4. Incluirlo mejora la precisión del modelo en la propia tarea de extracción, incluso si descartas el razonamiento en tiempo de inferencia.

    Salida estructurada. Los datos de entrenamiento sintéticos de Phi-4 incluyeron exposición intensiva a formatos estructurados. El modelo maneja bien JSON, YAML y salida tabular de fábrica. El fine-tuning en tareas de salida estructurada construye sobre una fortaleza existente.

    Limitaciones a Considerar

    Entrenamiento dominante en inglés. Phi-4 fue entrenado principalmente con datos en inglés. Aunque puede manejar otros idiomas, su rendimiento cae notablemente para texto no inglés. Si tus documentos empresariales están en alemán, francés, japonés u otros idiomas, Phi-4 no es la opción óptima — o necesitarás sobre-representar ejemplos no ingleses en tus datos de fine-tuning.

    Implicación para la preparación de datos: Si estás ajustando Phi-4 para tareas multilingües, incluye 2-3x más ejemplos por idioma no inglés comparado con inglés. El modelo necesita señal extra para superar su sesgo hacia el idioma inglés.

    Ventana de contexto: 16K tokens. La ventana de contexto efectiva de Phi-4 es de 16,384 tokens. Esto es adecuado para muchas tareas empresariales pero restringe la longitud de los documentos de entrada que puedes procesar en una sola pasada.

    Implicación para la preparación de datos: Asegúrate de que ningún ejemplo de entrenamiento exceda 16K tokens (entrada + salida combinados). Si tus documentos de producción son más largos, necesitarás fragmentarlos antes del procesamiento. Tus datos de entrenamiento deberían incluir ejemplos fragmentados que reflejen cómo se formatearán las entradas de producción.

    Formato de Plantilla

    Phi-4 usa el formato de plantilla ChatML:

    <|im_start|>system
    You are a helpful assistant.<|im_end|>
    <|im_start|>user
    {input}<|im_end|>
    <|im_start|>assistant
    {output}<|im_end|>
    

    Tus datos de entrenamiento deben usar esta plantilla exacta. Usar el formato de plantilla de Llama ([INST]...[/INST]) o el formato de Mistral confundirá al modelo y degradará el rendimiento. Este es uno de los errores de fine-tuning más comunes — usar la plantilla de chat incorrecta para el modelo objetivo.

    Qwen 2.5: Lo Que Necesitas Saber

    Contexto

    Qwen 2.5 es la familia de modelos de Alibaba, disponible en tamaños desde 0.5B hasta 72B. Las variantes más comúnmente ajustadas son las versiones de 7B y 14B. Qwen 2.5 fue entrenado con 18 billones de tokens en 29 idiomas, convirtiéndolo en uno de los modelos abiertos más multilingües disponibles.

    Fortalezas a Aprovechar

    Capacidad multilingüe. Qwen 2.5 soporta 29 idiomas con fuerte rendimiento en inglés, chino, japonés, coreano e idiomas europeos. Para empresas que operan en múltiples idiomas o manejan colecciones de documentos multilingües, Qwen 2.5 es la opción más fuerte.

    Implicación para la preparación de datos: Incluye ejemplos en todos los idiomas que tu sistema de producción encontrará. A diferencia de Phi-4, Qwen 2.5 no necesita ejemplos extra no ingleses para compensar el sesgo de entrenamiento — maneja entrada multilingüe nativamente. Incluso puedes incluir ejemplos con mezcla de idiomas (por ejemplo, documentos con encabezados en inglés y texto en alemán) si eso coincide con tus datos de producción.

    Contexto extendido con YaRN. Qwen 2.5 soporta hasta 128K tokens de contexto a través del escalamiento YaRN (Yet another RoPE extensioN). Esto significa que puedes procesar documentos mucho más largos en una sola pasada comparado con el límite de 16K de Phi-4.

    Implicación para la preparación de datos: Si tus documentos de producción son de 20K-100K tokens, Qwen 2.5 te permite procesarlos sin fragmentar. Sin embargo, entrenar con ejemplos de contexto largo requiere más memoria GPU. Un enfoque práctico: incluye una mezcla de ejemplos de longitud estándar (2K-8K tokens) y de contexto largo (16K-64K tokens). No hagas todos los ejemplos de longitud máxima — el modelo necesita manejar longitudes variadas con gracia.

    Soporte de idiomas CJK. El tokenizador de Qwen 2.5 está específicamente optimizado para texto en chino, japonés y coreano. La relación token-a-carácter para texto CJK es aproximadamente 1:1.5 para Qwen versus 1:3 para la mayoría de los tokenizadores centrados en inglés. Esto significa que puedes ajustar aproximadamente el doble de texto CJK en el mismo presupuesto de tokens.

    Limitaciones a Considerar

    El tokenizador de Qwen produce conteos de tokens diferentes. El mismo texto en inglés produce diferentes conteos de tokens con el tokenizador de Qwen versus el de Phi-4. Un pasaje en inglés de 1,000 palabras podría ser 1,300 tokens con el tokenizador de Phi-4 y 1,400 tokens con el de Qwen. Esto afecta la estimación de costos, el tiempo de entrenamiento y la planificación de longitud de entrada.

    Implicación para la preparación de datos: Tokeniza tus datos de entrenamiento con el tokenizador real de Qwen (disponible en la biblioteca transformers) para obtener conteos de tokens precisos. No estimes basándote en el conteo de palabras o el tokenizador de otro modelo.

    Sesgos de datos de entrenamiento. Qwen 2.5 fue entrenado con datos a escala de internet que incluyen contenido web en chino de manera intensiva. Para algunas tareas, esto se manifiesta como un ligero sesgo hacia convenciones de internet chinas — formatos de fecha (AAAA/MM/DD), formateo de números (10,000 como 1万), y ciertas estructuras de frases.

    Implicación para la preparación de datos: Si tu salida debe conformarse a convenciones de formateo específicas (formato de fecha de EE.UU., formateo de números occidental), incluye requisitos de formato explícitos en el system prompt y asegúrate de que todos los ejemplos de entrenamiento demuestren la convención correcta.

    Formato de Plantilla

    Qwen 2.5 usa el formato de plantilla ChatML — el mismo que Phi-4:

    <|im_start|>system
    You are a helpful assistant.<|im_end|>
    <|im_start|>user
    {input}<|im_end|>
    <|im_start|>assistant
    {output}<|im_end|>
    

    Este formato de plantilla compartido significa que si preparas datos correctamente para uno, la plantilla funciona para el otro. La diferencia está en la tokenización y el manejo del modelo del contenido dentro de la plantilla, no en la estructura de la plantilla misma.

    Diferencias de Tokenizadores: Por Qué Importan

    Phi-4 y Qwen 2.5 usan diferentes tokenizadores con diferentes tamaños de vocabulario y diferente segmentación de subpalabras. Esto crea diferencias prácticas:

    El mismo texto = diferentes conteos de tokens. Un documento de 10,000 palabras podría ser 13,200 tokens con el tokenizador de Phi-4 y 14,100 tokens con el de Qwen. Al planificar longitudes máximas de entrada, siempre tokeniza con el tokenizador de tu modelo objetivo.

    Diferente manejo de caracteres especiales. Los símbolos específicos del dominio (§ para referencias de sección en texto legal, ± para tolerancias en ingeniería, µ para micro-unidades en ciencia) pueden tokenizarse de manera diferente. Si estos símbolos tienen significado en tu dominio, verifica que el tokenizador los maneje correctamente y que estén representados consistentemente en tus datos de entrenamiento.

    Diferente eficiencia para diferentes scripts. El tokenizador de Qwen es más eficiente para texto CJK; el de Phi-4 es ligeramente más eficiente para inglés. Esto significa que la ventana de contexto efectiva para texto no inglés es más grande con Qwen y más pequeña con Phi-4.

    La Estrategia Práctica: Ajusta Ambos, Elige al Ganador

    Para la mayoría de los casos de uso empresariales, el enfoque óptimo no es adivinar qué modelo funcionará mejor — es ajustar ambos con el mismo dataset y comparar.

    Paso 1: Prepara un solo dataset de alta calidad siguiendo los requisitos más estrictos de ambos modelos. Usa formato de plantilla ChatML (funciona para ambos). Asegúrate de que ningún ejemplo exceda 16K tokens (el límite de Phi-4 — la restricción más estricta). Incluye razonamiento de cadena de pensamiento donde sea aplicable (beneficia a Phi-4, no perjudica a Qwen).

    Paso 2: Ajusta ambos modelos con el mismo dataset con hiperparámetros comparables. Usa el mismo calendario de tasa de aprendizaje, tamaño de lote (ajustado por tamaño de modelo) y duración de entrenamiento.

    Paso 3: Evalúa ambos modelos con el mismo conjunto de prueba reservado usando métricas específicas de la tarea. No evalúes con benchmarks genéricos — evalúa en TU tarea con TUS datos.

    Paso 4: Elige al ganador. Para la mayoría de tareas empresariales solo en inglés, el rendimiento es lo suficientemente cercano como para que el costo de inferencia y la latencia se conviertan en los factores decisivos. Para tareas multilingües, Qwen 2.5 típicamente gana. Para tareas con mucho razonamiento, Phi-4 típicamente tiene ventaja.

    Este enfoque dual de fine-tuning cuesta 2x el cómputo de entrenamiento (típicamente una diferencia de unos cientos de dólares para modelos de tamaño SLM) pero elimina las conjeturas. El costo de elegir el modelo incorrecto y descubrirlo después del despliegue es mucho mayor que el costo de dos ejecuciones de entrenamiento.

    Errores Comunes

    Usar plantillas de formato Llama para modelos que no son Llama. La plantilla [INST]...[/INST] de Llama no es universal. Tanto Phi-4 como Qwen usan ChatML. Usar la plantilla incorrecta produce un modelo que funciona pero rinde 5-15% peor de lo que debería — una falla sutil que es difícil de diagnosticar.

    Estimar conteos de tokens con el tokenizador incorrecto. Si planificas tus longitudes de entrada usando el tokenizador de GPT-4 pero entrenas en Qwen, tus estimaciones están equivocadas. Siempre usa el tokenizador del modelo objetivo para planificar.

    Ignorar las fortalezas específicas del modelo. Ajustar Phi-4 sin ejemplos de cadena de pensamiento deja rendimiento sobre la mesa. Ajustar Qwen 2.5 con datos solo en inglés cuando tus datos de producción incluyen otros idiomas desperdicia la capacidad multilingüe del modelo.

    Sobre-optimizar para un modelo. Si preparas datos específicamente para las fortalezas de Phi-4 (inglés, razonamiento, contexto de 16K), has hecho el dataset menos portable. A menos que estés seguro de tu elección de modelo, prepara datos que funcionen bien para ambos.

    Ertas Data Suite maneja el formateo de datos específico por modelo automáticamente. Selecciona tu modelo objetivo (Phi-4, Qwen 2.5, Llama, Mistral u otros) y la plataforma aplica la plantilla de chat correcta, valida conteos de tokens contra la ventana de contexto del modelo, y señala ejemplos que exceden límites de longitud. Para equipos que ajustan múltiples modelos, el mismo dataset etiquetado puede exportarse en diferentes formatos específicos por modelo sin re-etiquetar — cambia el objetivo de exportación, y el formateo se ajusta automáticamente.


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    Lectura Adicional

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading