What is Tokenizer?

El componente que convierte texto en bruto en una secuencia de tokens numéricos que un modelo de lenguaje puede procesar, y viceversa.

Definition

Un tokenizer es la capa de preprocesamiento que conecta el texto legible por humanos con las representaciones numéricas sobre las que operan las redes neuronales. Divide el texto de entrada en tokens — que pueden ser palabras completas, subpalabras o caracteres individuales — y mapea cada token a un ID entero único de un vocabulario fijo. El modelo procesa estas secuencias de enteros a través de sus capas y produce IDs de tokens de salida, que el tokenizer luego decodifica de vuelta a texto.

Los LLMs modernos usan predominantemente algoritmos de tokenización por subpalabras como Byte-Pair Encoding (BPE), WordPiece o SentencePiece. Estos algoritmos aprenden un vocabulario de secuencias de caracteres que ocurren frecuentemente de un corpus de entrenamiento. Las palabras comunes como 'the' obtienen un solo token, mientras que las palabras raras se descomponen en múltiples tokens de subpalabras. Por ejemplo, 'unhappiness' podría tokenizarse como ['un', 'happiness'] o ['un', 'happ', 'iness'] dependiendo del tokenizer. Este enfoque equilibra el tamaño del vocabulario (típicamente 32,000–128,000 tokens) con la capacidad de representar cualquier texto de entrada sin errores de vocabulario desconocido.

El tokenizer está estrechamente acoplado a su modelo — cada familia de modelos (Llama, Mistral, GPT, etc.) tiene su propio tokenizer con su propio vocabulario. Usar el tokenizer incorrecto con un modelo produce salidas inservibles porque los mapeos de ID de tokens no coincidirán. Al hacer fine-tuning, el tokenizer del modelo base debe preservarse exactamente. El tokenizer también determina la utilización de la ventana de contexto del modelo: una tokenización más eficiente significa que más texto cabe dentro de la misma longitud de ventana de contexto.

Why It Matters

La tokenización afecta directamente el rendimiento, costo y capacidad del modelo. Un tokenizer que fragmenta términos comunes específicos del dominio en muchas subpalabras obliga al modelo a 'desperdiciar' capacidad de la ventana de contexto y puede reducir la comprensión. El conteo de tokens también impulsa los costos de API para modelos alojados en la nube (cobrados por token) y determina si una entrada dada cabe dentro de la ventana de contexto del modelo. Comprender la tokenización ayuda a los profesionales a estimar costos, depurar comportamientos inesperados del modelo y tomar decisiones informadas sobre el formato de datos y diseño de prompts.

How It Works

El pipeline de tokenización típicamente trabaja en etapas: primero, el texto en bruto se normaliza (conversión a minúsculas, normalización Unicode, etc., dependiendo del tokenizer). Luego, un paso de pre-tokenización divide el texto en fragmentos aproximados (usualmente por espacios en blanco y puntuación). Finalmente, el algoritmo de subpalabras (por ejemplo, BPE) aplica reglas de fusión aprendidas para dividir cada fragmento en tokens del vocabulario. Cada token se mapea a su ID entero, y se añaden tokens especiales (como inicio de secuencia, fin de secuencia o tokens de relleno) según sea necesario. El proceso inverso (decodificación) mapea IDs de vuelta a sus representaciones de texto y las une en una cadena legible.

Example Use Case

Un equipo que prepara datos de entrenamiento para un proyecto de fine-tuning médico descubre que el tokenizer de Llama divide 'acetaminophen' en 4 tokens de subpalabras e 'ibuprofen' en 3. Esto significa que el texto médico consume más tokens por palabra que el inglés general, reduciendo la ventana de contexto efectiva para su caso de uso. Consideran esto en su diseño de prompts, manteniendo los system prompts concisos para maximizar el contexto disponible para contenido clínico. También usan conteo de tokens en su pipeline de datos para asegurar que ningún ejemplo de entrenamiento exceda la longitud de contexto del modelo.

Key Takeaways

Los tokenizers convierten texto a IDs numéricos usando vocabularios de subpalabras aprendidos (BPE, WordPiece, SentencePiece).
Cada familia de modelos tiene su propio tokenizer — usar el incorrecto produce salidas inservibles.
El conteo de tokens determina el uso de la ventana de contexto, costos de API y longitud de entrada efectiva.
El texto específico de dominio puede tokenizarse menos eficientemente, consumiendo más tokens por palabra.
El tokenizer debe preservarse exactamente al hacer fine-tuning de un modelo base.

How Ertas Helps

Ertas Studio carga automáticamente el tokenizer correcto para cualquier modelo base que el usuario seleccione, eliminando una fuente común de errores de fine-tuning. La función de vista previa de datos de la plataforma muestra conteos de tokens por ejemplo, ayudando a los usuarios a identificar ejemplos excesivamente largos que podrían exceder la ventana de contexto del modelo. Durante el entrenamiento, Ertas maneja toda la tokenización, relleno e inserción de tokens especiales de forma transparente, para que los usuarios puedan enfocarse en la calidad de sus datos en lugar de detalles de preprocesamiento de bajo nivel.