What is Token?

La unidad fundamental de texto que procesa un modelo de lenguaje — típicamente una palabra, subpalabra o carácter que se mapea a un ID entero en el vocabulario del modelo.

Definition

Un token es la unidad atómica de procesamiento de texto en un modelo de lenguaje. Antes de que un modelo de lenguaje pueda procesar texto, la cadena en bruto debe convertirse en una secuencia de tokens — unidades discretas tomadas de un vocabulario fijo. Los LLMs modernos típicamente usan algoritmos de tokenización por subpalabras como Byte Pair Encoding (BPE) o SentencePiece, que dividen el texto en una mezcla de palabras completas, subpalabras y caracteres individuales según la frecuencia. Las palabras comunes como 'the' se mapean a un solo token, mientras que los términos técnicos o raros se dividen en múltiples tokens de subpalabras.

La tokenización es una etapa crítica pero a menudo pasada por alto del pipeline de LLM. El tamaño del vocabulario del tokenizer (típicamente 32,000 a 128,000 tokens) determina la granularidad de la representación de texto del modelo. Vocabularios más grandes pueden representar texto más eficientemente (menos tokens por pasaje de texto) pero aumentan el tamaño de las capas de embedding y salida del modelo. Diferentes modelos usan diferentes tokenizers, lo que significa que el mismo texto produce diferentes secuencias de tokens para diferentes modelos — un hecho que importa al comparar longitudes de contexto o calcular costos.

Los tokens determinan directamente la economía de los LLM. Los proveedores de API cobran por token (tanto de entrada como de salida), por lo que la eficiencia de tokenización de un modelo afecta el costo por consulta. Un tokenizer que requiere 1.3 tokens por palabra es un 30% más caro por palabra que uno que requiere 1.0 tokens por palabra. Los límites de ventana de contexto también se miden en tokens, y el número de tokens consumidos por un prompt determina cuánto espacio queda para el contexto recuperado o la salida generada.

Why It Matters

Comprender los tokens es esencial para trabajar efectivamente con LLMs. Los límites de ventana de contexto, el dimensionamiento de datos de entrenamiento, los costos de inferencia y las velocidades de generación se miden todos en tokens. Un profesional que piensa en palabras en lugar de tokens calculará sistemáticamente mal los costos, sobreestimará el contexto disponible y juzgará incorrectamente los requisitos de datos de entrenamiento.

La tokenización también afecta el comportamiento del modelo de maneras sutiles. Los idiomas con escrituras no latinas a menudo se tokenizan menos eficientemente, requiriendo más tokens por unidad semántica, lo que reduce la longitud efectiva del contexto y aumenta los costos para aplicaciones multilingües. La tokenización de código puede ser particularmente ineficiente, con nombres de variables y tokens de sintaxis consumiendo muchos tokens individuales. Estas ineficiencias de tokenización impactan directamente la viabilidad de ciertos casos de uso.

How It Works

La mayoría de los LLMs modernos usan Byte Pair Encoding (BPE) o una variante. BPE comienza con un vocabulario base de bytes individuales (256 entradas) e iterativamente fusiona el par de tokens que co-ocurre más frecuentemente en un corpus de entrenamiento en un nuevo token. Este proceso se repite para un número fijo de operaciones de fusión, construyendo un vocabulario de unidades de subpalabras cada vez más comunes. En tiempo de inferencia, el tokenizer aplica estas fusiones aprendidas para dividir el texto de entrada en tokens.

Cada token se mapea a un ID entero en el vocabulario. La capa de embedding del modelo convierte cada ID de token en una representación vectorial densa, que fluye a través de las capas del transformer. En la salida, el modelo produce una distribución de probabilidad sobre todo el vocabulario para el siguiente token, y el token con la mayor probabilidad (o un token muestreado, dependiendo de la estrategia de generación) es seleccionado y decodificado de vuelta a texto.

Example Use Case

Un equipo que construye un asistente de código nota que la ventana de contexto de 4096 tokens de su modelo solo puede contener aproximadamente 200 líneas de código Python, porque el tokenizer divide muchos elementos de código (nombres de variables, indentación, operadores) en múltiples tokens. Cambian a un modelo con un tokenizer optimizado para código que logra 1.5x mejor eficiencia de tokenización para Python, expandiendo efectivamente su contexto utilizable a 300 líneas — suficiente para incluir las funciones y clases circundantes necesarias para un completado de código preciso.

Key Takeaways

Los tokens son las unidades de procesamiento fundamentales de los LLMs, típicamente subpalabras o palabras completas de un vocabulario fijo.
La eficiencia de tokenización varía por idioma, dominio y algoritmo del tokenizer, afectando costos y uso de contexto.
Las ventanas de contexto, costos y velocidades de generación se miden todos en tokens, no en palabras.
La mayoría de los modelos modernos usan tokenización BPE o SentencePiece con vocabularios de 32K-128K tokens.
Diferentes modelos tienen diferentes tokenizers, haciendo que los conteos de tokens no sean comparables entre modelos.

How Ertas Helps

Ertas Studio muestra conteos de tokens para los datasets de entrenamiento y valida que los ejemplos de entrenamiento quepan dentro de la ventana de contexto del modelo. Ertas Data Suite usa procesamiento consciente del tokenizer para asegurar que los datos estén correctamente segmentados para el modelo objetivo.

Related Resources

Context Window

Embedding

Tokenizer

Transformer

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →