AI & ML Glossary

    Key terms and concepts explained simply.

    Active Learning

    Técnicas

    Un enfoque de aprendizaje automático en el que el modelo consulta selectivamente a un anotador humano para etiquetar los ejemplos más informativos, maximizando la eficiencia de aprendizaje por muestra etiquetada.

    Adapter

    Técnicas

    Un pequeño conjunto de parámetros entrenables insertados en un modelo preentrenado congelado, que permite un fine-tuning eficiente sin modificar los pesos originales del modelo.

    Agent Swarm (Enjambre de Agentes)

    Techniques

    Patrón de orquestación multiagente donde un agente coordinador despacha trabajo a muchos subagentes paralelos y luego agrega sus resultados — popularizado en 2026 por el runtime Agent Swarm de Kimi K2.6, que escala hasta 300 subagentes en 4.000 pasos de razonamiento.

    Agente de Acción por Código (Code-Action Agent)

    Techniques

    Arquitectura de agente de IA donde el LLM escribe y ejecuta código Python (u otro lenguaje) como su formato principal de acción, en lugar de elegir entre una lista fija de herramientas vía llamadas JSON — popularizada por el framework smolagents de Hugging Face.

    Agentic AI

    Conceptos de IA

    Un paradigma de diseño donde los sistemas de IA planifican, razonan, usan herramientas y ejecutan flujos de trabajo de múltiples pasos de forma autónoma — yendo más allá de la respuesta a preguntas en un solo turno hacia un comportamiento sostenido y orientado a objetivos.

    AI Agent

    Conceptos de IA

    Un sistema de software autónomo que utiliza un modelo de lenguaje grande para percibir su entorno, tomar decisiones y ejecutar acciones para lograr objetivos — a menudo con acceso a herramientas como sistemas de archivos, API, navegadores y plataformas de mensajería.

    Annotation

    Técnicas

    El proceso de agregar metadatos estructurados, etiquetas o marcas a datos crudos por parte de anotadores humanos o sistemas automatizados para crear datasets de entrenamiento para aprendizaje supervisado.

    Attention

    Fundamentos de ML

    Un mecanismo en modelos transformer que permite a cada token ponderar dinámicamente y enfocarse en las partes más relevantes de la secuencia de entrada al calcular su representación.

    AWQ

    Infrastructure

    Activation-aware Weight Quantization (Cuantización de Pesos Consciente de Activaciones) — método de cuantización a 4 bits que protege los pesos salientes según la magnitud de activación, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua al mismo ancho de bits.

    Base Model

    Fundamentos de ML

    Un modelo fundacional preentrenado que ha sido entrenado en un corpus grande de propósito general y sirve como punto de partida para el fine-tuning en tareas específicas del dominio.

    Batch Size

    Fundamentos de ML

    El número de ejemplos de entrenamiento procesados simultáneamente en un pase hacia adelante y hacia atrás durante el entrenamiento del modelo, afectando el uso de memoria, la velocidad de entrenamiento y el comportamiento de convergencia.

    Benchmark

    Fundamentos de ML

    Un conjunto de pruebas estandarizado con tareas y métricas definidas, utilizado para evaluar y comparar el rendimiento de modelos de lenguaje entre diferentes modelos y configuraciones.

    BLEU Score

    Fundamentos de ML

    Una métrica que evalúa la calidad del texto generado por máquinas midiendo la superposición de n-gramas entre la salida generada y uno o más textos de referencia humanos.

    Catastrophic Forgetting

    Fundamentos de ML

    Un fenómeno donde una red neuronal pierde conocimiento previamente aprendido al ser ajustada con nuevos datos, degradando el rendimiento en tareas que antes manejaba bien.

    Chat Template

    Formatos de datos

    Una estructura de formato que define cómo los mensajes conversacionales (sistema, usuario, asistente) se tokenizan y organizan como entrada para un modelo de lenguaje.

    Checkpoint

    Fundamentos de ML

    Una instantánea guardada de los pesos y el estado de entrenamiento de un modelo en un punto específico durante el entrenamiento, que permite la recuperación, evaluación y selección de la versión con mejor rendimiento.

    Context Window

    Fundamentos de ML

    El número máximo de tokens que un modelo de lenguaje puede procesar en una sola secuencia de entrada-salida, determinando cuánto texto puede 'ver' el modelo a la vez.

    Data Augmentation

    Técnicas

    Un conjunto de técnicas para aumentar artificialmente el tamaño y la diversidad de un dataset de entrenamiento creando copias modificadas de los puntos de datos existentes.

    Data Deduplication

    Técnicas

    El proceso de identificar y eliminar entradas duplicadas o casi duplicadas de un dataset para prevenir artefactos de memorización y mejorar la eficiencia del entrenamiento.

    Data Labeling

    Técnicas

    El proceso de asignar etiquetas, categorías o anotaciones significativas a datos crudos para que los modelos de aprendizaje automático puedan aprender de ejemplos estructurados.

    Data Lineage

    Cumplimiento y privacidad

    La práctica de rastrear datos desde su origen a través de cada transformación, paso de procesamiento y uso en el entrenamiento de modelos para mantener una pista de auditoría completa.

    Data Versioning

    Herramientas y frameworks

    La práctica de rastrear y gestionar diferentes versiones de datasets a lo largo del tiempo, habilitando reproducibilidad, reversión y auditabilidad en flujos de trabajo de aprendizaje automático.

    DeepSeek Sparse Attention (DSA)

    ML Fundamentals

    Mecanismo de atención dispersa aprendida introducido en DeepSeek-V3.2 y continuado en V4 que enruta cada token de consulta a un subconjunto de tokens clave en lugar de atenderlos todos, reduciendo dramáticamente el coste computacional de la inferencia de contexto largo.

    Domain Adaptation

    Técnicas

    El proceso de ajustar un modelo entrenado con datos generales para que funcione bien en un dominio específico, como salud, legal o finanzas.

    DPO (Direct Preference Optimization)

    Técnicas

    Una alternativa más simple a RLHF que optimiza directamente un modelo de lenguaje con datos de preferencia humana sin requerir un modelo de recompensa separado ni aprendizaje por refuerzo.

    Edge Inference

    Infraestructura

    Ejecutar la inferencia de modelos de IA localmente en dispositivos de usuario final o servidores de borde en lugar de centros de datos centralizados en la nube, habilitando operación sin conexión y privacidad de datos.

    Embedding

    Fundamentos de ML

    Una representación vectorial densa de un token, palabra o pasaje en un espacio matemático continuo donde la similitud semántica corresponde a la proximidad geométrica.

    Epoch

    Fundamentos de ML

    Un pase completo a través de todo el dataset de entrenamiento durante el proceso de fine-tuning del modelo.

    Few-Shot Learning

    Técnicas

    Una técnica donde un modelo aprende a realizar una tarea a partir de solo un puñado de ejemplos etiquetados, típicamente proporcionados como demostraciones dentro del prompt.

    Fine-Tuning

    Fundamentos de ML

    El proceso de tomar un modelo de IA preentrenado y continuar entrenándolo en un dataset más pequeño y específico del dominio para especializar sus capacidades en una tarea o industria particular.

    Function Calling

    Fundamentos de ML

    Una capacidad que permite a los modelos de lenguaje generar invocaciones de funciones estructuradas con los argumentos apropiados, permitiéndoles interactuar con herramientas externas y APIs.

    GEPA

    Techniques

    Generalized Experience-based Procedural Acquisition (Adquisición Procedimental Generalizada Basada en Experiencia) — mecanismo de auto-mejora para agentes de IA que crea habilidades reutilizables a partir de finalizaciones exitosas de tareas y las refina mediante uso, popularizado por el framework Hermes Agent de Nous Research.

    GGUF

    Formatos de Datos

    Un formato de archivo binario diseñado para almacenar modelos de lenguaje cuantizados, optimizado para carga rápida e inferencia eficiente en CPU y GPU mediante llama.cpp y runtimes compatibles.

    GPTQ

    Infrastructure

    Generalized Post-Training Quantization (Cuantización Generalizada Post-Entrenamiento) — método de cuantización de pesos a 4 bits que usa información de segundo orden de un dataset de calibración para minimizar el error de cuantización capa por capa, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua.

    GPU Memory (VRAM)

    Infraestructura

    La memoria dedicada de alto ancho de banda en una unidad de procesamiento gráfico que almacena los pesos del modelo, las activaciones y los gradientes durante el entrenamiento y la inferencia.

    Gradient Accumulation

    Técnicas

    Una técnica de entrenamiento que simula tamaños de lote más grandes acumulando gradientes a lo largo de múltiples pases hacia adelante antes de realizar una sola actualización de pesos.

    Guardrails

    Cumplimiento y Privacidad

    Mecanismos de seguridad y filtros aplicados a las entradas y salidas de LLM para prevenir que contenido dañino, fuera de tema o que viola políticas llegue a los usuarios.

    Hallucination

    Fundamentos de ML

    Cuando un modelo de lenguaje genera información que suena plausible pero es factualmente incorrecta, fabricada o no respaldada, sin estar fundamentada en sus datos de entrenamiento o contexto proporcionado.

    Hyperparameter

    Fundamentos de ML

    Un valor de configuración establecido antes de que comience el entrenamiento que controla el proceso de aprendizaje en sí, a diferencia de los parámetros del modelo que se aprenden durante el entrenamiento.

    Inference

    Fundamentos de ML

    El proceso de ejecutar un modelo de IA entrenado para generar predicciones o salidas a partir de nuevos datos de entrada, en contraposición a la fase de entrenamiento donde el modelo aprende de los datos.

    Instruction Tuning

    Técnicas

    Un enfoque de fine-tuning donde un modelo de lenguaje se entrena con pares de instrucción-respuesta para seguir indicaciones en lenguaje natural y producir salidas específicas de la tarea.

    JSONL

    Formatos de Datos

    Un formato de datos basado en texto donde cada línea es un objeto JSON válido, ampliamente utilizado para estructurar datasets de fine-tuning, logging y pipelines de datos en streaming en flujos de trabajo de IA/ML.

    Knowledge Distillation

    Técnicas

    Una técnica de compresión de modelos donde un modelo 'estudiante' más pequeño se entrena para replicar el comportamiento de un modelo 'maestro' más grande y capaz.

    KV Cache

    Infraestructura

    Un búfer de memoria que almacena los tensores de clave y valor previamente computados del mecanismo de atención, evitando cálculos redundantes durante la generación autorregresiva de texto.

    Learning Rate

    Fundamentos de ML

    Un hiperparámetro que controla cuánto se ajustan los pesos del modelo en respuesta a cada lote de datos de entrenamiento, influyendo directamente en la velocidad y estabilidad del entrenamiento.

    Longitud de Contexto Efectiva

    ML Fundamentals

    La porción de la ventana de contexto anunciada de un modelo sobre la cual realmente retiene alta precisión de recuperación — típicamente sustancialmente más corta que el límite anunciado, con pérdida de información en el medio del contexto del 10-25% en la mayoría de modelos actuales.

    LoRA

    Técnicas

    Una técnica de fine-tuning eficiente en parámetros que inyecta pequeñas matrices entrenables de bajo rango en un modelo preentrenado congelado, reduciendo drásticamente la memoria y el cómputo necesarios para adaptar modelos de lenguaje grandes.

    MCP (Model Context Protocol)

    Tools & Frameworks

    Protocolo abierto introducido por Anthropic para conectar asistentes de IA a fuentes de datos, herramientas y sistemas externos — proporcionando una interfaz estándar que cualquier cliente de modelo puede usar para interactuar con cualquier servidor compatible con MCP.

    Mixture of Experts

    Fundamentos de ML

    Una arquitectura de red neuronal que enruta cada entrada a un subconjunto de sub-redes especializadas (expertos), permitiendo mayor capacidad del modelo sin aumentar proporcionalmente el costo de cómputo.

    MLOps

    Herramientas y Frameworks

    Un conjunto de prácticas que combina aprendizaje automático, DevOps e ingeniería de datos para desplegar, monitorear y mantener modelos de ML de manera confiable en entornos de producción.

    Model Card

    Cumplimiento y Privacidad

    Un artefacto de documentación estandarizado que describe los usos previstos, las métricas de rendimiento, las limitaciones, las consideraciones éticas y la procedencia de los datos de entrenamiento de un modelo de aprendizaje automático.

    Model Distillation

    Técnicas

    Una técnica para transferir conocimiento de un modelo 'maestro' grande y capaz a un modelo 'estudiante' más pequeño y rápido, produciendo modelos compactos que se acercan al rendimiento del maestro en tareas específicas a una fracción del costo de inferencia.

    Model Evaluation

    Fundamentos de ML

    El proceso sistemático de medir el rendimiento de un modelo de lenguaje usando métricas cuantitativas, evaluaciones cualitativas y benchmarks específicos del dominio.

    Model Merging

    Técnicas

    La técnica de combinar los pesos de dos o más modelos ajustados en un solo modelo que hereda capacidades de todos los modelos fuente.

    Model Routing

    Infraestructura

    Dirigir solicitudes de inferencia de IA a diferentes modelos o adaptadores basándose en propiedades de la solicitud como tipo de tarea, identidad del cliente, complejidad o restricciones de costo — habilitando despliegues multi-modelo eficientes.

    Multi-Tenant Inference

    Infraestructura

    Servir a múltiples clientes o tenants desde un solo despliegue de modelo usando adaptadores LoRA por tenant, reduciendo los costos de infraestructura al compartir el modelo base mientras se entrega comportamiento de IA personalizado por tenant.

    ONNX (Open Neural Network Exchange)

    Formatos de Datos

    Un formato estándar abierto para representar modelos de aprendizaje automático, habilitando la interoperabilidad entre diferentes frameworks de entrenamiento y runtimes de inferencia.

    Overfitting

    Fundamentos de ML

    Un modo de falla en el entrenamiento donde el modelo memoriza los ejemplos específicos de sus datos de entrenamiento en lugar de aprender patrones generalizables, causando un rendimiento pobre en entradas no vistas.

    Parameter

    Fundamentos de ML

    Un valor aprendible en una red neuronal — incluyendo pesos y sesgos — que el modelo ajusta durante el entrenamiento para minimizar el error de predicción.

    Perplexity

    Fundamentos de ML

    Una métrica que mide qué tan bien un modelo de lenguaje predice una secuencia de texto, con valores más bajos indicando mejor predicción y comprensión del lenguaje más fluida.

    PII Redaction

    Cumplimiento y privacidad

    El proceso de detectar y eliminar o enmascarar información de identificación personal (PII) de los conjuntos de datos para proteger la privacidad individual antes de usar los datos para el entrenamiento de modelos.

    Programación Agentiva (Agentic Coding)

    Techniques

    Ingeniería de software realizada por agentes de IA que planifican cambios multi-archivo, los ejecutan en una base de código e iteran según la retroalimentación de pruebas o compilación — medida por benchmarks como SWE-Bench Verified y SWE-Bench Pro.

    Prompt Engineering

    Técnicas

    La práctica de diseñar e iterar sobre los prompts de entrada para obtener las respuestas deseadas de grandes modelos de lenguaje sin modificar los pesos del modelo.

    Prompt Template

    Fundamentos de ML

    Un formato estructurado con marcadores de posición que define cómo se ensamblan las entradas del usuario, el contexto y las instrucciones en un prompt completo para un modelo de lenguaje.

    QLoRA

    Técnicas

    Adaptación de Bajo Rango Cuantizada — una técnica de fine-tuning que combina cuantización de 4 bits con adaptadores LoRA, permitiendo ajustar grandes modelos de lenguaje en una sola GPU de consumo.

    Quantization

    Técnicas

    El proceso de reducir la precisión numérica de los pesos de un modelo (por ejemplo, de FP16 a INT8 o INT4) para reducir su huella de memoria y acelerar la inferencia sin sacrificar drásticamente la precisión.

    Razonamiento Híbrido (Hybrid Reasoning)

    ML Fundamentals

    Patrón de arquitectura de modelo que integra razonamiento extendido cadena-de-pensamiento en un checkpoint de chat estándar, con un control en tiempo de ejecución para alternar entre respuestas directas rápidas y razonamiento deliberativo más lento — reemplazando el patrón anterior de modelos solo-de-razonamiento separados.

    Red Teaming

    Cumplimiento y privacidad

    La práctica de sondear sistemáticamente un sistema de IA con entradas adversariales para descubrir vulnerabilidades, modos de fallo y brechas de seguridad antes del despliegue.

    Retrieval-Augmented Generation (RAG)

    Fundamentos de ML

    Una arquitectura que mejora las respuestas de los LLM recuperando documentos relevantes de una base de conocimiento externa e incluyéndolos como contexto en el prompt.

    RLHF (Reinforcement Learning from Human Feedback)

    Técnicas

    Una técnica de entrenamiento que usa juicios de preferencia humana para ajustar modelos de lenguaje, alineando sus salidas con los valores y expectativas humanas.

    SafeTensors

    Formatos de datos

    Un formato de archivo seguro, rápido y eficiente en memoria para almacenar pesos de redes neuronales, diseñado como una alternativa más segura a los formatos basados en pickle de Python.

    Speculative Decoding

    Técnicas

    Una técnica de aceleración de inferencia que usa un modelo borrador pequeño y rápido para proponer múltiples tokens a la vez, que el modelo objetivo más grande verifica en paralelo.

    Structured Output

    Fundamentos de ML

    La capacidad de un modelo de lenguaje para generar respuestas en un formato específico y analizable por máquinas como JSON, XML o YAML que se ajusta a un esquema predefinido.

    Synthetic Data

    Técnicas

    Datos de entrenamiento generados artificialmente creados usando modelos de frontera, sistemas basados en reglas o técnicas de aumento de datos para complementar o reemplazar datos del mundo real para el fine-tuning de modelos de ML.

    System Prompt

    Técnicas

    Una instrucción especial proporcionada al inicio de una conversación que define el comportamiento, la persona, las restricciones y el formato de respuesta del modelo.

    Temperature

    Fundamentos de ML

    Un parámetro de muestreo que controla la aleatoriedad de la salida de un modelo de lenguaje — valores más bajos producen respuestas más deterministas, valores más altos aumentan la creatividad y variedad.

    TensorRT

    Infraestructura

    El optimizador y runtime de inferencia de aprendizaje profundo de alto rendimiento de NVIDIA que maximiza el rendimiento y minimiza la latencia en GPUs NVIDIA.

    Token

    Fundamentos de ML

    La unidad fundamental de texto que procesa un modelo de lenguaje — típicamente una palabra, subpalabra o carácter que se mapea a un ID entero en el vocabulario del modelo.

    Tokenizer

    Fundamentos de ML

    El componente que convierte texto en bruto en una secuencia de tokens numéricos que un modelo de lenguaje puede procesar, y viceversa.

    Top-p (Nucleus Sampling)

    Fundamentos de ML

    Una estrategia de muestreo que selecciona del conjunto más pequeño de tokens cuya probabilidad acumulada supera un umbral p, equilibrando la calidad de salida con la diversidad.

    Training Data

    Formatos de datos

    El dataset curado de ejemplos utilizado para ajustar un modelo de aprendizaje automático, típicamente formateado como pares estructurados de entrada-salida en formatos como JSONL.

    Transfer Learning

    Técnicas

    Una técnica de aprendizaje automático donde un modelo entrenado en una tarea se adapta para una tarea diferente pero relacionada, aprovechando representaciones previamente aprendidas.

    Transformer

    Fundamentos de ML

    La arquitectura de red neuronal que subyace virtualmente a todos los grandes modelos de lenguaje modernos, usando mecanismos de autoatención para procesar secuencias en paralelo.

    Uso de Herramientas (Tool Use)

    Techniques

    Capacidad de un LLM de invocar funciones externas, APIs o herramientas como parte de la generación de respuestas — implementada mediante esquemas estructurados de llamadas a funciones que el modelo produce y un runtime ejecuta, fundamental para todas las arquitecturas de agentes modernas.

    Vector Database

    Infraestructura

    Una base de datos especializada optimizada para almacenar, indexar y consultar embeddings vectoriales de alta dimensión usados en búsqueda por similitud y generación aumentada por recuperación.

    Vibe Coding

    Herramientas y frameworks

    Un enfoque de desarrollo donde los desarrolladores usan herramientas de codificación asistidas por IA como Cursor, Bolt.new y Replit para construir aplicaciones mediante prompts en lenguaje natural y colaboración iterativa con IA en lugar de escribir cada línea manualmente.

    Weight

    Fundamentos de ML

    Un parámetro numérico en una red neuronal que se aprende durante el entrenamiento y determina cómo el modelo transforma los datos de entrada en predicciones de salida.

    White-Label AI

    Herramientas y frameworks

    Productos o servicios de IA desarrollados por una empresa y remarcados por otra para que aparezcan como propios, permitiendo a agencias y revendedores ofrecer soluciones de IA personalizadas sin construir modelos desde cero.

    Zero-Shot Learning

    Técnicas

    La capacidad de un modelo para realizar una tarea para la que nunca fue explícitamente entrenado, usando solo instrucciones en lenguaje natural sin ningún ejemplo de demostración.