Active Learning
TécnicasUn enfoque de aprendizaje automático en el que el modelo consulta selectivamente a un anotador humano para etiquetar los ejemplos más informativos, maximizando la eficiencia de aprendizaje por muestra etiquetada.
Key terms and concepts explained simply.
Un enfoque de aprendizaje automático en el que el modelo consulta selectivamente a un anotador humano para etiquetar los ejemplos más informativos, maximizando la eficiencia de aprendizaje por muestra etiquetada.
Un pequeño conjunto de parámetros entrenables insertados en un modelo preentrenado congelado, que permite un fine-tuning eficiente sin modificar los pesos originales del modelo.
Patrón de orquestación multiagente donde un agente coordinador despacha trabajo a muchos subagentes paralelos y luego agrega sus resultados — popularizado en 2026 por el runtime Agent Swarm de Kimi K2.6, que escala hasta 300 subagentes en 4.000 pasos de razonamiento.
Arquitectura de agente de IA donde el LLM escribe y ejecuta código Python (u otro lenguaje) como su formato principal de acción, en lugar de elegir entre una lista fija de herramientas vía llamadas JSON — popularizada por el framework smolagents de Hugging Face.
Un paradigma de diseño donde los sistemas de IA planifican, razonan, usan herramientas y ejecutan flujos de trabajo de múltiples pasos de forma autónoma — yendo más all á de la respuesta a preguntas en un solo turno hacia un comportamiento sostenido y orientado a objetivos.
Un sistema de software autónomo que utiliza un modelo de lenguaje grande para percibir su entorno, tomar decisiones y ejecutar acciones para lograr objetivos — a menudo con acceso a herramientas como sistemas de archivos, API, navegadores y plataformas de mensajería.
El proceso de agregar metadatos estructurados, etiquetas o marcas a datos crudos por parte de anotadores humanos o sistemas automatizados para crear datasets de entrenamiento para aprendizaje supervisado.
Un mecanismo en modelos transformer que permite a cada token ponderar dinámicamente y enfocarse en las partes más relevantes de la secuencia de entrada al calcular su representación.
Activation-aware Weight Quantization (Cuantización de Pesos Consciente de Activaciones) — método de cuantización a 4 bits que protege los pesos salientes según la magnitud de activación, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua al mismo ancho de bits.
Un modelo fundacional preentrenado que ha sido entrenado en un corpus grande de propósito general y sirve como punto de partida para el fine-tuning en tareas específicas del dominio.
El número de ejemplos de entrenamiento procesados simultáneamente en un pase hacia adelante y hacia atrás durante el entrenamiento del modelo, afectando el uso de memoria, la velocidad de entrenamiento y el comportamiento de convergencia.
Un conjunto de pruebas estandarizado con tareas y métricas definidas, utilizado para evaluar y comparar el rendimiento de modelos de lenguaje entre diferentes modelos y configuraciones.
Una métrica que evalúa la calidad del texto generado por máquinas midiendo la superposición de n-gramas entre la salida generada y uno o más textos de referencia humanos.
Un fenómeno donde una red neuronal pierde conocimiento previamente aprendido al ser ajustada con nuevos datos, degradando el rendimiento en tareas que antes manejaba bien.
Una estructura de formato que define cómo los mensajes conversacionales (sistema, usuario, asistente) se tokenizan y organizan como entrada para un modelo de lenguaje.
Una instantánea guardada de los pesos y el estado de entrenamiento de un modelo en un punto específico durante el entrenamiento, que permite la recuperación, evaluación y selección de la versión con mejor rendimiento.
El número máximo de tokens que un modelo de lenguaje puede procesar en una sola secuencia de entrada-salida, determinando cuánto texto puede 'ver' el modelo a la vez.
Un conjunto de técnicas para aumentar artificialmente el tamaño y la diversidad de un dataset de entrenamiento creando copias modificadas de los puntos de datos existentes.
El proceso de identificar y eliminar entradas duplicadas o casi duplicadas de un dataset para prevenir artefactos de memorización y mejorar la eficiencia del entrenamiento.
El proceso de asignar etiquetas, categorías o anotaciones significativas a datos crudos para que los modelos de aprendizaje automático puedan aprender de ejemplos estructurados.
La práctica de rastrear datos desde su origen a través de cada transformación, paso de procesamiento y uso en el entrenamiento de modelos para mantener una pista de auditoría completa.
La práctica de rastrear y gestionar diferentes versiones de datasets a lo largo del tiempo, habilitando reproducibilidad, reversión y auditabilidad en flujos de trabajo de aprendizaje automático.
Mecanismo de atención dispersa aprendida introducido en DeepSeek-V3.2 y continuado en V4 que enruta cada token de consulta a un subconjunto de tokens clave en lugar de atenderlos todos, reduciendo dramáticamente el coste computacional de la inferencia de contexto largo.
El proceso de ajustar un modelo entrenado con datos generales para que funcione bien en un dominio específico, como salud, legal o finanzas.
Una alternativa más simple a RLHF que optimiza directamente un modelo de lenguaje con datos de preferencia humana sin requerir un modelo de recompensa separado ni aprendizaje por refuerzo.
Ejecutar la inferencia de modelos de IA localmente en dispositivos de usuario final o servidores de borde en lugar de centros de datos centralizados en la nube, habilitando operación sin conexión y privacidad de datos.
Una representación vectorial densa de un token, palabra o pasaje en un espacio matemático continuo donde la similitud semántica corresponde a la proximidad geométrica.
Un pase completo a través de todo el dataset de entrenamiento durante el proceso de fine-tuning del modelo.
Una técnica donde un modelo aprende a realizar una tarea a partir de solo un puñado de ejemplos etiquetados, típicamente proporcionados como demostraciones dentro del prompt.
El proceso de tomar un modelo de IA preentrenado y continuar entrenándolo en un dataset más pequeño y específico del dominio para especializar sus capacidades en una tarea o industria particular.
Una capacidad que permite a los modelos de lenguaje generar invocaciones de funciones estructuradas con los argumentos apropiados, permitiéndoles interactuar con herramientas externas y APIs.
Generalized Experience-based Procedural Acquisition (Adquisición Procedimental Generalizada Basada en Experiencia) — mecanismo de auto-mejora para agentes de IA que crea habilidades reutilizables a partir de finalizaciones exitosas de tareas y las refina mediante uso, popularizado por el framework Hermes Agent de Nous Research.
Un formato de archivo binario diseñado para almacenar modelos de lenguaje cuantizados, optimizado para carga rápida e inferencia eficiente en CPU y GPU mediante llama.cpp y runtimes compatibles.
Generalized Post-Training Quantization (Cuantización Generalizada Post-Entrenamiento) — método de cuantización de pesos a 4 bits que usa información de segundo orden de un dataset de calibración para minimizar el error de cuantización capa por capa, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua.
La memoria dedicada de alto ancho de banda en una unidad de procesamiento gráfico que almacena los pesos del modelo, las activaciones y los gradientes durante el entrenamiento y la inferencia.
Una técnica de entrenamiento que simula tamaños de lote más grandes acumulando gradientes a lo largo de múltiples pases hacia adelante antes de realizar una sola actualización de pesos.
Mecanismos de seguridad y filtros aplicados a las entradas y salidas de LLM para prevenir que contenido dañino, fuera de tema o que viola políticas llegue a los usuarios.
Cuando un modelo de lenguaje genera información que suena plausible pero es factualmente incorrecta, fabricada o no respaldada, sin estar fundamentada en sus datos de entrenamiento o contexto proporcionado.
Un valor de configuración establecido antes de que comience el entrenamiento que controla el proceso de aprendizaje en sí, a diferencia de los parámetros del modelo que se aprenden durante el entrenamiento.
El proceso de ejecutar un modelo de IA entrenado para generar predicciones o salidas a partir de nuevos datos de entrada, en contraposición a la fase de entrenamiento donde el modelo aprende de los datos.
Un enfoque de fine-tuning donde un modelo de lenguaje se entrena con pares de instrucción-respuesta para seguir indicaciones en lenguaje natural y producir salidas específicas de la tarea.
Un formato de datos basado en texto donde cada línea es un objeto JSON válido, ampliamente utilizado para estructurar datasets de fine-tuning, logging y pipelines de datos en streaming en flujos de trabajo de IA/ML.
Una técnica de compresión de modelos donde un modelo 'estudiante' más pequeño se entrena para replicar el comportamiento de un modelo 'maestro' más grande y capaz.
Un búfer de memoria que almacena los tensores de clave y valor previamente computados del mecanismo de atención, evitando cálculos redundantes durante la generación autorregresiva de texto.
Un hiperparámetro que controla cuánto se ajustan los pesos del modelo en respuesta a cada lote de datos de entrenamiento, influyendo directamente en la velocidad y estabilidad del entrenamiento.
La porción de la ventana de contexto anunciada de un modelo sobre la cual realmente retiene alta precisión de recuperación — típicamente sustancialmente más corta que el límite anunciado, con pérdida de información en el medio del contexto del 10-25% en la mayoría de modelos actuales.
Una técnica de fine-tuning eficiente en parámetros que inyecta pequeñas matrices entrenables de bajo rango en un modelo preentrenado congelado, reduciendo drásticamente la memoria y el cómputo necesarios para adaptar modelos de lenguaje grandes.
Protocolo abierto introducido por Anthropic para conectar asistentes de IA a fuentes de datos, herramientas y sistemas externos — proporcionando una interfaz estándar que cualquier cliente de modelo puede usar para interactuar con cualquier servidor compatible con MCP.
Una arquitectura de red neuronal que enruta cada entrada a un subconjunto de sub-redes especializadas (expertos), permitiendo mayor capacidad del modelo sin aumentar proporcionalmente el costo de cómputo.
Un conjunto de prácticas que combina aprendizaje automático, DevOps e ingeniería de datos para desplegar, monitorear y mantener modelos de ML de manera confiable en entornos de producción.
Un artefacto de documentación estandarizado que describe los usos previstos, las métricas de rendimiento, las limitaciones, las consideraciones éticas y la procedencia de los datos de entrenamiento de un modelo de aprendizaje automático.
Una técnica para transferir conocimiento de un modelo 'maestro' grande y capaz a un modelo 'estudiante' más pequeño y rápido, produciendo modelos compactos que se acercan al rendimiento del maestro en tareas específicas a una fracción del costo de inferencia.
El proceso sistemático de medir el rendimiento de un modelo de lenguaje usando métricas cuantitativas, evaluaciones cualitativas y benchmarks específicos del dominio.
La técnica de combinar los pesos de dos o más modelos ajustados en un solo modelo que hereda capacidades de todos los modelos fuente.
Dirigir solicitudes de inferencia de IA a diferentes modelos o adaptadores basándose en propiedades de la solicitud como tipo de tarea, identidad del cliente, complejidad o restricciones de costo — habilitando despliegues multi-modelo eficientes.
Servir a múltiples clientes o tenants desde un solo despliegue de modelo usando adaptadores LoRA por tenant, reduciendo los costos de infraestructura al compartir el modelo base mientras se entrega comportamiento de IA personalizado por tenant.
Un formato estándar abierto para representar modelos de aprendizaje automático, habilitando la interoperabilidad entre diferentes frameworks de entrenamiento y runtimes de inferencia.
Un modo de falla en el entrenamiento donde el modelo memoriza los ejemplos específicos de sus datos de entrenamiento en lugar de aprender patrones generalizables, causando un rendimiento pobre en entradas no vistas.
Un valor aprendible en una red neuronal — incluyendo pesos y sesgos — que el modelo ajusta durante el entrenamiento para minimizar el error de predicción.
Una métrica que mide qué tan bien un modelo de lenguaje predice una secuencia de texto, con valores más bajos indicando mejor predicción y comprensión del lenguaje más fluida.
El proceso de detectar y eliminar o enmascarar información de identificación personal (PII) de los conjuntos de datos para proteger la privacidad individual antes de usar los datos para el entrenamiento de modelos.
Ingeniería de software realizada por agentes de IA que planifican cambios multi-archivo, los ejecutan en una base de código e iteran según la retroalimentación de pruebas o compilación — medida por benchmarks como SWE-Bench Verified y SWE-Bench Pro.
La práctica de diseñar e iterar sobre los prompts de entrada para obtener las respuestas deseadas de grandes modelos de lenguaje sin modificar los pesos del modelo.
Un formato estructurado con marcadores de posición que define cómo se ensamblan las entradas del usuario, el contexto y las instrucciones en un prompt completo para un modelo de lenguaje.
Adaptación de Bajo Rango Cuantizada — una técnica de fine-tuning que combina cuantización de 4 bits con adaptadores LoRA, permitiendo ajustar grandes modelos de lenguaje en una sola GPU de consumo.
El proceso de reducir la precisión numérica de los pesos de un modelo (por ejemplo, de FP16 a INT8 o INT4) para reducir su huella de memoria y acelerar la inferencia sin sacrificar drásticamente la precisión.
Patrón de arquitectura de modelo que integra razonamiento extendido cadena-de-pensamiento en un checkpoint de chat estándar, con un control en tiempo de ejecución para alternar entre respuestas directas rápidas y razonamiento deliberativo más lento — reemplazando el patrón anterior de modelos solo-de-razonamiento separados.
La práctica de sondear sistemáticamente un sistema de IA con entradas adversariales para descubrir vulnerabilidades, modos de fallo y brechas de seguridad antes del despliegue.
Una arquitectura que mejora las respuestas de los LLM recuperando documentos relevantes de una base de conocimiento externa e incluyéndolos como contexto en el prompt.
Una técnica de entrenamiento que usa juicios de preferencia humana para ajustar modelos de lenguaje, alineando sus salidas con los valores y expectativas humanas.
Un formato de archivo seguro, rápido y eficiente en memoria para almacenar pesos de redes neuronales, diseñado como una alternativa más segura a los formatos basados en pickle de Python.
Una técnica de aceleración de inferencia que usa un modelo borrador pequeño y rápido para proponer múltiples tokens a la vez, que el modelo objetivo más grande verifica en paralelo.
La capacidad de un modelo de lenguaje para generar respuestas en un formato específico y analizable por máquinas como JSON, XML o YAML que se ajusta a un esquema predefinido.
Datos de entrenamiento generados artificialmente creados usando modelos de frontera, sistemas basados en reglas o técnicas de aumento de datos para complementar o reemplazar datos del mundo real para el fine-tuning de modelos de ML.
Una instrucción especial proporcionada al inicio de una conversación que define el comportamiento, la persona, las restricciones y el formato de respuesta del modelo.
Un parámetro de muestreo que controla la aleatoriedad de la salida de un modelo de lenguaje — valores más bajos producen respuestas más deterministas, valores más altos aumentan la creatividad y variedad.
El optimizador y runtime de inferencia de aprendizaje profundo de alto rendimiento de NVIDIA que maximiza el rendimiento y minimiza la latencia en GPUs NVIDIA.
La unidad fundamental de texto que procesa un modelo de lenguaje — típicamente una palabra, subpalabra o carácter que se mapea a un ID entero en el vocabulario del modelo.
El componente que convierte texto en bruto en una secuencia de tokens numéricos que un modelo de lenguaje puede procesar, y viceversa.
Una estrategia de muestreo que selecciona del conjunto más pequeño de tokens cuya probabilidad acumulada supera un umbral p, equilibrando la calidad de salida con la diversidad.
El dataset curado de ejemplos utilizado para ajustar un modelo de aprendizaje automático, típicamente formateado como pares estructurados de entrada-salida en formatos como JSONL.
Una técnica de aprendizaje automático donde un modelo entrenado en una tarea se adapta para una tarea diferente pero relacionada, aprovechando representaciones previamente aprendidas.
La arquitectura de red neuronal que subyace virtualmente a todos los grandes modelos de lenguaje modernos, usando mecanismos de autoatención para procesar secuencias en paralelo.
Capacidad de un LLM de invocar funciones externas, APIs o herramientas como parte de la generación de respuestas — implementada mediante esquemas estructurados de llamadas a funciones que el modelo produce y un runtime ejecuta, fundamental para todas las arquitecturas de agentes modernas.
Una base de datos especializada optimizada para almacenar, indexar y consultar embeddings vectoriales de alta dimensión usados en búsqueda por similitud y generación aumentada por recuperación.
Un enfoque de desarrollo donde los desarrolladores usan herramientas de codificación asistidas por IA como Cursor, Bolt.new y Replit para construir aplicaciones mediante prompts en lenguaje natural y colaboración iterativa con IA en lugar de escribir cada línea manualmente.
Un parámetro numérico en una red neuronal que se aprende durante el entrenamiento y determina cómo el modelo transforma los datos de entrada en predicciones de salida.
Productos o servicios de IA desarrollados por una empresa y remarcados por otra para que aparezcan como propios, permitiendo a agencias y revendedores ofrecer soluciones de IA personalizadas sin construir modelos desde cero.
La capacidad de un modelo para realizar una tarea para la que nunca fue explícitamente entrenado, usando solo instrucciones en lenguaje natural sin ningún ejemplo de demostración.