Agent Swarm(智能体集群)
Techniques一种多智能体编排模式,由协调智能体将工作分派给多个并行子智能体,然后汇总它们的结果——2026 年由 Kimi K2.6 的 Agent Swarm 运行时推广,可扩展至 300 个子智能体和 4,000 个推理步骤。
Key terms and concepts explained simply.
一种多智能体编排模式,由协调智能体将工作分派给多个并行子智能体,然后汇总它们的结果——2026 年由 Kimi K2.6 的 Agent Swarm 运行时推广,可扩展至 300 个子智能体和 4,000 个推理步骤。
一种自主软件系统,使用大语言模型感知环境、做出决策并采取行动以实现目标——通常可以访问文件系统、API、浏览器和消息平台等工具。
Activation-aware Weight Quantization(激活感知权重量化)——一种 4 位量化方法,根据激活幅度保护显著权重,在相同位宽下产生比朴素量化更高质量的压缩模型。
一种通过衡量生成输出与一个或多个人类参考文本之间的n-gram重叠来评估机器生成文本质量的指标。
DeepSeek-V3.2 引入并在 V4 中延续的学习型稀疏注意力机制,将每个查询 token 路由到键 token 的子集而非全部,显著降低长上下文推理的计算成本。
RLHF的一种更简单替代方案,无需单独的奖励模型或强化学习,直接在人类偏好数据上优化语言模型。
模型微调过程中对整个训练数据集进行的一次完整遍历。
Generalized Experience-based Procedural Acquisition(基于广义经验的程序性获取)——一种 AI 智能体的自我改进机制,从成功完成的任务中创建可重用技能并通过使用进行精炼,由 Nous Research 的 Hermes Agent 框架推广。
一种专为存储量化大语言模型设计的二进制文件格式,针对通过llama.cpp及兼容运行时的快速加载和高效CPU/GPU推理进行了优化。
Generalized Post-Training Quantization(广义训练后量化)——一种 4 位权重量化方法,使用来自校准数据集的二阶信息逐层最小化量化误差,产生比朴素量化更高质量的压缩模型。
图形处理单元上的专用高带宽内存,在训练和推理期间存储模型权重、激活值和梯度。
一种基于文本的数据格式,每行是一个有效的JSON对象,广泛用于在AI/ML工作流中结构化微调数据集、日志记录和流式数据管道。
存储注意力机制中先前计算的键和值张量的内存缓冲区,避免在自回归文本生成过程中的冗余计算。
一种参数高效微调技术,将小型可训练低秩矩阵注入冻结的预训练模型中,大幅减少适配大语言模型所需的内存和计算量。
Anthropic 引入的开放协议,用于将 AI 助手连接到外部数据源、工具和系统——提供任何模型客户端都可用于与任何 MCP 兼容服务器交互的标准接口。
一套结合机器学习、DevOps 和数据工程的实践方法,用于在生产环境中可靠地部署、监控和维护 ML 模型。
一种用于表示机器学习模型的开放标准格式,实现不同训练框架和推理运行时之间的互操作性。
在将数据用于模型训练之前,从数据集中检测并删除或遮蔽个人身份信息以保护个人隐私的过程。
量化低秩自适应——一种结合 4 位量化与 LoRA 适配器的微调技术,使大语言模型能够在单个消费级 GPU 上进行微调。
一种使用人类偏好判断来微调语言模型的训练技术,使模型输出与人类价值观和期望对齐。
一种安全、快速且内存高效的文件格式,用于存储神经网络权重,旨在作为基于 Python pickle 格式的更安全替代方案。
NVIDIA 的高性能深度学习推理优化器和运行时,在 NVIDIA GPU 上最大化吞吐量并最小化延迟。
语言模型处理的基本文本单位——通常是一个单词、子词或字符,映射到模型词汇表中的一个整数 ID。
一种采样策略,从累积概率超过阈值 p 的最小 token 集合中进行 选择,在输出质量和多样性之间取得平衡。
几乎所有现代大语言模型的基础神经网络架构,使用自注意力机制并行处理序列。
一种开发方式,开发者使用 Cursor、Bolt.new 和 Replit 等 AI 辅助编程工具,通过自然语言提示和迭代式 AI 协作来构建应用,而非手动编写每一行代码。
语言模型在单次输入-输出序列中能够处理的最大token数量,决定了模型一次能「看到」多少文本。
一种机器学习方法,模型有选择地查询人类标注者来标注最具信息量的样本,从而最大化每个已标注样本的学习效率。
一种 AI 智能体架构,其中 LLM 编写并执行 Python(或其他语言)代码作为其主要动作格式,而不是通过 JSON 函数调用从固定工具列表中选择——由 Hugging Face 的 smolagents 框架推广。
一种能力,允许语言模型生成带有适当参数的结构化函数调用,使其能够与外部工具和API交互。
将原始文本转换为语言模型可以处理的数值 token 序列的组件,也可以执行反向转换。
神经网络中的可学习值——包括权重和偏置——模型在训练过程中调整这些值以最小化预测误差。
使用前沿模型、基于规则的系统或数据增强技术人工生成的训练数据,用于补充或替代真实数据来微调机器学习模型。
一种专门优化的数据库,用于存储、索引和查询在相似性搜索和检索增强生成中使用的高维向量嵌入。
衡量语言模型预测文本序列能力的指标,数值越低表示预测越好、语言理解越流畅。
一套标准化的测试套件,包含定义好的任务和指标,用于评估和比较不同模型和配置下的语言模型性能。
在大规模通用语料库上预训练的基础模型,作为在领域特定任务上进行微调的起点。
使用每个租户独立的 LoRA 适配器从单个模型部署中为多个客户或租户提供服务,通过共享基础模型降低基础设施成本,同时为每个租户提供定制的 AI 行为。
一个控制模型权重在每批训练数据后调整幅度的超参数,直接影响训练速度和稳定性。
应用于LLM输入和输出的安全机制和过滤器,防止有害、偏题或违反策略的内容到达用户。
一种技术,模型仅从少量标注样本中学习执行任务,这些样本通常作为示例包含在提示中。
token、词或段落在连续数学空间中的稠密向量表示,其中语义相似性对应于几何上的接近程度。
LLM 在响应生成过程中调用外部函数、API 或工具的能力——通过模型生成、运行时执行的结构化函数调用模式实现,是所有现代智能体架构的基础。
当语言模型生成听起来合理但事实上不正确、虚构或缺乏依据的信息,这些信息不基于其训练数据或提供的上下文。
将预训练AI模型在较小的领域特定数据集上进一步训练,以专业化其能力以适应特定任务或行业的过程。
模型训练过程中在一次前向-反向传播中同时处理的训练样本数量,影响内存使用、训练速度和收敛行为。
一种微调方法,在指令-回复对上训练语言模型以遵循自然语言指令并产生特定任务的输出。
一种推理加速 技术,使用小型快速的草稿模型一次性提议多个 token,然后由较大的目标模型并行验证。
运行已训练AI模型从新输入数据中生成预测或输出的过程,与模型从数据中学习的训练阶段相对。
在不修改模型权重的情况下,通过设计和迭代输入提示来从大语言模型中引出期望输出的实践。
一种带有占位符的结构化格式,定义如何将用户输入、上下文和指令组装成发送给语言模型的完整提示。
识别和删除数据集中重复或近似重复条目的过程,以防止记忆化伪影并提高训练效率。
一组通过创建现有数据点的修改副本来人为增加训练数据集规模和多样性的技术。
为原始数据分配有意义的标签、类别或注释的过程,使机器学习模型能够从结构化样本中学习。
跟踪和管理数据集随时间变化的不同版本的实践,实现机器学习工作流中的可重现性、回滚和可审计性。
跟踪数据从源头经过每个转换、处理步骤到模型训练使用的全过程,以维护完整的审计 轨迹。
一种设计范式,AI系统能够自主规划、推理、使用工具并执行多步骤工作流——超越单轮问答,实现持续的目标导向行为。
由 AI 智能体执行的软件工程,能够规划多文件更改、跨代码库执行更改,并根据测试或构建反馈进行迭代——通过 SWE-Bench Verified 和 SWE-Bench Pro 等基准衡量。
模型实际保持高检索准确性的广告上下文窗口部分——通常显著短于广告限制,大多数当前模型在中部上下文存在 10-25% 的信息丢失。
神经网络中通过训练学习的数值参数,决定模型如何将输入数据转换为输出预测。
由人类标注者或自动化系统为原始数据添加结构化元数据、标签或标记的过程,用于创建监督学习的训练数据集。
一种训练技术,通过在多次前向传播中累积梯度然后执行一次权重更新来模拟更大的批量大小。
在训练过程中某个特定时间点保存的模型权重和训练状态的快照,支持恢复、评估和选择最佳性能版本。
一种通过从外部知识库检索相 关文档并将其作为上下文包含在提示中来增强大语言模型响应的架构。
一种标准化的文档产物,描述机器学习模型的预期用途、性能指标、局限性、伦理考量和训练数据来源。
将两个或多个微调模型的权重合并为一个单一模型的技术,使合并后的模型继承所有源模型的能力。
一种将知识从大型、高能力的「教师」模型转移到更小、更快的「学生」模型的技术,在推理成本大幅降低的情况下生成性能接近教师模型的紧凑模型。
使用定量指标、定性评估和领域特定基准测试系统地衡量语言模型性能的过程。
根据请求属性(如任务类型、客户身份、复杂度或成本约束)将 AI 推理请求分发到不同的模型或适配器,实现高效的多模型部署。
Transformer模型中的一种机制,允许每个token在计算其表示时动态地加权并关注输入序列中最相关的部分。
一种神经网络架构,将每个输入路由到一部分专门的子网络(专家),从而在不成比例增加计算成本的情况下实现更大的模型容量。
一种模型架构模式,将扩展的思维链推理集成到标准聊天检查点中,并通过运行时控制在快速直接响应和较慢深思熟虑推理之间切换——取代了较旧的独立推理专用模型模式。
一个采样参数,控制语言模型输出的随机性——较低的值产生更确定性的响应,较高的值增加创造性和多样性。
一种现象,神经网络在新数据上微调时丧失先前学到的知识,导致此前能良好处理的任务性能下降。
由一家公司开发并由另一家公司贴牌以作为自有产品呈现的 AI 产品或服务,允许代理商和经销商在不从头构建模型的情况下提供定制 AI 解决方案。
一种模型压缩技术,训练较小的「学生」模型来复制较大、更强的「教师」模型的行为。
在对话开头提供的特殊指令,用于定义模型的行为、角色、约束和响应格式。
通过对抗性输入系统地探测 AI 系统,在部署前发现漏洞、失败模式和安全缺口的实践。
语言模型以特定的、机器可解析的格式(如 JSON、XML 或 YAML)生成符合预定义 schema 的响应的能力。
一种格式化结构,定义了对话消息(系统、用户、助手)如何被分词并排列为语言模型的输入。
用于微调机器学习模型的精心策划的示例数据集,通常以 JSONL 等格式的结构化输入输出对进行格式化。
在训练开始前设定的配置值,控制学习过程本身,区别于在训练过程中学习到的模型参数。
在终端用户设备或边缘服务器上本地运行AI模型推理,而非在集中式云数据中心中,实现离线操作和数据隐私保护。
一种机器学习技术,将在一个任务上训练的模型适配到不同但相关的任务上,利用先前学到的表示。
一种训练失败模式,模型记忆了训练数据中的具体示例 而非学习可泛化的模式,导致在未见过的输入上表现不佳。
一组插入到冻结预训练模型中的小型可训练参数,能够在不修改原始模型权重的情况下实现高效微调。
降低模型权重数值精度(例如从 FP16 到 INT8 或 INT4)以缩小内存占用并加速推理,同时不大幅牺牲准确性的过程。
模型在没有任何示例演示的情况下,仅使用自然语言指令执行其从未被显式训练过的任务的能力。
将在通用数据上训练的模型调整为在特定领域(如医疗、法律或金融)上表现良好的过程。