What is 代码动作智能体(Code-Action Agent)?
一种 AI 智能体架构,其中 LLM 编写并执行 Python(或其他语言)代码作为其主要动作格式,而不是通过 JSON 函数调用从固定工具列表中选择——由 Hugging Face 的 smolagents 框架推广。
Definition
代码动作智能体的主要输出格式是可执行代码——通常是 Python——而不是结构化工具调用 JSON。当智能体决定采取动作时,它会编写一段执行该动作的代码块:发出 HTTP 请求、查询数据库、转换数据、生成文件,或将多个操作组合成单个块。框架执行该代码并将输出反馈给智能体,智能体迭代直到任务完成。
比较代码动作智能体与工具调用智能体的研究一致表明,代码动作范式在复杂多步任务上优于等价的工具调用设置。原因是结构性的:代码是比固定工具调用集更具表达力的动作语言。智能体可以自然地组合、转换和推理操作——将多个步骤链接为单个动作、使用控制流并处理边缘情况。
Why It Matters
对于智能体设计者,代码动作 vs. 工具调用的选择是基本的架构决策。工具调用智能体更易于约束(您决定工具表面),并产生更易于审计的结构化日志。代码动作智能体在复杂任务上更有能力,但需要安全沙箱。权衡取决于您的用例:受监管的高风险环境通常偏好工具调用的可预测性;研究、自动化和工程工作流通常受益于代码动作的表达力。
Key Takeaways
- 代码动作智能体输出可执行代码作为主要动作格式
- 通常在复杂多步任务上优于等价的 JSON 工具调用智能体
- smolagents(Hugging Face)是最显著的代码动作框架
- 需要为安全执行进行沙箱化——通常是 Python 沙箱或容器
- 最适合工程、研究和数据分析工作流;不太适合高度受限的领域
How Ertas Helps
在为代码动作智能体框架使用而微调模型时,Ertas Studio 支持包含与执行的 Python 代码轨迹和观察输出配对的任务描述的训练数据格式。这产生在您特定领域中 编写更可靠智能体代码的微调模型——尤其在与 smolagents 或类似框架配对用于生产部署时特别有价值。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.