What is Code-Action Agent（程式動作智慧體）?

一種 AI 智慧體架構，LLM 以撰寫並執行 Python（或其他語言）程式碼作為主要動作格式，而非透過 JSON 函式呼叫從固定工具清單中挑選——由 Hugging Face 的 smolagents 框架推廣。

Definition

程式動作智慧體（code-action agent）的主要輸出格式是可執行程式碼——通常是 Python——而非結構化的工具呼叫 JSON。當智慧體決定採取行動時，它會撰寫一段程式碼來執行該動作：發出 HTTP 請求、查詢資料庫、轉換資料、產生檔案，或將數個操作組合成單一程式區塊。框架會執行這段程式碼，並將輸出回饋給智慧體，由其反覆迭代直至任務完成。

比較程式動作智慧體與工具呼叫智慧體的研究一致顯示，程式動作典範在複雜的多步驟任務上勝過等價的工具呼叫設計。其原因屬結構性的：程式碼是比固定工具呼叫集合更具表達力的動作語言。智慧體可以自然地組合、轉換並對操作進行推理——將多個步驟串成單一動作、使用控制流程、處理邊界情況——而不是被限制在每步只能呼叫一個工具。Hugging Face 的 smolagents 是最具代表性的程式動作實作，並驅動了 ml-intern（Hugging Face 於 2026 年 4 月發布的自我提升研究智慧體）。

Why It Matters

對智慧體設計者而言，「程式動作 vs 工具呼叫」是基本的架構決策。工具呼叫智慧體較容易約束（您決定工具表面），並產生更易稽核的結構化日誌。程式動作智慧體在複雜任務上能力更強，但需要沙箱以確保安全。取捨取決於使用情境：受監管、高風險環境通常偏好工具呼叫的可預測性；研究、自動化與工程工作流程則往往受益於程式動作的表達力。