What is Code-Action Agent(程式動作智慧體)?

    一種 AI 智慧體架構,LLM 以撰寫並執行 Python(或其他語言)程式碼作為主要動作格式,而非透過 JSON 函式呼叫從固定工具清單中挑選——由 Hugging Face 的 smolagents 框架推廣。

    Definition

    程式動作智慧體(code-action agent)的主要輸出格式是可執行程式碼——通常是 Python——而非結構化的工具呼叫 JSON。當智慧體決定採取行動時,它會撰寫一段程式碼來執行該動作:發出 HTTP 請求、查詢資料庫、轉換資料、產生檔案,或將數個操作組合成單一程式區塊。框架會執行這段程式碼,並將輸出回饋給智慧體,由其反覆迭代直至任務完成。

    比較程式動作智慧體與工具呼叫智慧體的研究一致顯示,程式動作典範在複雜的多步驟任務上勝過等價的工具呼叫設計。其原因屬結構性的:程式碼是比固定工具呼叫集合更具表達力的動作語言。智慧體可以自然地組合、轉換並對操作進行推理——將多個步驟串成單一動作、使用控制流程、處理邊界情況——而不是被限制在每步只能呼叫一個工具。Hugging Face 的 smolagents 是最具代表性的程式動作實作,並驅動了 ml-intern(Hugging Face 於 2026 年 4 月發布的自我提升研究智慧體)。

    Why It Matters

    對智慧體設計者而言,「程式動作 vs 工具呼叫」是基本的架構決策。工具呼叫智慧體較容易約束(您決定工具表面),並產生更易稽核的結構化日誌。程式動作智慧體在複雜任務上能力更強,但需要沙箱以確保安全。取捨取決於使用情境:受監管、高風險環境通常偏好工具呼叫的可預測性;研究、自動化與工程工作流程則往往受益於程式動作的表達力。

    Key Takeaways

    • 程式動作智慧體以可執行程式碼作為主要動作格式輸出
    • 在複雜多步驟任務上常優於等價的 JSON 工具呼叫智慧體
    • smolagents(Hugging Face)是最具代表性的程式動作框架
    • 需要執行沙箱以確保安全——通常是 Python 沙箱或容器
    • 最適合工程、研究與資料分析工作流程;不太適合高度受限的領域

    How Ertas Helps

    為程式動作智慧體框架微調模型時,Ertas Studio 支援包含任務描述、執行的 Python 程式碼軌跡與觀察輸出的訓練資料格式。如此可產出在您特定領域中能寫出更可靠智慧體程式碼的微調模型——尤其在搭配 smolagents 或類似框架部署到正式環境時格外有價值。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.