
CrewAI 的微調模型:無 API 成本的多代理工作流程
一個包含 4 個代理、每次任務進行 20 次以上 LLM 呼叫的 CrewAI 工作流程,使用 GPT-4 每次執行可能花費 2-5 美元。微調的本地模型讓多代理工作流程在經濟上可行。
CrewAI 讓多代理工作流程變得易於使用。定義具有角色的代理、給予它們工具、將它們連接成一個團隊,讓它們在複雜任務上協作。研究員收集資訊、分析師評估資訊、作者生成輸出、審查員檢查輸出。四個代理,一個凝聚的工作流程。
問題在於「四個代理協作」意味著「四個代理各自進行 5-10 次 LLM 呼叫」。一次 GPT-4o 上的單一團隊執行很容易達到 20-40 次 API 呼叫。以每百萬輸入/輸出 tokens $2.50/$10 的定價,每個代理每步處理 2,000-5,000 tokens,一次任務執行花費 $2-5。
每天執行該團隊 100 次——適度的生產工作負載——你每天花費 $200-$500。這是每月 $6,000-$15,000,僅用於工作流程自動化工具。
多代理架構有成本倍增問題。你添加的每個代理都會倍增 API 帳單。微調的本地模型是讓多代理工作流程在規模上經濟可持續的唯一方式。
成本倍增問題
單代理架構有線性成本關係:一個請求,一次 LLM 呼叫,一次收費。多代理架構有倍增關係。
考慮一個內容創建團隊:
- 研究代理: 搜尋網路、閱讀來源、生成研究摘要(3-5 次 LLM 呼叫)
- 作者代理: 接受摘要並生成草稿(2-3 次 LLM 呼叫)
- 編輯代理: 審查草稿、提出修改建議、改寫段落(3-5 次 LLM 呼叫)
- SEO 代理: 分析內容、添加關鍵詞、優化結構(2-3 次 LLM 呼叫)
每篇文章 有 10-16 次 LLM 呼叫。以 GPT-4o 定價和平均提示大小:
- 每篇文章:$1.50-$4.00
- 每天 10 篇文章:$15-$40
- 每月 300 篇文章:$450-$1,200
現在添加一個事實核查代理和格式化代理。每篇文章達到 16-24 次呼叫,每月花費 $2,500-$5,000。成本與代理數量線性增長,也與任務量線性增長。將兩者相乘,成本迅速複合。
哪些 CrewAI 角色適合微調模型
並非團隊中的每個代理角色都需要相同級別的模型能力。以下是實用分類:
適合微調 7-8B 模型的角色
研究/收集代理
這些代理接受主題、制定搜索查詢,並從工具結果中合成資訊。核心任務是查詢生成(結構化輸出)和摘要(壓縮)。微調模型可靠地處理兩者。
微調的研究代理學習你的特定研究模式:你偏好哪些來源、你希望摘要如何格式化、要包含什麼詳細程度。它比帶系統提示的 GPT-4 產生更一致的研究摘要,因為訓練資料直接編碼了你的偏好。
作者/生成代理
對於特定領域的寫作——產品描述、支援文件、具有特定品牌聲音的行銷文案——微調模型往往比提示的 GPT-4 更好。它們不會偏離你的風格。它們不會添加你不想要的限定語。它們聽起來像你的品牌,因為它們是在你品牌的內容上訓練的。
分析/分類代理
評估、評分或分類輸入的代理。「這條線索是否合格?」「這個評論的情感是什麼?」「哪個部門應該處理這張票?」這些是分類任務——微調小模型的最佳點。
格式化/後處理代理
接受原始輸出並為特定目標格式化的代理:轉換為 Markdown、生成 HTML、結構化為 JSON、為特定 API 格式化。純結構化輸出任務,微調模型達到 99% 以上的合規性。
仍然受益於前沿模型的角色
策略規劃代理
需要為新問題創建多步驟計劃的代理。「給定這些業務限制,設計針對這些人口統計跨這些渠道的行銷活動。」這需要對新穎因素組合進行創造性推理。
複雜推理代理
需要評估多個矛盾資料點並做出細緻判斷的代理。「給定這三個矛盾的評論、這個定價資料和這些市場趨勢,推薦投資策略。」涉及權衡的多因素推理是前沿模型保持優勢的地方。
對抗性審查代理
專門設計來尋找缺陷、挑戰假設和壓力測試輸出的代理。這些需要較大模型的廣泛知識和推理靈活性來捕獲細微錯誤。
為不同代理分配不同模型
CrewAI 支援每個代理的自訂 LLM 配置。以下是如何實作混合模型團隊:
from crewai import Agent, Crew, Task
from langchain_ollama import ChatOllama
from langchain_openai import ChatOpenAI
# 用於特定角色的微調本地模型
researcher_llm = ChatOllama(model="ft-researcher-8b")
writer_llm = ChatOllama(model="ft-writer-8b")
editor_llm = ChatOllama(model="ft-editor-8b")
# 用於策略規劃的 GPT-4o
strategist_llm = ChatOpenAI(model="gpt-4o")
researcher = Agent(
role="Research Analyst",
goal="Gather and synthesize information on the given topic",
llm=researcher_llm,
tools=[search_tool, web_scraper],
)
writer = Agent(
role="Content Writer",
goal="Produce clear, well-structured content",
llm=writer_llm,
)
editor = Agent(
role="Content Editor",
goal="Review and improve content quality",
llm=editor_llm,
)
strategist = Agent(
role="Content Strategist",
goal="Develop content strategy and evaluate alignment with business goals",
llm=strategist_llm, # 複雜推理保留在 GPT-4 上
)
這讓你在 4 個代理中的 3 個獲得本地推論的成本優勢,同時為真正需要的那一個代理保留前沿模型推理。
訓練每個代理角色的專用 LoRA 適配器
最有效的方法:一個基礎模型,多個 LoRA 適配器——每個代理角色一個。每個適配器針對其特定任務專門化基礎模型。
基礎模型選擇
Llama 3.1 8B Instruct 和 Qwen 2.5 7B Instruct 是 2026 年代理適配器的實用選擇。兩者都原生支援工具呼叫,都能良好處理結構化輸出,都能在 24GB GPU 上舒適地運行,並且有足夠的空間在記憶體中容納多個 LoRA 適配器。
按角色的適配器訓練資料
研究適配器訓練資料:
- 輸入:研究主題 + 可用工具
- 輸出:結構化的研究查詢、工具呼叫、摘要結果
- 格式:展示完整研究過程的多輪對話
- 資料集大小:300-600 個範例
作者適配器訓練資料:
- 輸入:研究摘要或內容大綱 + 風格指南
- 輸出:目標格式的完成內容
- 格式:帶有風格一致範例的輸入-輸出配對
- 資料集大小:500-1,000 個範例(更多資料 = 更好的風格一致性)
編輯適配器訓練資料:
- 輸入:草稿內容 + 編輯指南
- 輸出:帶有追蹤修改或編輯評論的已編輯內容
- 格式:展示具體編輯和推理的前後配對
- 資料集大小:400-800 個範例
分析適配器訓練資料:
- 輸入:需要評估的資料或內容
- 輸出:特定格式的結構化分析(分數、類別、建議)
- 格式:輸入 → 結構化 JSON 輸出
- 資料集大小:300-500 個範例
訓練過程
將每個資料集作為單獨的微調任務上傳到 Ertas。為所有適配器選擇相同的基礎模型。每次訓練執行產生一個 LoRA 適配器文件(50-200MB)。將所有適配器儲存在與基礎模型相同的機器上。
總訓練時間:每個適配器 1-3 小時,四個代理團隊需要 4-12 小時。總適配器儲存空間:四代理團隊 200-800MB。相比之下,四個獨立完整模型副本每個 4GB。
成本比較:三種配置
讓我們比較一個每天運行 500 個任務的四代理內容團隊。
配置 1:全部使用 GPT-4o
每個代理使用 GPT-4o。每次任務 20 次 LLM 呼叫,每次呼叫約 3,000 tokens。
- 10,000 次呼叫/天 × 3,000 tokens × $6.25/M tokens(混合費率)
- 每天 $187.50 → 每月 $5,625
配置 2:混合團隊(3 個本地,1 個 GPT-4o)
研究員、作者、編輯使用微調本地模型。策略師使用 GPT-4o。
- 15,000 次本地呼叫/天:$0
- 5,000 次 GPT-4o 呼叫/天 × 3,000 tokens × $6.25/M tokens:每天 $93.75
- 雲端 GPU (A10G):每月 $300
- 每天 $93.75 + 每月 $300 → 每月 $3,112(降低 45%)
配置 3:全部本地(GPT-4o 僅作備用)
所有代理使用微調本地模型。GPT-4o 僅在置信度低時呼叫(約 5% 的任務)。
- 19,500 次本地呼叫/天:$0
- 500 次 GPT-4o 呼叫/天 × 3,000 tokens × $6.25/M tokens:每天 $9.38
- 雲端 GPU (A10G):每月 $300
- 每天 $9.38 + 每月 $300 → 每月 $581(降低 90%)
從每月 $5,625 降低到 $581。單一團隊工作流程每年節省 $60,528。
處理代理間通訊
在 CrewAI 中,代理通過將輸出作為上下文傳遞給下一個代理進行通訊。當所有代理使用 GPT-4 時,這自然有效——每個代理接收前一個代理輸出的完整上下文視窗。
使用微調本地模型時,你需要謹慎考慮上下文管理:
保持代理間訊息簡潔。 訓練你的代理產生結構化的緊湊輸出,而不是冗長的敘述。輸出 JSON 結構化摘要的研究員比寫 2,000 字文章的研究員更好——下一個代理處理的上下文更少,推論更快,解析更可預測。
標準化通訊格式。 為每個代理間交接定義一個 schema。研究員輸出 {"topic": "...", "key_facts": [...], "sources": [...]}。作者期望確切這種格式。在這個共享 schema 上微調兩個代理。這消除了代理以自由格式文字通訊時浪費 tokens 的格式協商。
使用較小的上下文視窗。 微調的 8B 模型在 2,048-4,096 token 上下文中工作良好。設計你的代理通訊以適應這些限制。如果研究員的輸出超過 2K tokens,在傳遞給作者之前添加一個摘要 步驟(也是微調的)。
監控與迭代
部署微調團隊後,監控這些指標:
- 每個代理的任務成功率: 每個代理是否成功完成其角色?
- 端到端團隊成功率: 完整工作流程是否產生可接受的輸出?
- 備用率: 本地代理多常觸發 GPT-4 備用?
- 每個代理的延遲: 是否有任何微調代理比預期慢?
記錄每次執行。當微調代理失敗或產生次優輸出時,將正確的輸入-輸出配對加入其訓練資料集。定期重新訓練適配器——每月一次是典型的——使用擴展的資料集。每次迭代改善適配器對邊緣案例的覆蓋。
經過 2-3 次重新訓練週期,大多數團隊看到備用率從 10-15% 下降到 2-5%。到第四或第五次週期,微調團隊處理 98% 以上的任務,無需雲端備用。
何時多代理是過度設計
在投資微調完整 CrewAI 團隊之前,問問你是否真的需要多個代理。一個訓練良好或微調的單一模型可以處理許多「多代理」工作流程:
- 如果你的代理只是在做順序處理(研究員 → 作者 → 編輯),帶結構化提示的單一模型可以在 3 次呼叫而不是 15 次中完成同樣的事情。
- 如果你的「協作」實際上只是一個審查循環,帶自我反思的單一模型可以達到類似品質。
多代理架構在代理並行運作、擁有真正不同的工具集,或任務結構複雜到專業化可以產生可測量更好結果時,才能增加真實價值。如果你的團隊是四個代理在做一個代理用四步驟可以做的事情,先簡化——然後再微調。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- Multi-Step AI Agents with Local Models — 無需雲端 API 運行複雜代理工作流程的架構模式。
- Reliable AI Agents with Fine-Tuned Local Models — 為什麼微調模型在每個步驟都能產生更一致的代理行為。
- Per-Client AI Agents for Agencies with LoRA — 使用每個客戶的 LoRA 適配器為每個客戶運行客製化代理團隊。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning for Voice AI Agents: Vapi, ElevenLabs, and Local Models
Voice AI agents running on GPT-4 cost $0.10-0.30 per minute of conversation. Fine-tuned local models cut that to near-zero. Here's how to build voice agents that don't bankrupt you per call.

Fine-Tuned Models for LangGraph Agents: Replace GPT-4 in Your Agent Stack
LangGraph agents default to GPT-4, but most agent tasks — routing, tool selection, response generation — work better with fine-tuned models trained on your specific workflows.

From Prompt Caching to Fine-Tuning: When to Make the Switch
Prompt caching cuts costs 60-90% for repetitive context. Fine-tuning eliminates per-token costs entirely. Here's how to know when you've outgrown caching and should fine-tune instead.