
Replit 應用 AI 費用暴漲?用微調本地模型替換 OpenAI
Replit 的長期運行部署和簡單的 AI 整合創造了特定的 API 成本問題。以下是如何用微調本地模型替換 OpenAI 並將成本降至固定費率。
Replit 的 AI 代理讓添加 OpenAI 驅動的功能變得危險地簡單。您描述您想要什麼,代理編寫代碼,您的應用中就有了 AI。問題是那個 AI 的成本不會出現在您的 Replit 帳單上——它出現在您的 OpenAI 儀表板上,隨著您的應用獲得更多用戶,每週悄悄地增長。
Replit 有一個其他平台沒有的特定 AI 成本問題:長期運行的部署。
Replit AI 技術棧
大多數帶有 AI 功能的 Replit 應用通過以下兩種模式之一整合 OpenAI:
直接 API 調用模式(最常見):
import openai
client = openai.OpenAI(api_key=os.environ["OPENAI_API_KEY"])
def get_ai_response(user_input):
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": user_input}]
)
return response.choices[0].message.content
Replit AI 模板模式:一些 Replit 模板包含預配置的 OpenAI 整合。如果您使用了其中一個,您的應用在沒有您明確看到實現的情況下就在進行 API 調用。
兩種模式都有相同的擴展問題:每個觸及 AI 功能的用戶請求都要花錢。
不同規模的真實費用數字
對於帶有聊天或 AI 生成功能的典型 Replit 應用:
| 用戶 | AI 請求/天 | 每日 Token | 月度 OpenAI 費用 |
|---|---|---|---|
| 50 | 150 | 105,000 | 約 $1.50 |
| 200 | 600 | 420,000 | 約 $6 |
| 500 | 1,500 | 1,050,000 | 約 $15 |
| 1,000 | 3,000 | 2,100,000 | 約 $30 |
| 3,000 | 9,000 | 6,300,000 | 約 $90 |
| 10,000 | 30,000 | 21,000,000 | 約 $300 |
這些數字假設 gpt-4o-mini 每次請求 700 個 token。切換到 gpt-4o,乘以 15–20 倍。
特定的 Replit 問題:長期運行的部署
以下是讓 Replit 與其他平台不同的原因:Replit 部署是長期運行的。您的應用 24/7 運行,即使沒有用戶活躍時也是如此。
這創造了其他平台沒有的 AI 成本風險:
進行 API 調用的計劃任務: 如果您的 Replit 應用有任何調用 OpenAI 的 schedule 或 cron 式任務(每日摘要、定期 資料豐富、後台處理),無論用戶活動如何,這些都會運行。
Webhook 處理程序: 如果您的應用接收 webhook(Stripe 事件、GitHub 鉤子、第三方服務回調),且這些觸發 AI 處理,每個 webhook 都是您支付的 API 調用。
資料庫監視器/輪詢循環: 一些 Replit 應用在後台輪詢外部 API 或監視資料庫。如果這種輪詢觸發對新資料的 AI 處理,成本在沒有用戶互動的情況下積累。
會話初始化: 一些 AI 功能在應用加載或會話啟動時初始化,在任何用戶互動之前進行 API 調用。
在解決擴展問題之前,審計您的 Replit 應用以找出後台 AI 調用。使用 OpenAI 使用量儀表板查看您的費用是否與用戶活動相關(線性 = 用戶驅動)或即使沒有用戶也有基礎成本(非零 = 後台調用)。
本地模型替代方案
修復與任何其他平台相同:在您的領域上微調一個小模型,在本地運行它,將請求路由到您自己的 VPS 而不是 OpenAI。
對於 Replit 應用,架構如下所示:
Replit 應用(前端 + 邏輯)
↓
HTTP 請求
↓
外部 VPS(Hetzner $14–26/月)
└── Ollama 服務微調 GGUF
↓
響應回 Replit 應用
您的 Replit 應用向外部 URL(您的 VPS)發出 HTTP 請求。VPS 運行 Ollama,它服務您的微調模型。這有效是因為:
- Replit 應用可以向任何 URL 發出出站 HTTP 請求
- Ollama 服務與 OpenAI 相容的 API
- 通過更新
base_url,您現有的 OpenAI SDK 代碼無需更改即可工作
架構:Replit 應用 + 外部 Ollama VPS
設置 VPS(Hetzner CX32,約 $14/月):
# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 從微調 GGUF 創建模型文件
cat > Modelfile << 'EOF'
FROM /path/to/your-fine-tuned-model.gguf
SYSTEM "您是專門從事[您的領域]的有用助手。"
EOF
ollama create my-app-model -f Modelfile
# 啟動 Ollama(默認在端口 11434 監聽)
# 對於外部訪問,設置 OLLAMA_HOST=0.0.0.0
OLLAMA_HOST=0.0.0.0 ollama serve
更新您的 Replit 應用代碼:
# 之前:
client = openai.OpenAI(api_key=os.environ["OPENAI_API_KEY"])
# 之後:
client = openai.OpenAI(
api_key="not-required",
base_url=f"http://{os.environ['OLLAMA_VPS_IP']}:11434/v1"
)
# 代碼中的其他所有內容保持不變
response = client.chat.completions.create(
model="my-app-model", # 您的 Ollama 模型名稱
messages=[{"role": "user", "content": user_input}]
)
將您的 VPS IP 存儲為 Replit Secret(OLLAMA_VPS_IP)。永遠不要硬編碼 IP。
安全說明: 如果您的 VPS 是公開的,請使用 nginx 添加簡單的 API 密鑰檢查。否則任何擁有 IP 的人都可以使用您的模型。
為您的 Replit 用例進行微調
要獲得您將在 VPS 上運行的微調模型:
- 從您現有的 OpenAI API 日誌導出 400–800 個輸入/輸出對(Replit 記錄所有環境輸出;您的應用也可能將響應記錄到資料庫)
- 格式化為 JSONL
- 上傳到 Ertas,選擇 Qwen 2.5 7B,訓練
- 下載 GGUF,上傳到您的 VPS,加載到 Ollama
對於 Replit 應用,常見的微調任務:
- 領域內容的聊天/問答: 在日誌中的(問題、答案)對上訓練
- 內容生成: 在輸出被接受/使用的(提示、輸出)對上訓練
- 分類/路由: 在帶有已驗證正確類別的(輸入、類別)對上訓練
遷移後的費用
| 用戶(MAU) | 月度 OpenAI(gpt-4o-mini) | 月度(Ertas + VPS) |
|---|---|---|
| 500 | 約 $15 | $40.50 |
| 1,000 | 約 $30 | $40.50 |
| 5,000 | 約 $150 | $40.50 |
| 20,000 | 約 $600 | $40.50–66.50 |
對於典型使用量,對 gpt-4o-mini 的盈虧平衡點約為 1,500–2,000 MAU。對 gpt-4o,盈虧平衡點低於 200 MAU。
固定成本結構也消除了後台調用問題:您長期運行的 Replit 應用可以調用您長期運行的 Ollama VPS,每次調用零額外成本。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- Vibecoder AI 費 用指南:所有平台 — 每個主要平台的費用峭壁圖
- 獨立應用的固定成本 AI 架構 — 從一開始就設計次線性成本
- n8n + Ollama + 微調零成本技術棧 — 向本地模型技術棧添加自動化
- 本地運行 AI 模型 — Ollama 設置指南
- 獨立應用的自托管 AI — 本地推理的理由
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Bolt.new Apps and the OpenAI Cost Cliff: What Happens at Scale
Bolt.new makes it easy to add AI features. Here's exactly what happens to your OpenAI bill as users grow — and how to replace it with a fine-tuned local model at flat cost.

Windsurf + Fine-Tuned Local Model: The Zero-API-Cost Dev Stack
Apps built with Windsurf default to OpenAI API patterns. Here's how to fine-tune a local model for your specific use case and cut inference costs to zero per token.

Shopify AI Assistant Without OpenAI API Costs: The Local Model Approach
Shopify stores spending $500-5,000/month on AI API costs can replace those calls with a local fine-tuned model. Here's the architecture, the Shopify integration, and the cost math.