Replit 應用 AI 費用暴漲？用微調本地模型替換 OpenAI

Replit 的 AI 代理讓添加 OpenAI 驅動的功能變得危險地簡單。您描述您想要什麼，代理編寫代碼，您的應用中就有了 AI。問題是那個 AI 的成本不會出現在您的 Replit 帳單上——它出現在您的 OpenAI 儀表板上，隨著您的應用獲得更多用戶，每週悄悄地增長。

Replit 有一個其他平台沒有的特定 AI 成本問題：長期運行的部署。

Replit AI 技術棧

大多數帶有 AI 功能的 Replit 應用通過以下兩種模式之一整合 OpenAI：

直接 API 調用模式（最常見）：

import openai

client = openai.OpenAI(api_key=os.environ["OPENAI_API_KEY"])

def get_ai_response(user_input):
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": user_input}]
    )
    return response.choices[0].message.content

Replit AI 模板模式：一些 Replit 模板包含預配置的 OpenAI 整合。如果您使用了其中一個，您的應用在沒有您明確看到實現的情況下就在進行 API 調用。

兩種模式都有相同的擴展問題：每個觸及 AI 功能的用戶請求都要花錢。

不同規模的真實費用數字

對於帶有聊天或 AI 生成功能的典型 Replit 應用：

用戶	AI 請求/天	每日 Token	月度 OpenAI 費用
50	150	105,000	約 $1.50
200	600	420,000	約 $6
500	1,500	1,050,000	約 $15
1,000	3,000	2,100,000	約 $30
3,000	9,000	6,300,000	約 $90
10,000	30,000	21,000,000	約 $300

這些數字假設 gpt-4o-mini 每次請求 700 個 token。切換到 gpt-4o，乘以 15–20 倍。

特定的 Replit 問題：長期運行的部署

以下是讓 Replit 與其他平台不同的原因：Replit 部署是長期運行的。您的應用 24/7 運行，即使沒有用戶活躍時也是如此。

這創造了其他平台沒有的 AI 成本風險：

進行 API 調用的計劃任務： 如果您的 Replit 應用有任何調用 OpenAI 的 schedule 或 cron 式任務（每日摘要、定期資料豐富、後台處理），無論用戶活動如何，這些都會運行。

Webhook 處理程序： 如果您的應用接收 webhook（Stripe 事件、GitHub 鉤子、第三方服務回調），且這些觸發 AI 處理，每個 webhook 都是您支付的 API 調用。

資料庫監視器/輪詢循環： 一些 Replit 應用在後台輪詢外部 API 或監視資料庫。如果這種輪詢觸發對新資料的 AI 處理，成本在沒有用戶互動的情況下積累。

會話初始化： 一些 AI 功能在應用加載或會話啟動時初始化，在任何用戶互動之前進行 API 調用。

在解決擴展問題之前，審計您的 Replit 應用以找出後台 AI 調用。使用 OpenAI 使用量儀表板查看您的費用是否與用戶活動相關（線性 = 用戶驅動）或即使沒有用戶也有基礎成本（非零 = 後台調用）。

本地模型替代方案

修復與任何其他平台相同：在您的領域上微調一個小模型，在本地運行它，將請求路由到您自己的 VPS 而不是 OpenAI。

對於 Replit 應用，架構如下所示：

Replit 應用（前端 + 邏輯）
         ↓
    HTTP 請求
         ↓
外部 VPS（Hetzner $14–26/月）
  └── Ollama 服務微調 GGUF
         ↓
    響應回 Replit 應用

您的 Replit 應用向外部 URL（您的 VPS）發出 HTTP 請求。VPS 運行 Ollama，它服務您的微調模型。這有效是因為：

Replit 應用可以向任何 URL 發出出站 HTTP 請求
Ollama 服務與 OpenAI 相容的 API
通過更新 base_url，您現有的 OpenAI SDK 代碼無需更改即可工作

架構：Replit 應用 + 外部 Ollama VPS

設置 VPS（Hetzner CX32，約 $14/月）：

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 從微調 GGUF 創建模型文件
cat > Modelfile << 'EOF'
FROM /path/to/your-fine-tuned-model.gguf
SYSTEM "您是專門從事[您的領域]的有用助手。"
EOF

ollama create my-app-model -f Modelfile

# 啟動 Ollama（默認在端口 11434 監聽）
# 對於外部訪問，設置 OLLAMA_HOST=0.0.0.0
OLLAMA_HOST=0.0.0.0 ollama serve

更新您的 Replit 應用代碼：

# 之前：
client = openai.OpenAI(api_key=os.environ["OPENAI_API_KEY"])

# 之後：
client = openai.OpenAI(
    api_key="not-required",
    base_url=f"http://{os.environ['OLLAMA_VPS_IP']}:11434/v1"
)

# 代碼中的其他所有內容保持不變
response = client.chat.completions.create(
    model="my-app-model",  # 您的 Ollama 模型名稱
    messages=[{"role": "user", "content": user_input}]
)

將您的 VPS IP 存儲為 Replit Secret（OLLAMA_VPS_IP）。永遠不要硬編碼 IP。

安全說明： 如果您的 VPS 是公開的，請使用 nginx 添加簡單的 API 密鑰檢查。否則任何擁有 IP 的人都可以使用您的模型。

為您的 Replit 用例進行微調

要獲得您將在 VPS 上運行的微調模型：

從您現有的 OpenAI API 日誌導出 400–800 個輸入/輸出對（Replit 記錄所有環境輸出；您的應用也可能將響應記錄到資料庫）
格式化為 JSONL
上傳到 Ertas，選擇 Qwen 2.5 7B，訓練
下載 GGUF，上傳到您的 VPS，加載到 Ollama

對於 Replit 應用，常見的微調任務：

領域內容的聊天/問答： 在日誌中的（問題、答案）對上訓練
內容生成： 在輸出被接受/使用的（提示、輸出）對上訓練
分類/路由： 在帶有已驗證正確類別的（輸入、類別）對上訓練

遷移後的費用

用戶（MAU）	月度 OpenAI（gpt-4o-mini）	月度（Ertas + VPS）
500	約 $15	$40.50
1,000	約 $30	$40.50
5,000	約 $150	$40.50
20,000	約 $600	$40.50–66.50

對於典型使用量，對 gpt-4o-mini 的盈虧平衡點約為 1,500–2,000 MAU。對 gpt-4o，盈虧平衡點低於 200 MAU。

固定成本結構也消除了後台調用問題：您長期運行的 Replit 應用可以調用您長期運行的 Ollama VPS，每次調用零額外成本。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Replit 應用 AI 費用暴漲？用微調本地模型替換 OpenAI

Replit AI 技術棧

不同規模的真實費用數字

特定的 Replit 問題：長期運行的部署

本地模型替代方案

架構：Replit 應用 + 外部 Ollama VPS

為您的 Replit 用例進行微調

遷移後的費用

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

Bolt.new 應用程式與 OpenAI 成本懸崖：規模化後會發生什麼

Cursor + MCP + 微調模型：代碼編輯器內的領域 AI

LangChain + 微調本地模型：無 API 成本的管道構建