Back to blog
    Replit 應用 AI 費用暴漲?用微調本地模型替換 OpenAI
    replitai-costslocal-modelfine-tuningopenaisegment:vibecoder

    Replit 應用 AI 費用暴漲?用微調本地模型替換 OpenAI

    Replit 的長期運行部署和簡單的 AI 整合創造了特定的 API 成本問題。以下是如何用微調本地模型替換 OpenAI 並將成本降至固定費率。

    EErtas Team·

    Replit 的 AI 代理讓添加 OpenAI 驅動的功能變得危險地簡單。您描述您想要什麼,代理編寫代碼,您的應用中就有了 AI。問題是那個 AI 的成本不會出現在您的 Replit 帳單上——它出現在您的 OpenAI 儀表板上,隨著您的應用獲得更多用戶,每週悄悄地增長。

    Replit 有一個其他平台沒有的特定 AI 成本問題:長期運行的部署。

    Replit AI 技術棧

    大多數帶有 AI 功能的 Replit 應用通過以下兩種模式之一整合 OpenAI:

    直接 API 調用模式(最常見):

    import openai
    
    client = openai.OpenAI(api_key=os.environ["OPENAI_API_KEY"])
    
    def get_ai_response(user_input):
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "user", "content": user_input}]
        )
        return response.choices[0].message.content

    Replit AI 模板模式:一些 Replit 模板包含預配置的 OpenAI 整合。如果您使用了其中一個,您的應用在沒有您明確看到實現的情況下就在進行 API 調用。

    兩種模式都有相同的擴展問題:每個觸及 AI 功能的用戶請求都要花錢。

    不同規模的真實費用數字

    對於帶有聊天或 AI 生成功能的典型 Replit 應用:

    用戶AI 請求/天每日 Token月度 OpenAI 費用
    50150105,000約 $1.50
    200600420,000約 $6
    5001,5001,050,000約 $15
    1,0003,0002,100,000約 $30
    3,0009,0006,300,000約 $90
    10,00030,00021,000,000約 $300

    這些數字假設 gpt-4o-mini 每次請求 700 個 token。切換到 gpt-4o,乘以 15–20 倍。

    特定的 Replit 問題:長期運行的部署

    以下是讓 Replit 與其他平台不同的原因:Replit 部署是長期運行的。您的應用 24/7 運行,即使沒有用戶活躍時也是如此。

    這創造了其他平台沒有的 AI 成本風險:

    進行 API 調用的計劃任務: 如果您的 Replit 應用有任何調用 OpenAI 的 schedule 或 cron 式任務(每日摘要、定期資料豐富、後台處理),無論用戶活動如何,這些都會運行。

    Webhook 處理程序: 如果您的應用接收 webhook(Stripe 事件、GitHub 鉤子、第三方服務回調),且這些觸發 AI 處理,每個 webhook 都是您支付的 API 調用。

    資料庫監視器/輪詢循環: 一些 Replit 應用在後台輪詢外部 API 或監視資料庫。如果這種輪詢觸發對新資料的 AI 處理,成本在沒有用戶互動的情況下積累。

    會話初始化: 一些 AI 功能在應用加載或會話啟動時初始化,在任何用戶互動之前進行 API 調用。

    在解決擴展問題之前,審計您的 Replit 應用以找出後台 AI 調用。使用 OpenAI 使用量儀表板查看您的費用是否與用戶活動相關(線性 = 用戶驅動)或即使沒有用戶也有基礎成本(非零 = 後台調用)。

    本地模型替代方案

    修復與任何其他平台相同:在您的領域上微調一個小模型,在本地運行它,將請求路由到您自己的 VPS 而不是 OpenAI。

    對於 Replit 應用,架構如下所示:

    Replit 應用(前端 + 邏輯)
             ↓
        HTTP 請求
             ↓
    外部 VPS(Hetzner $14–26/月)
      └── Ollama 服務微調 GGUF
             ↓
        響應回 Replit 應用
    

    您的 Replit 應用向外部 URL(您的 VPS)發出 HTTP 請求。VPS 運行 Ollama,它服務您的微調模型。這有效是因為:

    1. Replit 應用可以向任何 URL 發出出站 HTTP 請求
    2. Ollama 服務與 OpenAI 相容的 API
    3. 通過更新 base_url,您現有的 OpenAI SDK 代碼無需更改即可工作

    架構:Replit 應用 + 外部 Ollama VPS

    設置 VPS(Hetzner CX32,約 $14/月):

    # 安裝 Ollama
    curl -fsSL https://ollama.com/install.sh | sh
    
    # 從微調 GGUF 創建模型文件
    cat > Modelfile << 'EOF'
    FROM /path/to/your-fine-tuned-model.gguf
    SYSTEM "您是專門從事[您的領域]的有用助手。"
    EOF
    
    ollama create my-app-model -f Modelfile
    
    # 啟動 Ollama(默認在端口 11434 監聽)
    # 對於外部訪問,設置 OLLAMA_HOST=0.0.0.0
    OLLAMA_HOST=0.0.0.0 ollama serve

    更新您的 Replit 應用代碼:

    # 之前:
    client = openai.OpenAI(api_key=os.environ["OPENAI_API_KEY"])
    
    # 之後:
    client = openai.OpenAI(
        api_key="not-required",
        base_url=f"http://{os.environ['OLLAMA_VPS_IP']}:11434/v1"
    )
    
    # 代碼中的其他所有內容保持不變
    response = client.chat.completions.create(
        model="my-app-model",  # 您的 Ollama 模型名稱
        messages=[{"role": "user", "content": user_input}]
    )

    將您的 VPS IP 存儲為 Replit Secret(OLLAMA_VPS_IP)。永遠不要硬編碼 IP。

    安全說明: 如果您的 VPS 是公開的,請使用 nginx 添加簡單的 API 密鑰檢查。否則任何擁有 IP 的人都可以使用您的模型。

    為您的 Replit 用例進行微調

    要獲得您將在 VPS 上運行的微調模型:

    1. 從您現有的 OpenAI API 日誌導出 400–800 個輸入/輸出對(Replit 記錄所有環境輸出;您的應用也可能將響應記錄到資料庫)
    2. 格式化為 JSONL
    3. 上傳到 Ertas,選擇 Qwen 2.5 7B,訓練
    4. 下載 GGUF,上傳到您的 VPS,加載到 Ollama

    對於 Replit 應用,常見的微調任務:

    • 領域內容的聊天/問答: 在日誌中的(問題、答案)對上訓練
    • 內容生成: 在輸出被接受/使用的(提示、輸出)對上訓練
    • 分類/路由: 在帶有已驗證正確類別的(輸入、類別)對上訓練

    遷移後的費用

    用戶(MAU)月度 OpenAI(gpt-4o-mini)月度(Ertas + VPS)
    500約 $15$40.50
    1,000約 $30$40.50
    5,000約 $150$40.50
    20,000約 $600$40.50–66.50

    對於典型使用量,對 gpt-4o-mini 的盈虧平衡點約為 1,500–2,000 MAU。對 gpt-4o,盈虧平衡點低於 200 MAU。

    固定成本結構也消除了後台調用問題:您長期運行的 Replit 應用可以調用您長期運行的 Ollama VPS,每次調用零額外成本。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading