Back to blog
    Ertas vs Together AI:微調成本、本地部署和資料隱私
    ertastogether-aicomparisonfine-tuningprivacycost

    Ertas vs Together AI:微調成本、本地部署和資料隱私

    比較 Ertas 和 Together AI 的語言模型微調。涵蓋每令牌 vs 固定成本推理、資料隱私、本地部署,以及何時選擇每個平台。

    EErtas Team·

    Together AI 主要是一個快速雲端推理供應商,同時也提供微調。Ertas 主要是一個微調平台,輸出模型用於本地部署。它們在微調用例上有重疊,但在訓練之後的一切上有顯著分歧。

    如果你在評估兩者,正確的問題是:你的模型在訓練後需要存在於哪裡?

    Together AI:雲端推理的故事

    Together AI 以快速、實惠的開源模型雲端推理建立了聲譽。他們運行一個針對吞吐量優化的大型 GPU 集群,他們的 API 以具競爭力的每令牌定價提供對 100 多個開源模型的存取。微調作為功能後來添加,讓客戶能夠將這些模型定制到他們的用例。

    Together AI 的微調工作流程以 API 為先:

    import together
    
    # 上傳訓練資料
    response = together.Files.upload(file="training_data.jsonl")
    file_id = response["id"]
    
    # 創建微調工作
    response = together.FineTuning.create(
        training_file=file_id,
        model="togethercomputer/llama-3-8b",
        n_epochs=3,
        learning_rate=2e-5,
        suffix="my-custom-model"
    )

    結果是一個托管在 Together AI 基礎設施上的微調模型,可通過 Together AI 的 API 訪問,定價模型與其標準模型相同(每令牌計費)。

    Together AI 的優勢是真實的:他們的推理速度快(在開源模型中名列前茅),API 可靠,每令牌定價在同等質量模型中具有競爭力。

    Ertas 的不同之處

    Ertas 在雲端訓練,並將結果匯出為你擁有並在本地運行的 GGUF 文件。一旦你有了 GGUF,推理就在你的基礎設施上以零每令牌成本進行。平台提供視覺介面,不需要 Python,內置資料集工具、實驗追蹤和客戶專案管理。

    比較表

    維度ErtasTogether AI
    介面視覺化 Web UIAPI(Python/REST)
    微調輸出GGUF(本地部署)Together AI 服務器上的模型
    推理模式本地,零每令牌成本雲端 API,每令牌計費
    推理速度CPU:10–25 令牌/秒;GPU VPS:40–60 令牌/秒約 150–200 令牌/秒(A100 集群)
    推理可用性取決於你的基礎設施99.9%+ SLA
    資料隱私雲端訓練;本地運行訓練資料 + 推理在 Together 服務器
    GGUF 匯出是(一鍵)
    本地部署
    定價模型月訂閱每令牌(推理)+ 訓練成本
    每月 100 萬令牌成本約 0 美元邊際(VPS 已在運行)約 150–400 美元,取決於模型
    無代碼否(需要 API/代碼)
    資料集工具內置驗證、合成、評估基本文件上傳

    每令牌成本問題

    這是比較在規模上變得明顯的地方。

    Together AI 微調模型的推理定價因模型而異,但對於 7B 模型,預計每百萬令牌約 0.15 到 0.20 美元。這在與 OpenAI 的比較中確實有競爭力,而且比 GPT-4 便宜得多。但仍然是按令牌計費的。

    Ertas 匯出一個 GGUF 文件。你在 VPS 上運行它(月費約 26 美元的 Hetzner 服務器能以 15 到 25 令牌/秒的速度處理 7B 模型)。推理成本:每令牌 0 美元。

    損益平衡點取決於你的使用量:

    月令牌量Together AI API 成本Ertas + VPS 總成本
    100,000約 15–20 美元14.50 美元(Ertas)+ 26 美元(VPS)= 40.50 美元
    500,000約 75–100 美元40.50 美元
    1,000,000約 150–200 美元40.50 美元
    5,000,000約 750–1,000 美元40.50 美元
    10,000,000約 1,500–2,000 美元40.50–66.50 美元(可能需要更大的 VPS)

    在每月 500,000 令牌時,Together AI 和 Ertas 的總成本相近。超過這個量,本地模型方式顯著更便宜。低於這個量,Together AI 可能略便宜,取決於訓練工作頻率。

    典型應用(中等使用量)的損益平衡點大致在設置後 2 到 3 個月。此後,每個月本地模型節省的費用相當於數月的 Together AI API 成本。

    資料隱私

    這通常是受監管或隱私敏感用例的決定性因素。

    Together AI: 你的訓練資料上傳到 Together AI 的服務器進行訓練工作。你的微調模型在 Together AI 的基礎設施上運行。每個用戶查詢——你的應用程式發送給模型的每一條資料——都流經 Together AI 的系統。這與 OpenAI 的隱私模型類似。

    對於大多數用例,這沒問題。Together AI 有標準的資料處理協議。但對於醫療保健(HIPAA)、金融(SOX、GDPR)、法律(律師-客戶特權),或任何問過「我們的資料去哪裡?」的企業客戶——使用 Together AI 的答案是「Together AI 的雲端」。

    Ertas: 訓練資料在訓練基礎設施上處理。生成的 GGUF 模型在你的基礎設施上運行。推理時的用戶查詢永遠不會離開你的網路。這種架構天然與隱私敏感部署兼容,因為敏感資料——推理查詢——永遠不會接觸外部服務器。

    速度比較

    Together AI 的推理優勢是真實的:他們的 A100 集群以每秒約 150 到 200 令牌的速度為 7B 模型提供服務,延遲非常低。他們的基礎設施為高並發而建。

    在月費約 26 美元的 VPS 上用 Ollama 進行本地推理,7B 模型可達每秒 15 到 25 令牌。對於許多應用(異步處理、中等並發、非實時工作流程),這已足夠。對於服務大量並發用戶的延遲敏感生產應用,Together AI 的雲端速度明顯更快。

    這種取捨取決於具體應用。批量文件處理工作流程在 20 令牌/秒下完全可以。服務 500 個並發用戶的實時面向客戶的聊天機器人需要更好的性能——要麼是更大的 VPS、GPU VPS(每月約 100 到 200 美元),要麼是雲端 API。

    用例本地 VPS(7B)Together AI建議
    批量處理15–25 令牌/秒150–200 令牌/秒本地微調(成本勝出)
    低並發聊天機器人15–25 令牌/秒150–200 令牌/秒本地微調(成本勝出)
    高並發生產(500 個以上用戶)可能吃力優秀Together AI 或 GPU VPS
    隱私敏感無外部 API外部 API本地微調

    何時選擇 Together AI

    • 你需要帶 SLA 的高並發雲端推理
    • 你的應用有突發流量,需要大量本地 GPU 投入
    • 你想要非常低的推理延遲用於實時面向用戶的功能
    • 你沒有隱私敏感的資料
    • 你需要快速通往微調雲端推理的路徑,無需管理基礎設施

    何時選擇 Ertas

    • 你需要在你自己的基礎設施上運行模型
    • 推理資料是隱私敏感的
    • 你的流量是中等且可預測的
    • 你想要設置後零每令牌成本
    • 你想要真正擁有模型文件,而不是無限期依賴 Together AI 的 API
    • 你需要模型在網路連接不穩定時也能工作
    • 你在為需要本地部署的客戶構建

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading