Ertas vs Together AI：微調成本、本地部署和資料隱私

Together AI 主要是一個快速雲端推理供應商，同時也提供微調。Ertas 主要是一個微調平台，輸出模型用於本地部署。它們在微調用例上有重疊，但在訓練之後的一切上有顯著分歧。

如果你在評估兩者，正確的問題是：你的模型在訓練後需要存在於哪裡？

Together AI：雲端推理的故事

Together AI 以快速、實惠的開源模型雲端推理建立了聲譽。他們運行一個針對吞吐量優化的大型 GPU 集群，他們的 API 以具競爭力的每令牌定價提供對 100 多個開源模型的存取。微調作為功能後來添加，讓客戶能夠將這些模型定制到他們的用例。

Together AI 的微調工作流程以 API 為先：

import together

# 上傳訓練資料
response = together.Files.upload(file="training_data.jsonl")
file_id = response["id"]

# 創建微調工作
response = together.FineTuning.create(
    training_file=file_id,
    model="togethercomputer/llama-3-8b",
    n_epochs=3,
    learning_rate=2e-5,
    suffix="my-custom-model"
)

結果是一個托管在 Together AI 基礎設施上的微調模型，可通過 Together AI 的 API 訪問，定價模型與其標準模型相同（每令牌計費）。

Together AI 的優勢是真實的：他們的推理速度快（在開源模型中名列前茅），API 可靠，每令牌定價在同等質量模型中具有競爭力。

Ertas 的不同之處

Ertas 在雲端訓練，並將結果匯出為你擁有並在本地運行的 GGUF 文件。一旦你有了 GGUF，推理就在你的基礎設施上以零每令牌成本進行。平台提供視覺介面，不需要 Python，內置資料集工具、實驗追蹤和客戶專案管理。

比較表

維度	Ertas	Together AI
介面	視覺化 Web UI	API（Python/REST）
微調輸出	GGUF（本地部署）	Together AI 服務器上的模型
推理模式	本地，零每令牌成本	雲端 API，每令牌計費
推理速度	CPU：10–25 令牌/秒；GPU VPS：40–60 令牌/秒	約 150–200 令牌/秒（A100 集群）
推理可用性	取決於你的基礎設施	99.9%+ SLA
資料隱私	雲端訓練；本地運行	訓練資料 + 推理在 Together 服務器
GGUF 匯出	是（一鍵）	否
本地部署	是	否
定價模型	月訂閱	每令牌（推理）+ 訓練成本
每月 100 萬令牌成本	約 0 美元邊際（VPS 已在運行）	約 150–400 美元，取決於模型
無代碼	是	否（需要 API/代碼）
資料集工具	內置驗證、合成、評估	基本文件上傳

每令牌成本問題

這是比較在規模上變得明顯的地方。

Together AI 微調模型的推理定價因模型而異，但對於 7B 模型，預計每百萬令牌約 0.15 到 0.20 美元。這在與 OpenAI 的比較中確實有競爭力，而且比 GPT-4 便宜得多。但仍然是按令牌計費的。

Ertas 匯出一個 GGUF 文件。你在 VPS 上運行它（月費約 26 美元的 Hetzner 服務器能以 15 到 25 令牌/秒的速度處理 7B 模型）。推理成本：每令牌 0 美元。

損益平衡點取決於你的使用量：

月令牌量	Together AI API 成本	Ertas + VPS 總成本
100,000	約 15–20 美元	14.50 美元（Ertas）+ 26 美元（VPS）= 40.50 美元
500,000	約 75–100 美元	40.50 美元
1,000,000	約 150–200 美元	40.50 美元
5,000,000	約 750–1,000 美元	40.50 美元
10,000,000	約 1,500–2,000 美元	40.50–66.50 美元（可能需要更大的 VPS）

在每月 500,000 令牌時，Together AI 和 Ertas 的總成本相近。超過這個量，本地模型方式顯著更便宜。低於這個量，Together AI 可能略便宜，取決於訓練工作頻率。

典型應用（中等使用量）的損益平衡點大致在設置後 2 到 3 個月。此後，每個月本地模型節省的費用相當於數月的 Together AI API 成本。

資料隱私

這通常是受監管或隱私敏感用例的決定性因素。

Together AI： 你的訓練資料上傳到 Together AI 的服務器進行訓練工作。你的微調模型在 Together AI 的基礎設施上運行。每個用戶查詢——你的應用程式發送給模型的每一條資料——都流經 Together AI 的系統。這與 OpenAI 的隱私模型類似。

對於大多數用例，這沒問題。Together AI 有標準的資料處理協議。但對於醫療保健（HIPAA）、金融（SOX、GDPR）、法律（律師-客戶特權），或任何問過「我們的資料去哪裡？」的企業客戶——使用 Together AI 的答案是「Together AI 的雲端」。

Ertas： 訓練資料在訓練基礎設施上處理。生成的 GGUF 模型在你的基礎設施上運行。推理時的用戶查詢永遠不會離開你的網路。這種架構天然與隱私敏感部署兼容，因為敏感資料——推理查詢——永遠不會接觸外部服務器。

速度比較

Together AI 的推理優勢是真實的：他們的 A100 集群以每秒約 150 到 200 令牌的速度為 7B 模型提供服務，延遲非常低。他們的基礎設施為高並發而建。

在月費約 26 美元的 VPS 上用 Ollama 進行本地推理，7B 模型可達每秒 15 到 25 令牌。對於許多應用（異步處理、中等並發、非實時工作流程），這已足夠。對於服務大量並發用戶的延遲敏感生產應用，Together AI 的雲端速度明顯更快。

這種取捨取決於具體應用。批量文件處理工作流程在 20 令牌/秒下完全可以。服務 500 個並發用戶的實時面向客戶的聊天機器人需要更好的性能——要麼是更大的 VPS、GPU VPS（每月約 100 到 200 美元），要麼是雲端 API。

用例	本地 VPS（7B）	Together AI	建議
批量處理	15–25 令牌/秒	150–200 令牌/秒	本地微調（成本勝出）
低並發聊天機器人	15–25 令牌/秒	150–200 令牌/秒	本地微調（成本勝出）
高並發生產（500 個以上用戶）	可能吃力	優秀	Together AI 或 GPU VPS
隱私敏感	無外部 API	外部 API	本地微調

何時選擇 Together AI

你需要帶 SLA 的高並發雲端推理
你的應用有突發流量，需要大量本地 GPU 投入
你想要非常低的推理延遲用於實時面向用戶的功能
你沒有隱私敏感的資料
你需要快速通往微調雲端推理的路徑，無需管理基礎設施

何時選擇 Ertas

你需要在你自己的基礎設施上運行模型
推理資料是隱私敏感的
你的流量是中等且可預測的
你想要設置後零每令牌成本
你想要真正擁有模型文件，而不是無限期依賴 Together AI 的 API
你需要模型在網路連接不穩定時也能工作
你在為需要本地部署的客戶構建

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Ertas vs Together AI：微調成本、本地部署和資料隱私

Together AI：雲端推理的故事

Ertas 的不同之處

比較表

每令牌成本問題

資料隱私

速度比較

何時選擇 Together AI

何時選擇 Ertas

延伸閱讀

Ship AI that runs on your users' devices.

Keep reading

Ertas vs HuggingFace AutoTrain：無需 YAML 配置的視覺化微調

Ertas vs Modal Labs：哪個更適合為客戶微調模型的機構？

Ertas vs Replicate 微調比較：成本、工作流程和 GGUF 匯出