Ertas vs Together AI: Costos de Fine-Tuning, Despliegue Local y Privacidad de Datos

Together AI es principalmente un proveedor de inferencia rápida en la nube que también ofrece fine-tuning. Ertas es principalmente una plataforma de fine-tuning que produce modelos para despliegue local. Se superponen en el caso de uso de fine-tuning pero divergen significativamente en todo lo que sucede después del entrenamiento.

Si estás evaluando ambas, la pregunta correcta es: ¿dónde necesita vivir tu modelo después del entrenamiento?

Together AI: La Historia de Inferencia en la Nube

Together AI construyó su reputación sobre inferencia rápida y asequible en la nube para modelos open-source. Operan un gran clúster de GPU optimizado para rendimiento, y su API proporciona acceso a más de 100 modelos open-source con precios competitivos por token. El fine-tuning se agregó como característica para permitir a los clientes personalizar estos modelos para su caso de uso.

El flujo de trabajo de fine-tuning de Together AI se basa en API:

import together

# Upload training data
response = together.Files.upload(file="training_data.jsonl")
file_id = response["id"]

# Create fine-tuning job
response = together.FineTuning.create(
    training_file=file_id,
    model="togethercomputer/llama-3-8b",
    n_epochs=3,
    learning_rate=2e-5,
    suffix="my-custom-model"
)

El resultado es un modelo ajustado alojado en la infraestructura de Together AI, accesible a través de la API de Together AI con el mismo modelo de precios por token que sus modelos estándar.

La fortaleza de Together AI es genuina: su inferencia es rápida (entre las más rápidas para modelos open-source), su API es confiable y sus precios por token son competitivos con OpenAI para modelos de calidad similar.

Lo Que Ertas Hace Diferente

Ertas entrena en la nube y exporta el resultado como un archivo GGUF que tú posees y ejecutas localmente. Una vez que tienes el GGUF, la inferencia se realiza en tu infraestructura a cero costo por token. La plataforma ofrece una interfaz visual, sin necesidad de Python, con herramientas de dataset integradas, seguimiento de experimentos y gestión de proyectos de clientes.

Tabla Comparativa

Dimensión	Ertas	Together AI
Interfaz	UI web visual	API (Python/REST)
Salida del fine-tuning	GGUF (despliegue local)	Modelo en los servidores de Together AI
Modelo de inferencia	Local, cero costo por token	API en la nube, por token
Velocidad de inferencia	CPU: 10-25 tok/s; GPU VPS: 40-60 tok/s	~150-200 tok/s (clúster A100)
Disponibilidad de inferencia	Depende de tu infraestructura	SLA de 99.9%+
Privacidad de datos	Entrena en la nube; se ejecuta localmente	Datos de entrenamiento + inferencia en servidores de Together
Exportación GGUF	Sí (un clic)	No
Despliegue local	Sí	No
Modelo de precios	Suscripción mensual	Pago por token (inferencia) + costo de entrenamiento
Costo a 1M tokens/mes	~$0 marginal (VPS ya en ejecución)	~$150-400 dependiendo del modelo
No-code	Sí	No (se requiere API/código)
Herramientas de dataset	Validación, síntesis y evaluación integradas	Carga básica de archivos

La Pregunta del Costo por Token

Aquí es donde la comparación se vuelve marcada a escala.

Los precios de inferencia de modelos ajustados en Together AI varían según el modelo, pero para un modelo 7B espera aproximadamente $0.15-0.20 por millón de tokens. Esto es genuinamente competitivo con OpenAI y mucho más barato que GPT-4. Pero sigue siendo por token.

Ertas exporta un archivo GGUF. Lo ejecutas en tu VPS (un servidor de $26/mes en Hetzner maneja un modelo 7B a 15-25 tokens/segundo). Costo de inferencia: $0 por token.

El punto de cruce depende de tu volumen:

Tokens Mensuales	Costo API Together AI	Costo Total Ertas + VPS
100,000	~$15-20	$14.50 (Ertas) + $26 (VPS) = $40.50
500,000	~$75-100	$40.50
1,000,000	~$150-200	$40.50
5,000,000	~$750-1,000	$40.50
10,000,000	~$1,500-2,000	$40.50-66.50 (puede necesitar VPS más grande)

A 500,000 tokens por mes, Together AI y Ertas tienen costos totales similares. Por encima de eso, el enfoque de modelo local es significativamente más barato. Por debajo, Together AI puede ser marginalmente más barato dependiendo de la frecuencia de trabajos de entrenamiento.

El punto de equilibrio para una aplicación típica con uso moderado es aproximadamente 2-3 meses después de la configuración. Después de eso, cada mes el modelo local te ahorra el equivalente a meses de costos de API de Together AI.

Privacidad de Datos

Este es a menudo el factor decisivo para casos de uso regulados o sensibles a la privacidad.

Together AI: Tus datos de entrenamiento se suben a los servidores de Together AI para el trabajo de entrenamiento. Tu modelo ajustado se ejecuta en la infraestructura de Together AI. Cada consulta de usuario — cada pieza de datos que tu aplicación envía al modelo — fluye a través de los sistemas de Together AI. Esto es similar al modelo de privacidad de OpenAI.

Para la mayoría de los casos de uso, esto está bien. Together AI tiene acuerdos estándar de procesamiento de datos. Pero para salud (HIPAA), finanzas (SOX, GDPR), legal (privilegio abogado-cliente), o cualquier cliente empresarial que ha preguntado "¿a dónde van nuestros datos?" — la respuesta con Together AI es "la nube de Together AI".

Ertas: Los datos de entrenamiento se procesan en la infraestructura de entrenamiento. El modelo GGUF resultante se ejecuta en tu infraestructura. Las consultas de usuario en tiempo de inferencia nunca salen de tu red. Esta arquitectura es inherentemente compatible con despliegues sensibles a la privacidad porque los datos sensibles — las consultas de inferencia — nunca tocan un servidor externo.

Comparación de Velocidad

La ventaja de inferencia de Together AI es real: su clúster de A100 sirve tokens a ~150-200 tokens/segundo para modelos 7B, con latencia muy baja. Su infraestructura está construida para alta concurrencia.

La inferencia local con Ollama en un VPS de $26/mes entrega 15-25 tokens/segundo para modelos 7B. Para muchas aplicaciones (procesamiento asíncrono, concurrencia moderada, flujos de trabajo no en tiempo real), esto es suficiente. Para aplicaciones de producción sensibles a la latencia que sirven a muchos usuarios concurrentes, la nube de Together AI es significativamente más rápida.

Esta compensación es específica de la aplicación. Un flujo de trabajo de procesamiento por lotes de documentos funciona bien a 20 tokens/segundo. Un chatbot en tiempo real orientado al cliente con 500 usuarios concurrentes necesita mejor rendimiento — ya sea un VPS más grande, un VPS con GPU (~$100-200/mes), o una API en la nube.

Caso de Uso	VPS Local (7B)	Together AI	Recomendación
Procesamiento por lotes	15-25 tok/s	150-200 tok/s	Fine-tuned local (el costo gana)
Chatbot de baja concurrencia	15-25 tok/s	150-200 tok/s	Fine-tuned local (el costo gana)
Producción de alta concurrencia (500+ usuarios)	Puede tener dificultades	Excelente	Together AI o VPS con GPU
Sensible a la privacidad	Sin API externa	API externa	Fine-tuned local

Cuándo Gana Together AI

Necesitas inferencia en la nube de alta concurrencia con un SLA
Tu aplicación tiene tráfico con picos que requerirían una inversión significativa en GPU local
Quieres latencia de inferencia muy baja para funciones en tiempo real orientadas al usuario
No tienes datos sensibles a la privacidad
Necesitas un camino rápido a inferencia en la nube con fine-tuning sin gestionar infraestructura

Cuándo Gana Ertas

Necesitas ejecutar modelos en tu propia infraestructura
Los datos de inferencia son sensibles a la privacidad
Tu tráfico es moderado y predecible
Quieres cero costos por token después de la configuración inicial
Quieres ser dueño del archivo del modelo, no depender de la API de Together AI indefinidamente
Necesitas que el modelo funcione cuando tu conexión a internet no es confiable
Estás construyendo para clientes que requieren despliegue on-prem

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura Adicional

Best AI Fine-Tuning Platforms in 2026 — Comparación completa multi-plataforma
Hidden Cost of Per-Token AI Pricing — Las matemáticas reales detrás de los modelos de costo por API
Self-Hosted AI for Indie Apps — El caso para la inferencia local
HIPAA-Compliant AI: On-Premise vs Cloud — Arquitectura de privacidad para industrias reguladas
GPU Cost and Self-Hosting AI 2026 — Opciones de VPS y costos para alojamiento de modelos locales