Guia rapida de la API de OpenAI para apps moviles y lo que realmente cuesta

La API de OpenAI es la forma mas comun de agregar funciones de IA a apps moviles. La integracion es directa: construye una carga JSON, enviadla al endpoint, parsea la respuesta. Funciona identicamente en iOS y Android.

Lo que la mayorida de guias de inicio rapido omiten es cuanto costara a escala real.

Inicio rapido: iOS (Swift)

func generateResponse(prompt: String) async throws -> String {
    var request = URLRequest(url: URL(string: "https://api.openai.com/v1/chat/completions")!)
    request.httpMethod = "POST"
    request.addValue("Bearer \(apiKey)", forHTTPHeaderField: "Authorization")
    request.addValue("application/json", forHTTPHeaderField: "Content-Type")

    let body: [String: Any] = [
        "model": "gpt-4o-mini",
        "messages": [["role": "user", "content": prompt]]
    ]
    request.httpBody = try JSONSerialization.data(withJSONObject: body)

    let (data, _) = try await URLSession.shared.data(for: request)
    let json = try JSONSerialization.jsonObject(with: data) as! [String: Any]
    let choices = json["choices"] as! [[String: Any]]
    let message = choices[0]["message"] as! [String: String]
    return message["content"]!
}

Inicio rapido: Android (Kotlin)

suspend fun generateResponse(prompt: String): String = withContext(Dispatchers.IO) {
    val client = OkHttpClient()
    val body = """
        {"model": "gpt-4o-mini",
         "messages": [{"role": "user", "content": "$prompt"}]}
    """.trimIndent()

    val request = Request.Builder()
        .url("https://api.openai.com/v1/chat/completions")
        .post(body.toRequestBody("application/json".toMediaType()))
        .addHeader("Authorization", "Bearer $apiKey")
        .build()

    val response = client.newCall(request).execute()
    parseResponse(response.body!!.string())
}

Los costos ocultos

Tu prompt del sistema se cobra en cada solicitud

Tu prompt del sistema (800-1,500 tokens tipicamente) se envia con cada llamada a la API. A 10,000 MAU con 90,000 solicitudes diarias, eso son 72-135 millones de tokens extra por mes solo para el prompt del sistema.

El historial de conversacion se acumula

Las funciones de chat incluyen mensajes anteriores para contexto. El costo de entrada crece con cada turno. Una conversacion de 5 turnos envida 13,000 tokens de entrada en total. La estimacion ingenua de 5 x 200 = 1,000 tokens de entrada del usuario subestima por 13x.

Los reintentos y la gestion de errores

A escala, 2-5% de las llamadas a la API fallan. Cada reintento reenvia toda la carga. Agrega 3-5% al total de tokens.

Tablas de costos reales

Con multiplicadores reales (3x la estimacion ingenua), 3 interacciones/dia, 10K MAU:

Modelo	Costo mensual ingenuo	Costo real (3x)
GPT-4o-mini	$338	$1,013
GPT-4o	$5,625	$16,875

A 100K MAU, estos numeros son 10x mayores. GPT-4o-mini llega a $10,125/mes. GPT-4o alcanza $168,750/mes.

La alternativa

Fine-tunea un modelo pequeno con tus datos de dominio. Exporta como GGUF. Ejecuta en el dispositivo. La estructura de costos cambia de variable (por token) a fija (por ejecucion de entrenamiento).

A 10K MAU, la inferencia en el dispositivo ahorra $1,000-$16,000 por mes comparado con APIs en la nube. El punto de equilibrio llega en el primer mes con practicamente cualquier cantidad no trivial de usuarios.

Plataformas como Ertas manejan el pipeline de fine-tuning visualmente: sube datos, entrena, exporta GGUF, despliega.

Guia rapida de la API de OpenAI para apps moviles y lo que realmente cuesta

Inicio rapido: iOS (Swift)

Inicio rapido: Android (Kotlin)

Los costos ocultos

Tu prompt del sistema se cobra en cada solicitud

El historial de conversacion se acumula

Los reintentos y la gestion de errores

Tablas de costos reales

La alternativa

Ship AI that runs on your users' devices.

Keep reading

How to Add AI to Your Mobile App: A Developer's Decision Guide

Google Gemini API for Mobile: Pricing, Limits, and When to Go On-Device

AI in iOS Apps: CoreML, Cloud APIs, and On-Device LLMs Compared