Back to blog
    Android 上的 LLM 基准测试: 骁龙、Tensor 和 Exynos 对比
    AndroidbenchmarksSnapdragonTensorExynoson-device AIllama.cppsegment:mobile-builder

    Android 上的 LLM 基准测试: 骁龙、Tensor 和 Exynos 对比

    通过 llama.cpp 在 Android 上运行 LLM 的真实基准数据。骁龙 8 Gen 2/3、Tensor G3/G4、Exynos 2400 和中端芯片组的 token 速度,以及实用的部署指南。

    EErtas Team·

    Android 的芯片组多样性对于端侧 AI 既是挑战也是机遇。不像 iOS 只需针对少数 A 系列芯片, Android 横跨高通骁龙、Google Tensor、三星 Exynos 和联发科天玑,分布在数百种设备型号上。

    好消息是: 旗舰和近期中端 Android 设备以可用速度运行 1-3B 参数模型。如果你针对正确的层级,碎片化是可管理的。

    芯片组格局

    旗舰(2023-2026)

    芯片组代表设备RAMGPU
    骁龙 8 Gen 3Galaxy S24, OnePlus 128-12GBAdreno 750
    骁龙 8 EliteGalaxy S25, OnePlus 1312-16GBAdreno 830
    Tensor G3Pixel 8, 8 Pro12GBMali-G715
    Tensor G4Pixel 9, 9 Pro12-16GBMali-G715
    Exynos 2400Galaxy S24(国际版)8-12GBXclipse 940
    天玑 9300各品牌旗舰8-16GBImmortalis-G720

    中端(2024-2026)

    芯片组代表设备RAMGPU
    骁龙 7+ Gen 32024+ 中端8-12GBAdreno 732
    骁龙 7 Gen 32024+ 中端6-8GBAdreno 720
    天玑 83002024+ 中端8-12GBMali-G615
    Tensor G2Pixel 7 系列8GBMali-G710

    入门级(2024-2026)

    芯片组代表设备RAMGPU
    骁龙 6 Gen 32024+ 入门级4-6GBAdreno 710
    天玑 73002024+ 入门级6-8GBMali-G615
    Helio G99入门级设备4-6GBMali-G57

    基准测试结果

    所有基准测试使用 llama.cpp,配合 CPU 推理(多线程)和 Vulkan GPU 加速(可用时)。GGUF Q4_K_M 量化, 2048 上下文长度。

    1B 参数模型(约 600MB GGUF Q4)

    芯片组CPU (tok/s)GPU/Vulkan (tok/s)内存
    骁龙 8 Elite35-4545-55~800MB
    骁龙 8 Gen 330-4040-50~800MB
    骁龙 8 Gen 225-3535-45~800MB
    Tensor G428-3535-42~800MB
    Tensor G325-3230-38~800MB
    Exynos 240025-3532-42~800MB
    骁龙 7+ Gen 322-2828-35~800MB
    骁龙 7 Gen 318-2522-30~800MB
    天玑 830020-2825-33~800MB
    骁龙 6 Gen 312-1815-22~800MB

    过去 2-3 年的每一款旗舰和中端芯片组都以 20+ token/秒运行 1B 模型。即使是入门级的骁龙 6 Gen 3 也能提供可用性能。

    3B 参数模型(约 1.7GB GGUF Q4)

    芯片组CPU (tok/s)GPU/Vulkan (tok/s)内存
    骁龙 8 Elite18-2522-30~2.2GB
    骁龙 8 Gen 315-2220-28~2.2GB
    骁龙 8 Gen 212-1816-22~2.2GB
    Tensor G414-2018-24~2.2GB
    Tensor G312-1615-20~2.2GB
    Exynos 240012-1816-22~2.2GB
    骁龙 7+ Gen 310-1413-18~2.2GB
    骁龙 7 Gen 37-119-14~2.2GB
    骁龙 6 Gen 34-75-9~2.2GB

    3B 模型在旗舰设备上运行良好(GPU 下 15+ tok/s)。中高端设备(骁龙 7+ Gen 3、天玑 8300)可用。中低端和入门级设备难以达到 10 tok/s 的舒适聊天门槛。

    Vulkan GPU 加速

    Vulkan GPU 加速是 Android 上快速端侧推理的关键。相比纯 CPU 推理的提升范围在大多数设备上为 20-40%:

    • 骁龙 8 Gen 3: Vulkan 提升 +30-35%
    • Tensor G4: +25-30%
    • Exynos 2400: +20-30%
    • 中端骁龙 7: +20-25%

    llama.cpp 通过 n_gpu_layers 参数启用 Vulkan 加速。将其设置为模型的完整层数即可将所有计算卸载到 GPU。

    碎片化策略

    通过分层方案, Android 碎片化是可管理的:

    第一层: 1B 模型(4GB+ RAM)

    覆盖 85%+ 的活跃 Android 设备。包括过去 3-4 年的所有智能手机和过去 2 年的大多数入门级设备。

    • 模型大小: ~600MB (Q4_K_M)
    • RAM 需求: 推理时 800MB
    • 速度: 12-55 tok/s,取决于芯片组
    • 适用于: 分类、自动补全、智能建议、短响应

    第二层: 3B 模型(8GB+ RAM)

    覆盖过去 2-3 年的旗舰和中高端设备。在发达市场约占活跃 Android 设备的 40-50%,且每年在增长。

    • 模型大小: ~1.7GB (Q4_K_M)
    • RAM 需求: 推理时 2.2GB
    • 速度: 在支持的设备上 10-30 tok/s
    • 适用于: 聊天、摘要、内容生成、复杂任务

    运行时检测

    在运行时检测可用 RAM 和芯片组以选择合适的模型:

    fun selectModelTier(): ModelTier {
        val memInfo = ActivityManager.MemoryInfo()
        val activityManager = getSystemService(ACTIVITY_SERVICE) as ActivityManager
        activityManager.getMemoryInfo(memInfo)
    
        val totalRamGb = memInfo.totalMem / (1024 * 1024 * 1024)
    
        return when {
            totalRamGb >= 8 -> ModelTier.THREE_B
            totalRamGb >= 4 -> ModelTier.ONE_B
            else -> ModelTier.NONE // 设备性能过低
        }
    }

    热量与电池影响

    热节流

    Android 设备在持续推理时比 iPhone 更容易出现热节流。节流行为因制造商而异:

    • 三星: 激进节流,持续负载 3-5 分钟后速度降低 20-40%
    • Pixel: 适中节流, 5-7 分钟后降低 15-25%
    • OnePlus/游戏手机: 更宽松, 10-20% 降低

    电池消耗

    推理大致消耗:

    • 1B 模型: 生成时 2-3W
    • 3B 模型: 生成时 3-5W

    作为参考,典型手机电池容量为 4,000-5,500 mAh。3B 模型持续生成每分钟约消耗 1% 电量。对于典型使用(每小时几次短交互),电池影响可以忽略。

    优化

    • 使用与设备性能核心匹配的 CPU 线程数(通常为 4)
    • 不使用时卸载模型以消除空闲功耗
    • 对于后台任务(分类、标记),批处理比逐个调用更节能

    这对开发者意味着什么

    1. 1B 模型普遍可行。 以 1B 为目标实现广泛覆盖。针对你的领域微调以最大化此规模下的质量。

    2. 3B 模型旗舰可用。 如果你的用户群偏向较新设备(付费应用常见), 3B 能提供明显更好的生成质量。

    3. Vulkan 很重要。 始终启用 GPU 加速。20-40% 的速度提升是免费的性能。

    4. 检测并适配。 使用运行时 RAM 检测来提供正确的模型层级。不要在 4GB 设备上强制使用 3B 模型。

    5. 微调,而非简单缩小。 在你的领域数据上微调的 1B 模型在你的特定任务上优于通用 3B。Ertas 等平台使这变得可行: 上传数据、用 LoRA 训练、导出 GGUF、部署。

    Android 生态系统有硬件基础。推理引擎(llama.cpp)处理了芯片组多样性。缺失的部分是适合你使用场景的正确模型。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading