
fine-tuningRAGmobile AIarchitectureon-device AIsegment:mobile-builder
移动端微调 vs RAG: 为什么RAG仍然需要服务器
RAG是为AI提供领域知识的首选方案。但在移动端,RAG重新引入了你试图消除的服务器依赖。微调则将知识直接嵌入模型本身。
EErtas Team·
检索增强生成(RAG)是"如何让AI具备领域知识"这个问题的标准答案。检索相关文档,注入提示词,让模型基于上下文回答。这在有服务器基础设施的Web应用中运作良好。
在移动端,RAG存在一个结构性问题。检索步骤需要向量数据库。这个数据库要么在服务器上(重新引入服务器依赖),要么在设备上(消耗大量存储和内存)。对于移动端来说,两种方案都不够理想。
微调采用不同的方法。它不是在推理时查找知识,而是在训练期间将知识嵌入模型权重中。模型无需检索就能了解你的领域。
RAG的工作原理(以及为什么它需要基础设施)
标准的RAG流程:
- 索引阶段: 将文档分块,生成嵌入向量,存储在向量数据库中
- 查询阶段: 将用户的问题转换为嵌入,在向量数据库中搜索相似的块,检索前3-5个结果
- 生成阶段: 将检索到的块连同用户的问题一起注入提示词,发送给LLM