
Chatbot ajustado vs chatbot RAG: qué construir realmente para un cliente
Fine-tuning y RAG son ambas formas de hacer que los sistemas de IA sean más inteligentes sobre el negocio de tu cliente. Resuelven problemas diferentes. Aquí está el marco de decisión para arquitectos de soluciones de IA.
Todo consultor y agencia de IA recibe la misma pregunta eventualmente: "¿Deberíamos ajustar un modelo o usar RAG?" La respuesta honesta es: depende del problema, y a menudo necesitas ambos.
Pero "depende" no es una guía útil. Este artículo te da un marco de decisión preciso para que puedas llegar a una sesión de alcance con un cliente y saber en 30 minutos qué enfoque necesitas.
Qué hace cada técnica
Fine-tuning modifica los pesos del modelo para cambiar su comportamiento. Entrenas al modelo con ejemplos de la tarea que quieres que realice, y el modelo aprende a realizar esa tarea mejor — con el estilo, terminología, formato de salida y patrones de comportamiento correctos. Fine-tuning se trata de comportamiento.
RAG (Generación Aumentada por Recuperación) inyecta documentos o datos relevantes en el contexto del modelo en tiempo de inferencia. Los pesos del modelo no cambian; en su lugar, se le proporciona información para razonar en el momento de cada consulta. RAG se trata de acceso al conocimiento.
Esta distinción es fundamental y determina qué técnica aplica a un problema dado.
El marco de decisión central
Haz estas cuatro preguntas sobre el caso de uso del cliente:
Pregunta 1: ¿El modo de fallo es "estilo/comportamiento incorrecto" o "datos incorrectos"?
Si estilo/comportamiento incorrecto: Fine-tuning. El modelo da la información correcta pero suena mal — demasiado formal, demasiado casual, usa lenguaje genérico de IA en lugar de la voz del cliente, estructura las salidas incorrectamente, no sigue los requisitos de formato específicos del cliente.
Si datos incorrectos: RAG. El modelo da información incorrecta con confianza porque no tiene acceso a los datos correctos — especificaciones de producto incorrectas, precios desactualizados, detalles de políticas incorrectos, información sobre personas o registros específicos sobre los que el modelo nunca fue entrenado.
Pregunta 2: ¿El conocimiento cambia frecuentemente?
Si el conocimiento cambia frecuentemente: RAG. Catálogos de productos, precios, inventario, estados de casos, actualizaciones de políticas, directorios de personal — cualquier cosa que se actualice más de una vez al mes. RAG extrae de una base de datos que puedes actualizar sin reentrenar. Fine-tuning es una instantánea.
Si el conocimiento es estable: Fine-tuning es viable. Terminología del dominio que raramente cambia, convenciones estilísticas, patrones de tareas — estos pueden aprenderse mediante fine-tuning y permanecerán precisos por más de 12 meses.
Pregunta 3: ¿Cuántos datos tiene el cliente?
Menos de 200 ejemplos: RAG es más fácil para empezar. RAG requiere fragmentación y embedding de documentos, no datos de entrenamiento. Fine-tuning necesita ejemplos suficientes para aprender.
Más de 200 ejemplos de alta calidad: Fine-tuning es viable. Más ejemplos (500-2,000) producen resultados notablemente mejores.
Ambos existen: Usa ambas técnicas. Ajusta con ejemplos de comportamiento, agrega RAG para recuperación factual.
Pregunta 4: ¿Hay un requisito de soberanía de datos?
Sí, los datos no pueden salir de las instalaciones: Ambas técnicas son viables con despliegue local (Ollama). Los modelos ajustados son completamente autocontenidos — sin llamadas a API. RAG con una base de datos vectorial local (Chroma, Qdrant corriendo localmente) también satisface la soberanía de datos. Este requisito no determina qué técnica usar; determina la arquitectura de despliegue.
Sin requisito específico: RAG alojado en la nube (Pinecone, Weaviate Cloud) es una opción para reducir la carga operacional.
Matriz de decisión
| Situación | Recomendación |
|---|---|
| El cliente necesita tono/voz específicos | Fine-tuning |
| El cliente tiene catálogo de productos actualizado semanalmente | RAG |
| El cliente quiere respuestas precisas sobre sus servicios | RAG |
| El cliente quiere formato consistente en todas las salidas | Fine-tuning |
| El cliente tiene más de 2,000 ejemplos de tickets de soporte | Fine-tuning |
| La terminología del dominio del cliente es específica e inusual | Fine-tuning |
| El cliente hace preguntas sobre pedidos/registros actuales | RAG |
| El cliente necesita respuestas de documentos largos de políticas | RAG |
| El cliente quiere un modelo que "suene como nosotros" | Fine-tuning |
| El cliente necesita información actual de una base de datos | RAG |
| Caso de uso complejo del cliente, el presupuesto lo permite | Ambos |
Análisis profundo por caso de uso
Chatbot de soporte al cliente
Requisitos típicos: Responder preguntas comunes, mantener la voz de marca, manejar escalaciones apropiadamente, cubrir FAQs y preguntas de productos.
Recomendación: Fine-tuning + RAG.
Fine-tuning para: tono, comportamiento de escalación, formato (siempre incluir número de pedido en la respuesta, siempre ofrecer transferir a un agente humano), estilo de respuesta.
RAG para: especificaciones actuales de productos, precios, estado de pedidos (si está conectado a datos en vivo), detalles de políticas que se actualizan frecuentemente.
¿Por qué no solo RAG? Porque RAG solo producirá respuestas en estilo genérico de asistente de IA, no en la voz del cliente. Fine-tuning corrige el comportamiento; RAG corrige el conocimiento.
¿Por qué no solo fine-tuning? Porque los modelos ajustados memorizan datos de sus datos de entrenamiento. Si ajustas con un catálogo de productos que luego cambia, el modelo da respuestas incorrectas hasta que reentenas. RAG resuelve esto.
Preguntas y respuestas sobre documentos internos
Requisitos típicos: Responder preguntas sobre políticas internas, procedimientos, documentos de RH, documentación técnica.
Recomendación: RAG, potencialmente con fine-tuning ligero.
RAG es la técnica principal — toda la propuesta de valor es "responder preguntas usando nuestros documentos". El modelo necesita acceso a los documentos en tiempo de inferencia, no conocimiento memorizado.
Fine-tuning ligero agrega valor si: el cliente tiene requisitos de formato específicos para las respuestas (siempre citar el documento fuente, siempre proporcionar una declaración de confianza), o si el estilo del documento es lo suficientemente inusual como para que el modelo base tenga dificultades para entenderlo.
Generación de contenido (voz de marca)
Requisitos típicos: Generar posts de blog, contenido de redes sociales, descripciones de productos, borradores de correo electrónico que suenen como el cliente.
Recomendación: Fine-tuning, potencialmente con RAG para detalles de productos.
La voz de marca es una característica de comportamiento — el tono correcto, elección de palabras, ritmo de oraciones, patrones estructurales. Esto se aprende mediante fine-tuning con ejemplos de contenido de marca existente.
Si la generación de contenido también necesita incluir especificaciones precisas de productos, precios u otros detalles factuales — agrega RAG para extraer estos datos en tiempo de generación.
Investigación de prospectos de ventas
Requisitos típicos: Resumir información de empresas, generar contexto de contacto, investigar antecedentes de leads.
Recomendación: RAG con integración de web/base de datos en vivo.
Este caso de uso necesita información actual que cambia constantemente. Un modelo ajustado no ayuda aquí — el problema es acceso a datos, no comportamiento. Conecta un pipeline RAG a fuentes de datos relevantes (LinkedIn, sitios web de empresas, datos de CRM) para proporcionar al modelo contexto fresco en tiempo de inferencia.
Asistente de revisión de código
Requisitos típicos: Revisar código contra las convenciones del equipo, sugerir mejoras en el estilo del equipo.
Recomendación: Fine-tuning.
Las convenciones de codificación del equipo son patrones de comportamiento estables (siempre agregar manejo de errores, preferir estilo funcional, convenciones de nombres específicas). Estos se aprenden mediante fine-tuning con ejemplos de revisiones de código aprobadas vs. marcadas. RAG sobre documentación agrega poco más allá de lo que un modelo base bien configurado con prompts proporciona.
La arquitectura "usa ambos"
Para la mayoría de los despliegues serios en producción, la respuesta correcta no es fine-tuning O RAG — es ambos, cumpliendo diferentes roles:
User query
↓
[Retrieval system: pulls relevant docs/data from knowledge base]
↓
[Fine-tuned model: processes query + retrieved context, generates response]
↓
Response
El modelo ajustado aporta las características de comportamiento (tono, formato, rendimiento en tareas). El sistema de recuperación aporta fundamentación actual y factual. Juntos, producen respuestas que son tanto estilísticamente correctas como factualmente precisas.
Esta arquitectura es más compleja de construir y mantener que cualquiera de los dos enfoques por separado. Requiere:
- Una base de conocimiento con procesos de actualización regulares
- Un pipeline de embedding e indexación
- Un pipeline de fine-tuning para actualizaciones de comportamiento
- Métricas de evaluación que cubran tanto la calidad del comportamiento como la precisión factual
Para clientes con el presupuesto y el caso de uso, vale la pena la inversión. Para casos de uso más simples, empieza con la técnica que aborda el modo de fallo principal y agrega la segunda capa después si es necesario.
Construyendo la recomendación para el cliente
Cuando presentes una recomendación a un cliente, enmárcala como:
"Su desafío principal es [estilo incorrecto vs. datos incorrectos]. Esto significa que [fine-tuning / RAG] es el punto de partida correcto. Esto es lo que hará por usted: [mejora específica]. El desafío secundario es [otro problema], que abordaríamos en la fase dos con [la otra técnica]."
Los clientes aprecian que les digan cuál es realmente el problema y por qué elegiste el enfoque que elegiste. Esto es más persuasivo que un explicador técnico y establece mejores expectativas sobre lo que el sistema hará y no hará.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura adicional
- Fine-Tuning vs RAG — Inmersión técnica profunda en los dos enfoques
- La ingeniería de prompts tiene un techo. Esto es lo que viene después. — Cuándo graduarse de prompts a fine-tuning
- 7B vs GPT-4: qué tamaño de modelo realmente se ajusta a la tarea de tu cliente — Selección de modelo después de haber elegido tu técnica
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Prompt Engineering Has a Ceiling. Here's What Comes After.
Prompt engineering can take you far — but every agency and developer hits the wall eventually. Here's what the ceiling looks like, why it exists, and what techniques come after.

7B vs GPT-4: Which Model Size Actually Fits Your Client's Task
Bigger isn't always better. A guide for AI solutions architects on matching model size to client task requirements — including when a fine-tuned 7B model will outperform GPT-4.

From Prompt Engineering to Fine-Tuning: The Migration Playbook
A practical playbook for teams migrating from prompt engineering to fine-tuning — when to make the switch, how to convert prompts into training data, and the step-by-step migration process.