Chatbot ajustado vs chatbot RAG: qué construir realmente para un cliente

Todo consultor y agencia de IA recibe la misma pregunta eventualmente: "¿Deberíamos ajustar un modelo o usar RAG?" La respuesta honesta es: depende del problema, y a menudo necesitas ambos.

Pero "depende" no es una guía útil. Este artículo te da un marco de decisión preciso para que puedas llegar a una sesión de alcance con un cliente y saber en 30 minutos qué enfoque necesitas.

Qué hace cada técnica

Fine-tuning modifica los pesos del modelo para cambiar su comportamiento. Entrenas al modelo con ejemplos de la tarea que quieres que realice, y el modelo aprende a realizar esa tarea mejor — con el estilo, terminología, formato de salida y patrones de comportamiento correctos. Fine-tuning se trata de comportamiento.

RAG (Generación Aumentada por Recuperación) inyecta documentos o datos relevantes en el contexto del modelo en tiempo de inferencia. Los pesos del modelo no cambian; en su lugar, se le proporciona información para razonar en el momento de cada consulta. RAG se trata de acceso al conocimiento.

Esta distinción es fundamental y determina qué técnica aplica a un problema dado.

El marco de decisión central

Haz estas cuatro preguntas sobre el caso de uso del cliente:

Pregunta 1: ¿El modo de fallo es "estilo/comportamiento incorrecto" o "datos incorrectos"?

Si estilo/comportamiento incorrecto: Fine-tuning. El modelo da la información correcta pero suena mal — demasiado formal, demasiado casual, usa lenguaje genérico de IA en lugar de la voz del cliente, estructura las salidas incorrectamente, no sigue los requisitos de formato específicos del cliente.

Si datos incorrectos: RAG. El modelo da información incorrecta con confianza porque no tiene acceso a los datos correctos — especificaciones de producto incorrectas, precios desactualizados, detalles de políticas incorrectos, información sobre personas o registros específicos sobre los que el modelo nunca fue entrenado.

Pregunta 2: ¿El conocimiento cambia frecuentemente?

Si el conocimiento cambia frecuentemente: RAG. Catálogos de productos, precios, inventario, estados de casos, actualizaciones de políticas, directorios de personal — cualquier cosa que se actualice más de una vez al mes. RAG extrae de una base de datos que puedes actualizar sin reentrenar. Fine-tuning es una instantánea.

Si el conocimiento es estable: Fine-tuning es viable. Terminología del dominio que raramente cambia, convenciones estilísticas, patrones de tareas — estos pueden aprenderse mediante fine-tuning y permanecerán precisos por más de 12 meses.

Pregunta 3: ¿Cuántos datos tiene el cliente?

Menos de 200 ejemplos: RAG es más fácil para empezar. RAG requiere fragmentación y embedding de documentos, no datos de entrenamiento. Fine-tuning necesita ejemplos suficientes para aprender.

Más de 200 ejemplos de alta calidad: Fine-tuning es viable. Más ejemplos (500-2,000) producen resultados notablemente mejores.

Ambos existen: Usa ambas técnicas. Ajusta con ejemplos de comportamiento, agrega RAG para recuperación factual.

Pregunta 4: ¿Hay un requisito de soberanía de datos?

Sí, los datos no pueden salir de las instalaciones: Ambas técnicas son viables con despliegue local (Ollama). Los modelos ajustados son completamente autocontenidos — sin llamadas a API. RAG con una base de datos vectorial local (Chroma, Qdrant corriendo localmente) también satisface la soberanía de datos. Este requisito no determina qué técnica usar; determina la arquitectura de despliegue.

Sin requisito específico: RAG alojado en la nube (Pinecone, Weaviate Cloud) es una opción para reducir la carga operacional.

Matriz de decisión

Situación	Recomendación
El cliente necesita tono/voz específicos	Fine-tuning
El cliente tiene catálogo de productos actualizado semanalmente	RAG
El cliente quiere respuestas precisas sobre sus servicios	RAG
El cliente quiere formato consistente en todas las salidas	Fine-tuning
El cliente tiene más de 2,000 ejemplos de tickets de soporte	Fine-tuning
La terminología del dominio del cliente es específica e inusual	Fine-tuning
El cliente hace preguntas sobre pedidos/registros actuales	RAG
El cliente necesita respuestas de documentos largos de políticas	RAG
El cliente quiere un modelo que "suene como nosotros"	Fine-tuning
El cliente necesita información actual de una base de datos	RAG
Caso de uso complejo del cliente, el presupuesto lo permite	Ambos

Análisis profundo por caso de uso

Chatbot de soporte al cliente

Requisitos típicos: Responder preguntas comunes, mantener la voz de marca, manejar escalaciones apropiadamente, cubrir FAQs y preguntas de productos.

Recomendación: Fine-tuning + RAG.

Fine-tuning para: tono, comportamiento de escalación, formato (siempre incluir número de pedido en la respuesta, siempre ofrecer transferir a un agente humano), estilo de respuesta.

RAG para: especificaciones actuales de productos, precios, estado de pedidos (si está conectado a datos en vivo), detalles de políticas que se actualizan frecuentemente.

¿Por qué no solo RAG? Porque RAG solo producirá respuestas en estilo genérico de asistente de IA, no en la voz del cliente. Fine-tuning corrige el comportamiento; RAG corrige el conocimiento.

¿Por qué no solo fine-tuning? Porque los modelos ajustados memorizan datos de sus datos de entrenamiento. Si ajustas con un catálogo de productos que luego cambia, el modelo da respuestas incorrectas hasta que reentenas. RAG resuelve esto.

Preguntas y respuestas sobre documentos internos

Requisitos típicos: Responder preguntas sobre políticas internas, procedimientos, documentos de RH, documentación técnica.

Recomendación: RAG, potencialmente con fine-tuning ligero.

RAG es la técnica principal — toda la propuesta de valor es "responder preguntas usando nuestros documentos". El modelo necesita acceso a los documentos en tiempo de inferencia, no conocimiento memorizado.

Fine-tuning ligero agrega valor si: el cliente tiene requisitos de formato específicos para las respuestas (siempre citar el documento fuente, siempre proporcionar una declaración de confianza), o si el estilo del documento es lo suficientemente inusual como para que el modelo base tenga dificultades para entenderlo.

Generación de contenido (voz de marca)

Requisitos típicos: Generar posts de blog, contenido de redes sociales, descripciones de productos, borradores de correo electrónico que suenen como el cliente.

Recomendación: Fine-tuning, potencialmente con RAG para detalles de productos.

La voz de marca es una característica de comportamiento — el tono correcto, elección de palabras, ritmo de oraciones, patrones estructurales. Esto se aprende mediante fine-tuning con ejemplos de contenido de marca existente.

Si la generación de contenido también necesita incluir especificaciones precisas de productos, precios u otros detalles factuales — agrega RAG para extraer estos datos en tiempo de generación.

Investigación de prospectos de ventas

Requisitos típicos: Resumir información de empresas, generar contexto de contacto, investigar antecedentes de leads.

Recomendación: RAG con integración de web/base de datos en vivo.

Este caso de uso necesita información actual que cambia constantemente. Un modelo ajustado no ayuda aquí — el problema es acceso a datos, no comportamiento. Conecta un pipeline RAG a fuentes de datos relevantes (LinkedIn, sitios web de empresas, datos de CRM) para proporcionar al modelo contexto fresco en tiempo de inferencia.

Asistente de revisión de código

Requisitos típicos: Revisar código contra las convenciones del equipo, sugerir mejoras en el estilo del equipo.

Recomendación: Fine-tuning.

Las convenciones de codificación del equipo son patrones de comportamiento estables (siempre agregar manejo de errores, preferir estilo funcional, convenciones de nombres específicas). Estos se aprenden mediante fine-tuning con ejemplos de revisiones de código aprobadas vs. marcadas. RAG sobre documentación agrega poco más allá de lo que un modelo base bien configurado con prompts proporciona.

La arquitectura "usa ambos"

Para la mayoría de los despliegues serios en producción, la respuesta correcta no es fine-tuning O RAG — es ambos, cumpliendo diferentes roles:

User query
    ↓
[Retrieval system: pulls relevant docs/data from knowledge base]
    ↓
[Fine-tuned model: processes query + retrieved context, generates response]
    ↓
Response

El modelo ajustado aporta las características de comportamiento (tono, formato, rendimiento en tareas). El sistema de recuperación aporta fundamentación actual y factual. Juntos, producen respuestas que son tanto estilísticamente correctas como factualmente precisas.

Esta arquitectura es más compleja de construir y mantener que cualquiera de los dos enfoques por separado. Requiere:

Una base de conocimiento con procesos de actualización regulares
Un pipeline de embedding e indexación
Un pipeline de fine-tuning para actualizaciones de comportamiento
Métricas de evaluación que cubran tanto la calidad del comportamiento como la precisión factual

Para clientes con el presupuesto y el caso de uso, vale la pena la inversión. Para casos de uso más simples, empieza con la técnica que aborda el modo de fallo principal y agrega la segunda capa después si es necesario.

Construyendo la recomendación para el cliente

Cuando presentes una recomendación a un cliente, enmárcala como:

"Su desafío principal es [estilo incorrecto vs. datos incorrectos]. Esto significa que [fine-tuning / RAG] es el punto de partida correcto. Esto es lo que hará por usted: [mejora específica]. El desafío secundario es [otro problema], que abordaríamos en la fase dos con [la otra técnica]."

Los clientes aprecian que les digan cuál es realmente el problema y por qué elegiste el enfoque que elegiste. Esto es más persuasivo que un explicador técnico y establece mejores expectativas sobre lo que el sistema hará y no hará.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →