What is Retrieval-Augmented Generation (RAG)?

Una arquitectura que mejora las respuestas de los LLM recuperando documentos relevantes de una base de conocimiento externa e incluyéndolos como contexto en el prompt.

Definition

La Generación Aumentada por Recuperación (RAG) es una técnica que combina las capacidades generativas de un modelo de lenguaje con un sistema de recuperación que obtiene información relevante de una base de conocimiento externa en tiempo de inferencia. En lugar de depender únicamente del conocimiento codificado en los pesos del modelo durante el preentrenamiento, los sistemas RAG buscan en un corpus de documentos los pasajes relevantes para la consulta del usuario, los inyectan en el prompt como contexto y dejan que el modelo genere una respuesta fundamentada en la información recuperada.

El pipeline RAG consta de dos componentes principales: un recuperador y un generador. El recuperador convierte tanto la consulta como los documentos en embeddings vectoriales y realiza una búsqueda por similitud para encontrar los pasajes más relevantes. El generador — típicamente un gran modelo de lenguaje — recibe la consulta junto con los pasajes recuperados y produce una respuesta que sintetiza la información recuperada. Esta arquitectura permite al modelo acceder a conocimiento actualizado y específico del dominio sin reentrenamiento.

RAG aborda varias limitaciones fundamentales de los LLMs independientes. Los modelos tienen fechas de corte de conocimiento y no pueden acceder a información publicada después del entrenamiento. Su conocimiento paramétrico puede ser inexacto o estar desactualizado. Y no pueden acceder a datos organizacionales propietarios. RAG resuelve estos tres problemas fundamentando la generación en una fuente de conocimiento externa y actualizable que puede incluir documentos propietarios, publicaciones recientes y bases de datos factuales verificadas.

Why It Matters

RAG se ha convertido en la arquitectura predeterminada para aplicaciones empresariales de LLM porque proporciona conocimiento controlable, verificable y actualizable sin el costo y la complejidad del reentrenamiento. Cuando se lanza un nuevo producto, cambia una política o se actualizan las regulaciones, la base de conocimiento puede actualizarse en minutos — comparado con días o semanas para el fine-tuning del modelo.

RAG también permite la atribución y verificación. Dado que las respuestas están fundamentadas en documentos recuperados específicos, los usuarios pueden verificar las fuentes, confirmar la precisión y generar confianza en los resultados del sistema. Esta trazabilidad es esencial para aplicaciones en salud, legal, finanzas y otros dominios donde la información incorrecta conlleva consecuencias significativas.

How It Works

Un sistema RAG típico funciona en cuatro etapas. Primero, la base de conocimiento se preprocesa: los documentos se dividen en fragmentos (típicamente de 256-512 tokens), y cada fragmento se convierte en un embedding vectorial denso usando un modelo de embeddings. Estos embeddings se almacenan en una base de datos vectorial para búsqueda eficiente por similitud.

En tiempo de consulta, la pregunta del usuario se convierte en un embedding usando el mismo modelo de embeddings, y la base de datos vectorial devuelve los k fragmentos de documentos más similares (típicamente k=3-10). Estos fragmentos se insertan en la plantilla del prompt junto con la pregunta del usuario, y el modelo de lenguaje genera una respuesta basada en el contexto combinado. El posprocesamiento puede incluir extracción de citas, detección de alucinaciones y validación de respuestas contra las fuentes recuperadas.

Example Use Case

Un bufete de abogados despliega un sistema RAG sobre su biblioteca de 50,000 documentos de jurisprudencia. Cuando un abogado pregunta '¿Qué precedentes existen para la responsabilidad por filtraciones de datos en el sector salud?', el recuperador encuentra los 5 resúmenes de casos más relevantes, y el LLM los sintetiza en un informe estructurado con citas. El sistema se actualiza automáticamente a medida que se agregan nuevos casos a la biblioteca, y los abogados pueden verificar cada afirmación haciendo clic en el documento fuente.

Key Takeaways

RAG combina la recuperación de bases de conocimiento externas con la generación del LLM para respuestas fundamentadas.
Resuelve las limitaciones de corte de conocimiento, precisión y datos propietarios de los LLMs independientes.
El recuperador usa búsqueda por similitud vectorial para encontrar pasajes de documentos relevantes.
RAG permite la atribución de fuentes y la verificación, generando confianza en los resultados de la IA.
Las bases de conocimiento pueden actualizarse sin reentrenamiento, haciendo que RAG sea más mantenible que el fine-tuning para conocimiento factual.

How Ertas Helps

Ertas Studio ajusta los modelos que potencian el componente de generación de los sistemas RAG, mientras que Ertas Data Suite ayuda a preparar y fragmentar los corpus de documentos que alimentan las bases de conocimiento RAG, asegurando fuentes de recuperación limpias y bien estructuradas.

Related Resources

Context Window

Embedding

Hallucination

Prompt Template

Vector Database

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →