Puntuacion de Calidad en RAG: Como Medir la Precision de Recuperacion Antes de que Llegue a los Usuarios

La mayoria de los pipelines RAG estan construidos para mover datos desde la fuente al almacen vectorial y al prompt lo mas rapido posible. La velocidad es la prioridad predeterminada. La medicion de calidad, si existe, se encuentra al final — alguien hace una pregunta, obtiene una mala respuesta y abre un ticket.

Para entonces el dano ya esta hecho. La respuesta alucinada ya llego a produccion. El usuario ya perdio la confianza. Y el equipo que depura el problema tiene que trabajar hacia atras a traves de todo el pipeline para descubrir donde salio mal.

La mejor forma de monitorizar el rendimiento del pipeline RAG no es esperar fallos en la salida. Es puntuar la calidad en cada etapa — analisis, fragmentacion, embedding y recuperacion — para que la degradacion sea visible antes de que se acumule en una respuesta incorrecta.

Por Que la Evaluacion de Extremo a Extremo No Es Suficiente

Los equipos que miden la calidad del RAG suelen basarse en la evaluacion de extremo a extremo: generar un conjunto de preguntas de prueba, ejecutarlas a traves del pipeline y puntuar las respuestas finales. Este enfoque tiene valor real, pero tiene una limitacion fundamental.

Cuando una pregunta de prueba produce una mala respuesta, se sabe que algo esta mal. No se sabe que. El documento fuente se analizo incorrectamente, perdiendo una tabla critica? La estrategia de fragmentacion dividio un parrafo a mitad de oracion, destruyendo el contexto? El modelo de embedding coloco el fragmento en la region incorrecta del espacio vectorial? El recuperador devolvio la tercera mejor coincidencia en lugar de la primera?

La evaluacion de extremo a extremo indica que el pipeline esta roto. La puntuacion de calidad a nivel de etapa indica donde.

Etapa 1: Calidad del Analisis

Todo pipeline RAG comienza con la ingesta de documentos — convertir PDFs, paginas HTML, hojas de calculo u otros formatos en texto limpio. Aqui es donde ocurre la primera capa de perdida de calidad, y se ignora de forma rutinaria.

Que medir

Completitud estructural. Contar el numero de elementos estructurales (encabezados, tablas, listas, bloques de codigo) en el documento fuente, luego contar cuantos sobrevivieron al analisis. Un PDF con 12 tablas que produce cero elementos de tabla despues del analisis tiene una puntuacion de completitud estructural del 0% para tablas. Esa es una senal medible y registrable.

Fidelidad a nivel de caracteres. Comparar los recuentos de caracteres antes y despues del analisis. Un documento de 5,000 caracteres que produce 2,100 caracteres de salida analizada ha perdido mas de la mitad de su contenido. Marcar cualquier documento donde la salida analizada caiga por debajo del 70% de la longitud de origen.

Errores de codificacion. Contar caracteres ilegibles, secuencias mojibake o caracteres de reemplazo unicode en la salida analizada. Incluso un pequeno numero de errores de codificacion en un documento financiero puede convertir "$1,500" en datos inutiles.

Umbral practico

Establecer una puntuacion minima de calidad de analisis y dirigir los documentos que caigan por debajo a una cola de revision en lugar de dejarlos fluir hacia la fragmentacion. En Ertas, el nodo de Puntuacion de Calidad se situa directamente despues del nodo del analizador, y los documentos que no superan el umbral se marcan con un indicador visual en el lienzo del pipeline — se ve la caida del recuento de elementos en el borde entre nodos.

Etapa 2: Calidad de los Fragmentos

La fragmentacion es donde se originan la mayoria de los problemas de calidad del RAG, pero rara vez se mide directamente. Los equipos eligen un tamano de fragmento (512 tokens, 1024 tokens) y una estrategia (tamano fijo, recursivo, semantico) y asumen que funciona. A menudo no es asi.

Que medir

Coherencia semantica. Un fragmento debe contener una sola idea coherente o ideas estrechamente relacionadas. Se puede aproximar esto integrando la primera y segunda mitad de cada fragmento por separado y midiendo la similitud del coseno. Alta similitud significa que el fragmento es internamente coherente. Baja similitud significa que el limite del fragmento corto a traves de una transicion de tema.

Calidad de los limites. Verificar si los fragmentos comienzan y terminan en limites naturales — finales de oracion, saltos de parrafo, encabezados de seccion. Un fragmento que comienza a mitad de oracion (por ejemplo, "...y por lo tanto la responsabilidad se extiende a") casi con certeza recuperara pobremente.

Distribucion de tamanos. Graficar la distribucion de tamanos de fragmentos en todo el corpus. Una fragmentacion saludable produce una distribucion relativamente ajustada centrada en el tamano objetivo. Una cola larga de fragmentos muy cortos (menos de 50 tokens) generalmente indica artefactos del analizador — secciones vacias, encabezados repetidos o restos de formato que sobrevivieron al analisis pero no tienen valor semantico.

Consistencia de solapamiento. Si se utilizan fragmentos con solapamiento, verificar que el solapamiento realmente funciona. Medir el solapamiento de tokens entre fragmentos consecutivos y marcar cualquier par donde el solapamiento sea cero (indicando una brecha) o inusualmente grande (indicando redundancia).

Umbral practico

La puntuacion de calidad del RAG a nivel de fragmento debe marcar cualquier fragmento con una puntuacion de coherencia inferior a 0.6 o un tamano por debajo del umbral minimo viable. En un pipeline bien ajustado, menos del 5% de los fragmentos deberian caer por debajo de estos umbrales. Si mas del 15% falla, la estrategia de fragmentacion necesita revision antes de proceder al embedding.

Etapa 3: Calidad del Embedding

Una vez que los fragmentos estan integrados, se tienen vectores — pero no todos los vectores son igualmente utiles. Los embeddings deficientes agrupan contenido no relacionado o dispersan contenido relacionado, ambos degradan la recuperacion.

Que medir

Similitud intra-tema. Tomar fragmentos que se sabe que pertenecen al mismo tema (basandose en su documento fuente o encabezado de seccion) y medir la similitud del coseno promedio de sus embeddings. Esto deberia ser alto — tipicamente por encima de 0.7 para un modelo de embedding bien ajustado.

Separacion inter-tema. Tomar fragmentos de diferentes temas y medir la similitud del coseno promedio. Esto deberia ser bajo. Si el modelo de embedding produce vectores similares para "resumen de ingresos trimestrales" y "lista de verificacion de incorporacion de empleados", la recuperacion va a devolver resultados irrelevantes independientemente de lo bueno que sea el recuperador.

Utilizacion dimensional. Algunos modelos de embedding producen vectores que solo usan una fraccion de su capacidad dimensional — la mayor parte de la varianza se concentra en unas pocas dimensiones mientras otras llevan una senal casi nula. Medir la proporcion de varianza explicada a traves de las dimensiones. Si el 90% de la varianza se captura con el 10% de las dimensiones, se podria beneficiar de un modelo de embedding diferente o de reduccion de dimensionalidad.

Verificaciones de vecinos mas cercanos. Para una muestra aleatoria de fragmentos, recuperar los 5 vecinos mas cercanos y puntuar si estan tematicamente relacionados. Esta es una medida directa de si el espacio de embedding soporta buena recuperacion. Si la relevancia promedio de los 5 vecinos principales esta por debajo del 60%, el modelo de embedding no es adecuado para el dominio.

Umbral practico

Registrar metricas de calidad de embedding por lote y configurar alertas para la deriva. Un modelo de embedding que puntuo bien durante la evaluacion inicial puede degradarse a medida que el corpus evoluciona — nuevos tipos de documentos, nueva terminologia o distribuciones de temas desplazadas pueden reducir la efectividad del embedding con el tiempo.

Etapa 4: Relevancia de la Recuperacion

Esta es la puerta final antes de que los fragmentos recuperados entren en el prompt. Incluso si el analisis, la fragmentacion y el embedding funcionan bien, el paso de recuperacion en si puede introducir errores.

Que medir

Precision en K. Para un conjunto de consultas de prueba con documentos relevantes conocidos, medir que fraccion de los K fragmentos principales recuperados son realmente relevantes. La precision en 5 es la metrica mas comun — de los 5 fragmentos recuperados, cuantos son genuinamente utiles para responder la consulta.

Recall en K. De todos los fragmentos que deberian haberse recuperado para una consulta dada, cuantos aparecieron realmente en los K resultados principales. Un recall bajo significa que la recuperacion esta perdiendo informacion relevante, lo que conduce a respuestas incompletas.

Rango reciproco. Donde aparece el primer fragmento relevante en los resultados clasificados? Si el mejor fragmento se clasifica consistentemente en tercero o cuarto lugar en lugar de primero, la estrategia de reordenamiento (o la falta de ella) necesita atencion.

Distribucion de puntuaciones. Observar las puntuaciones de similitud de los fragmentos recuperados. Una recuperacion saludable produce una brecha clara entre resultados relevantes e irrelevantes. Si el fragmento principal puntua 0.82 y el quinto fragmento puntua 0.79, el recuperador no esta distinguiendo con confianza entre contenido relevante e irrelevante. Si el fragmento principal puntua 0.85 y el quinto puntua 0.45, la senal es fuerte.

Integrando Todo: Observabilidad a Nivel de Nodo

El valor real de la puntuacion de calidad del RAG no esta en ninguna metrica individual — esta en medirlas todas continuamente, en cada etapa, y hacer los resultados visibles.

En Ertas, esto esta integrado en la arquitectura del pipeline. Cada nodo en un pipeline visual registra sus entradas y salidas. Los recuentos de elementos fluyen a lo largo de los bordes, por lo que se puede ver exactamente cuantos documentos entraron al analizador, cuantos fragmentos emergieron, cuantos superaron los umbrales de calidad y cuantos fueron recuperados. El nodo de Puntuacion de Calidad aplica umbrales configurables en cualquier etapa, y el nodo de Deteccion de Anomalias vigila cambios repentinos — un paso de analisis que usualmente produce 200 fragmentos por documento y de repente produce 50 es una senal que vale la pena investigar.

Este enfoque a nivel de nodo significa que no se necesita un sistema de monitorizacion separado. El pipeline en si es el sistema de monitorizacion. Las puntuaciones de calidad son visibles en el lienzo, la degradacion se detecta en la etapa donde ocurre, y el equipo que depura una mala respuesta puede mirar la visualizacion del pipeline e inmediatamente ver donde cayo la calidad.

Las Metricas que Mas Importan

Si se parte de cero y se necesita priorizar, centrarse en tres metricas de precision de recuperacion RAG:

Completitud del analisis — se esta perdiendo contenido durante la ingesta? Medir la tasa de supervivencia de elementos estructurales.
Coherencia de fragmentos — los fragmentos son semanticamente autocontenidos? Medir la similitud intra-fragmento.
Precision en 5 — los fragmentos correctos estan llegando al prompt? Medir la relevancia de los K resultados principales.

Estas tres metricas, medidas continuamente, detectaran la mayoria de los problemas de calidad del RAG antes de que lleguen a produccion. Son economicas de calcular, faciles de interpretar y directamente accionables — una puntuacion baja en cualquiera de ellas apunta a una etapa especifica que necesita atencion.

La alternativa es esperar las quejas de los usuarios. Ese enfoque tambien funciona, eventualmente. Pero para cuando un usuario reporta una mala respuesta, el pipeline ha estado sirviendo resultados degradados a todos los usuarios que hicieron una pregunta similar. La puntuacion de calidad del RAG desplaza el punto de deteccion de "despues de que el usuario lo nota" a "antes de que los datos salgan del nodo". Esa es la diferencia entre depuracion reactiva y control de calidad proactivo.

Puntuacion de Calidad en RAG: Como Medir la Precision de Recuperacion Antes de que Llegue a los Usuarios

Por Que la Evaluacion de Extremo a Extremo No Es Suficiente

Etapa 1: Calidad del Analisis

Que medir

Umbral practico

Etapa 2: Calidad de los Fragmentos

Que medir

Umbral practico

Etapa 3: Calidad del Embedding

Que medir

Umbral practico

Etapa 4: Relevancia de la Recuperacion

Que medir

Integrando Todo: Observabilidad a Nivel de Nodo

Las Metricas que Mas Importan

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call

Best On-Premise Alternative to LangChain for Enterprise RAG Pipelines