
Los Chunks Defectuosos Envenenan las Respuestas RAG: Una Guia de Depuracion para la Calidad del Chunking
Como una mala estrategia de chunking degrada la calidad de salida de RAG. Ejemplos reales de chunks defectuosos, tecnicas de diagnostico y correcciones para fallos comunes de chunking.
Toda sesion de depuracion de RAG llega eventualmente al mismo punto: inspeccionas los chunks recuperados y te das cuenta de que el problema no es la recuperacion, no es el LLM, no es el prompt. Los chunks en si mismos son basura. El pipeline de chunking dividio fielmente tus documentos en piezas, y esas piezas son incoherentes, incompletas o enganosas.
El chunking es el "basura entra, basura sale" del RAG. Si los chunks son malos, todo lo que viene despues es malo: los embeddings codifican la semantica incorrecta, la recuperacion devuelve el contexto equivocado y el LLM genera las respuestas incorrectas. Ninguna cantidad de ingenieria de prompts o reranking corrige chunks fundamentalmente rotos.
Este articulo cataloga los fallos de chunking mas comunes, muestra como se ven realmente los chunks defectuosos y proporciona correcciones practicas para cada uno.
Patron de Chunk Defectuoso 1: Cortes a Mitad de Oracion
Como se ve:
El Chunk A termina con: "La cobertura maxima bajo esta poliza se limita a"
El Chunk B comienza con: "$500,000 por incidente, con un deducible de $2,500 aplicable a todas las reclamaciones presentadas despues del 1 de enero de 2026."
Por que sucede: El chunking de tamano fijo (dividir cada N tokens) no tiene conciencia de los limites de las oraciones. Cuando una oracion cruza el limite del chunk, ambos chunks se vuelven individualmente sin sentido. El Chunk A establece un limite de cobertura sin el numero. El Chunk B proporciona un numero sin contexto sobre a que se refiere.
El dano aguas abajo: Si un usuario pregunta "Cual es la cobertura maxima?", la recuperacion podria encontrar el Chunk A (contiene las palabras "cobertura" y "maxima") pero no el Chunk B. El LLM o alucina un numero o dice que no puede encontrar la informacion, aunque la respuesta existe en el corpus.
Correccion: Usar chunking consciente de oraciones. El algoritmo de chunking debe respetar los limites de las oraciones, asegurando que cada chunk comience y termine en una oracion completa. Agregar un 10-15% de solapamiento entre chunks para que las oraciones limite aparezcan en ambos chunks adyacentes.
Patron de Chunk Defectuoso 2: Contexto Huerfano
Como se ve:
Chunk: "La tasa es del 4.5%. Para cuentas que excedan el umbral, se aplica un recargo adicional del 1.2%. Las excepciones se enumeran en el Apendice C."
Que falta: Cual tasa? Que umbral? Que tipo de cuentas? El chunk es gramaticalmente completo pero semanticamente huerfano: contiene detalles especificos sin el contexto marco que hace interpretables esos detalles.
Por que sucede: La estrategia de chunking divide por seccion o encabezado, pero la seccion en si es una subseccion que depende de la seccion padre para tener contexto. Un chunk de la "Seccion 3.2.1: Tabla de Tarifas" no tiene sentido sin saber que la Seccion 3.2 trata sobre "Productos de Prestamo Comercial" y la Seccion 3 trata sobre "Banca Empresarial."
El dano aguas abajo: El LLM recibe el chunk y debe adivinar a que se refieren "la tasa" y "el umbral". O adivina mal (alucinacion) o se cubre con una respuesta vaga. De cualquier manera, el usuario recibe una respuesta inutil.
Correccion: Anteponer contexto jerarquico a cada chunk. Si un chunk proviene de la Seccion 3.2.1, el texto del chunk debe comenzar con "Banca Empresarial - Productos de Prestamo Comercial - Tabla de Tarifas:" antes del contenido del chunk. Esto le da al LLM el marco que necesita para interpretar los detalles. Algunos equipos llaman a esto "chunking contextual" o "chunking de migas de pan."
Patron de Chunk Defectuoso 3: Fragmentacion de Tablas
Como se ve:
Chunk A: "| Plan | Costo Mensual | Almacenamiento |"
Chunk B: "| --- | --- | --- | | Gratis | $0 | 5 GB | | Builder | $34.50 | 50 GB |"
Chunk C: "| Agency | $149 | 200 GB | | Agency Pro | $349 | 500 GB |"
Por que sucede: Las tablas son el peor escenario para el chunking de tamano fijo. La fila de encabezado cae en un chunk, las primeras filas de datos en otro, y las filas restantes en un tercero. Cada chunk es individualmente inutil: encabezados sin datos, datos sin encabezados, y una tabla dividida en dos chunks sin indicacion de que pertenecen juntos.
El dano aguas abajo: Un usuario pregunta "Cuanto cuesta el plan Agency?" y la recuperacion devuelve el Chunk C, que contiene la respuesta pero no los encabezados de columna. El LLM ve "$149" y "200 GB" pero no puede determinar cual numero es el costo y cual es el limite de almacenamiento sin la fila de encabezado.
Correccion: Detectar tablas durante el analisis y tratar cada tabla como una unidad atomica. Si una tabla excede el limite de tamano del chunk, repetir la fila de encabezado en la parte superior de cada chunk. Convertir tablas complejas a texto estructurado (pares clave-valor o descripciones en prosa) antes del chunking si tus documentos contienen tablas demasiado grandes para caber en un solo chunk.
Patron de Chunk Defectuoso 4: Redundancia por Solapamiento
Como se ve:
Chunk A (tokens 0-500): "Nuestra politica de privacidad asegura que los datos personales se manejen de acuerdo con los requisitos del GDPR. Los sujetos de datos tienen derecho a acceder..."
Chunk B (tokens 400-900): "...el derecho a acceder, rectificar y borrar sus datos personales. Los sujetos de datos tienen derecho a acceder a sus datos y solicitar correcciones en cualquier momento. Nuestra politica de privacidad asegura que los datos personales se manejen..."
Por que sucede: El solapamiento excesivo de chunks (40-50% o mas) causa que grandes porciones de texto se repitan entre chunks adyacentes. El solapamiento se configuro de manera demasiado agresiva, probablemente en un intento de resolver el problema de corte a mitad de oracion.
El dano aguas abajo: La recuperacion devuelve multiples chunks que contienen informacion casi identica, desperdiciando espacio en la ventana de contexto. El LLM puede repetirse en su respuesta, o peor, tratar las menciones redundantes como evidencia corroborante y expresar mayor confianza de la justificada.
Correccion: Mantener el solapamiento entre 10-20% del tamano del chunk. El solapamiento esta pensado para preservar el contexto del limite, no para duplicar parrafos enteros. Si estas usando un solapamiento superior al 25%, probablemente estas compensando un problema de granularidad del chunking: corrige la granularidad en lugar de agregar mas solapamiento.
Patron de Chunk Defectuoso 5: Contaminacion de Metadatos-Contenido
Como se ve:
Chunk: "Ultima actualizacion: 2024-03-15 | Autor: J. Smith | Departamento: Legal | Version: 3.2 | Estado: Aprobado | Fecha de revision: 2025-03-15 | La clausula de indemnizacion en la Seccion 7 requiere que el contratista mantenga una cobertura de seguro de no menos de..."
Por que sucede: El parser del documento extrae todo lo que hay en la pagina, incluyendo encabezados de metadatos, propiedades del documento e informacion administrativa. El pipeline de chunking no distingue entre metadatos del documento y contenido del documento.
El dano aguas abajo: Los tokens de metadatos consumen espacio del chunk sin aportar valor semantico. El embedding codifica ruido de metadatos junto con el contenido real, reduciendo la calidad de representacion del embedding. La recuperacion puede coincidir con terminos de metadatos ("autor: J. Smith") en lugar de la relevancia del contenido.
Correccion: Separar la extraccion de metadatos de la extraccion de contenido durante el analisis. Almacenar metadatos como campos estructurados en los metadatos del chunk (filtrables en el vector store) en lugar de incluirlos en el texto del chunk. Si los metadatos son utiles para la recuperacion, agregarlos como un campo de metadatos separado, no como parte del texto embebido.
Patron de Chunk Defectuoso 6: Chunks Multi-Tema
Como se ve:
Chunk: "Los empleados tienen derecho a 20 dias de tiempo libre remunerado por ano calendario. El PTO no utilizado no se acumula. En otras noticias, la fiesta navidena de la oficina se celebrara el 15 de diciembre en el Marriott del centro. Por favor confirme su asistencia antes del 1 de diciembre. Adicionalmente, el departamento de TI recuerda a todo el personal que la rotacion de contrasenas es obligatoria cada 90 dias."
Por que sucede: El documento fuente (un boletin de empleados, una transcripcion de reunion, una exportacion de Slack) contiene multiples temas no relacionados en secuencia. El chunking de tamano fijo los agrupa en un solo chunk porque resultan ser adyacentes en el texto.
El dano aguas abajo: El embedding para este chunk es un promedio de tres temas no relacionados: politica de PTO, logistica de la fiesta y seguridad de TI. Sera una mala coincidencia para cualquier consulta especifica sobre cualquiera de los tres temas. Una consulta sobre la politica de PTO podria no recuperar este chunk porque el embedding esta diluido por el contenido de la fiesta y las contrasenas.
Correccion: Usar chunking consciente de temas para documentos no estructurados o multi-tema. Los algoritmos de segmentacion de temas pueden detectar limites de temas dentro de un documento y dividir los chunks en consecuencia. Para documentos estructurados, hacer chunking por encabezado de seccion. Para texto no estructurado (transcripciones, registros de chat), considerar usar un LLM para insertar limites de temas antes del chunking.
Como Auditar Tus Chunks
Antes de depurar la recuperacion, depura tus chunks. Aqui hay un proceso de auditoria practico:
Paso 1: Muestrear aleatoriamente. Extrae 50 chunks aleatorios de tu vector store. Lee cada uno como si fueras un humano que nunca ha visto el documento fuente. Puedes entender de que trata cada chunk? Contiene un pensamiento completo?
Paso 2: Probar chunks de limite. Encuentra chunks que comienzan o terminan a mitad de oracion. Cuentalos. Si mas del 10% de tus chunks tienen limites rotos, tu estrategia de chunking necesita revision.
Paso 3: Verificar huerfanos. Identifica chunks que referencian "lo anterior," "como se menciono," "esta seccion," o referencias relativas similares sin que el referente este presente en el chunk. Estos son chunks huerfanos que confundiran al LLM.
Paso 4: Medir redundancia. Compara chunks adyacentes. Si mas del 30% del contenido se solapa, tu configuracion de solapamiento es demasiado agresiva.
Paso 5: Inspeccionar tablas y listas. Encuentra chunks que contienen tablas parciales (datos sin encabezados) o listas parciales (elementos sin la introduccion de la lista). Estos necesitan chunking atomico.
Paso 6: Buscar contaminacion de metadatos. Encuentra chunks donde mas del 20% del texto son metadatos del documento en lugar de contenido. Estos necesitan correcciones a nivel del parser.
Construyendo Mejores Pipelines de Chunking
La causa raiz de los chunks defectuosos es casi siempre una estrategia de chunking elegida una vez y nunca revisada. Los equipos escogen "divisor de texto recursivo por caracteres con 1000 tokens y 200 de solapamiento" de un tutorial de LangChain, lo despliegan y nunca miran los chunks reales que produce.
El chunking no es un parametro de configuracion. Es una decision de calidad de datos que determina directamente el limite superior de la calidad de respuestas de tu pipeline RAG. Ninguna tecnica aguas abajo (reranking, ingenieria de prompts, ventanas de contexto mas grandes) puede compensar chunks que no contienen informacion coherente y completa.
Ertas Data Suite incluye un nodo dedicado RAG Chunker que te permite configurar la estrategia de chunking, inspeccionar visualmente los chunks de salida en el canvas e iterar sobre los parametros antes de que los chunks lleguen a la etapa de embedding. Cuando puedes ver tus chunks (realmente leerlos, uno por uno) detectas la basura antes de que entre al vector store. Cuando el chunking es una llamada a funcion enterrada en un script de Python, nadie mira la salida.
Mira tus chunks. Leelos. Si no tienen sentido para ti, tampoco tendran sentido para el LLM.
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

RAG Pipeline Failure Modes: A Field Guide for Production Debugging
A comprehensive catalog of RAG failure modes with symptoms, root causes, and fixes. Built from real production incidents and community discussions.

Embedding Drift and Stale Vectors: The Silent RAG Pipeline Killer
How embeddings go stale, how semantic drift degrades retrieval quality over time, and practical strategies for detection and remediation in production RAG pipelines.

PII Leaks in RAG Context Windows: Detection, Prevention, and Pipeline Design
How personally identifiable information enters RAG context windows, gets passed to LLMs, and ends up in responses. A pipeline-level prevention framework with redaction gates.