Estrategias de Chunking para RAG: Cómo el Tamaño de los Fragmentos, la Superposición y la Detección de Límites Afectan la Calidad de Recuperación

La mayoría de los equipos que construyen pipelines RAG dedican su tiempo a optimizar modelos de embedding, bases de datos vectoriales y plantillas de prompts. Tratan el chunking como un detalle: dividir los documentos en fragmentos, generar embeddings y seguir adelante. Esto es un error. El chunking es la variable individual más impactante en la calidad de recuperación, y hacerlo mal se propaga en cascada por cada paso posterior.

Una mala estrategia de chunking para RAG produce embeddings que son demasiado genéricos para coincidir con consultas específicas o demasiado fragmentados para contener contexto útil. El recuperador devuelve pasajes irrelevantes. El generador alucina o se muestra indeciso. Los usuarios pierden la confianza. La solución rara vez es un mejor modelo, sino mejores fragmentos.

Por Qué el Chunking Importa Más de lo que Piensas

Cuando un usuario consulta un sistema RAG, el recuperador busca los fragmentos semánticamente más similares a la consulta. Si tus fragmentos son de 4.000 tokens cada uno, el embedding representa un promedio de todo lo que hay en ese bloque. Los detalles específicos se diluyen. Una pregunta sobre una cláusula de cumplimiento particular devuelve un fragmento que contiene tres páginas de texto de política no relacionado, y el modelo tiene que buscar la oración relevante enterrada dentro.

Si tus fragmentos son de 50 tokens cada uno, obtienes el problema opuesto. El embedding captura un fragmento de oración sin contexto circundante. El recuperador podría encontrar el fragmento correcto, pero el generador no tiene forma de producir una respuesta coherente a partir de una oración cortada por la mitad.

La mejor herramienta de chunking RAG para documentos empresariales te da control sobre tres variables: tamaño del fragmento, porcentaje de superposición y método de detección de límites. Estas tres configuraciones interactúan entre sí, y la combinación correcta depende del tipo de documento.

Chunking de Tamaño Fijo vs. Chunking Semántico

El enfoque más simple es el chunking de tamaño fijo: dividir cada documento en bloques de N tokens independientemente de la estructura del contenido. Esto es rápido, predecible y fácil de implementar. También es la opción predeterminada incorrecta para la mayoría de los casos de uso empresariales.

El chunking de tamaño fijo ignora completamente la estructura del documento. Una ventana de 512 tokens podría dividir una tabla por la mitad, cortar un párrafo a mitad de oración o combinar el final de una sección con el inicio de una sección no relacionada. Los embeddings resultantes son ruidosos y la calidad de recuperación se resiente.

El chunking semántico respeta los límites naturales de un documento. En lugar de dividir en un conteo fijo de tokens, divide en límites de oración, saltos de párrafo o encabezados de sección. Los fragmentos varían en tamaño, pero cada uno representa una unidad coherente de significado. Los embeddings son más limpios y la recuperación es más precisa.

La mejor forma de fragmentar PDFs para recuperación RAG es casi siempre el chunking semántico con una restricción de tamaño máximo. Se establece un límite superior, digamos 512 tokens, y el fragmentador divide en el límite natural más cercano por debajo de ese límite. Esto te da la consistencia del chunking de tamaño fijo con la coherencia del chunking semántico.

Métodos de Detección de Límites

No todos los límites son iguales. El método correcto de detección de límites depende de la estructura de tu documento.

Límites de oración dividen en la puntuación de fin de oración. Esta es la opción predeterminada más segura para texto no estructurado: artículos, correos electrónicos, tickets de soporte, prosa legal. Cada fragmento contiene oraciones completas, por lo que los embeddings capturan pensamientos completos. La desventaja es que los fragmentos a nivel de oración pueden ser muy pequeños, especialmente en documentos con oraciones cortas.

Límites de párrafo dividen en saltos de línea dobles o marcadores de párrafo explícitos. Esto funciona bien para documentos bien formateados: informes, contratos, manuales de políticas. Cada fragmento captura una idea o argumento completo. Los fragmentos a nivel de párrafo tienden a ser más grandes y más autocontenidos, lo que mejora el rendimiento del generador a costa de una precisión de recuperación ligeramente menor.

Límites de sección dividen en encabezados (H1, H2, H3 en HTML o Markdown, o títulos de sección detectados en PDFs). Esta es la detección de límites más agresiva y funciona mejor para documentos altamente estructurados: documentación técnica, marcos de cumplimiento, manuales de producto. Cada fragmento se mapea a una sección lógica del documento, lo que facilita rastrear los resultados de recuperación hasta su origen.

En la práctica, se desea una detección de límites jerárquica: intentar primero los límites de sección, recurrir a los límites de párrafo si las secciones son demasiado grandes y recurrir a los límites de oración como último recurso. Este es el enfoque que produce los fragmentos más consistentemente útiles en tipos de documentos mixtos.

Superposición: La Configuración Pasada por Alto

La superposición de fragmentos es el porcentaje de tokens compartidos entre fragmentos adyacentes. Si tienes fragmentos de 512 tokens con un 10% de superposición, cada fragmento comparte aproximadamente 51 tokens con el siguiente fragmento. Esos tokens compartidos aparecen en ambos embeddings.

¿Por qué importa esto? Sin superposición, la información que abarca un límite de fragmento se pierde. Una oración que comienza en el token 510 y termina en el token 530 se divide entre dos fragmentos, y ninguno de los dos captura el significado completo. La superposición asegura que el contenido que cruza límites aparezca en al menos un fragmento en su forma completa.

La contrapartida es almacenamiento y cómputo. Mayor superposición significa más fragmentos por documento, lo que significa más embeddings que almacenar y más candidatos que buscar. Para la mayoría de las implementaciones empresariales, el punto óptimo está entre 10% y 20% de superposición. Por debajo del 10%, se pierde demasiado contexto de límite. Por encima del 20%, se almacena información redundante con rendimientos decrecientes.

La superposición cero solo es apropiada cuando la detección de límites es lo suficientemente confiable como para que ningún contenido significativo cruce los límites, típicamente chunking a nivel de sección en documentos bien estructurados.

Configuraciones Prácticas por Tipo de Documento

La siguiente tabla resume las configuraciones iniciales recomendadas para tipos de documentos empresariales comunes. Son puntos de partida: deberías validar con tus propios benchmarks de recuperación.

Tipo de Documento	Tamaño de Fragmento (tokens)	Superposición	Detección de Límites	Notas
Contratos legales	256–512	15%	Párrafo	Las cláusulas son párrafos autocontenidos
Manuales de políticas	512–768	10%	Sección luego párrafo	La estructura jerárquica se mapea bien a secciones
Tickets de soporte	128–256	10%	Oración	Documentos cortos, lenguaje conversacional
Documentación técnica	512–1024	15%	Sección luego párrafo	Los bloques de código deben mantenerse intactos
Informes financieros	256–512	20%	Párrafo	Las tablas y figuras necesitan contexto circundante
Transcripciones de reuniones	256–512	15%	Oración	Los turnos de hablante crean límites naturales
Artículos de investigación	512–768	10%	Sección	Resumen, métodos y resultados son secciones distintas
Hilos de correo electrónico	128–256	10%	Párrafo	Cada mensaje es un fragmento natural

Medición de la Calidad de los Fragmentos

Configurar los ajustes de chunking sin medir su impacto es adivinar. Necesitas un bucle de retroalimentación: cambiar la configuración, re-fragmentar, re-generar embeddings y evaluar la calidad de recuperación en un conjunto de prueba de consultas.

Las métricas que importan son la precisión de recuperación (qué porcentaje de los fragmentos recuperados son realmente relevantes), el recall de recuperación (qué porcentaje de los fragmentos relevantes fueron recuperados) y la calidad de respuesta (¿produce el generador respuestas correctas y completas a partir de los fragmentos recuperados?).

Un modo de fallo común es optimizar solo para la precisión. Puedes obtener una precisión perfecta haciendo los fragmentos extremadamente grandes: cada fragmento contiene la respuesta porque cada fragmento contiene todo. Pero esto desperdicia la ventana de contexto y degrada el rendimiento del generador. El objetivo son los fragmentos más pequeños que aún contengan suficiente contexto para que el generador produzca buenas respuestas.

Cómo Ertas Gestiona el Chunking

El nodo RAG Chunker de Ertas te da control directo sobre el tamaño del fragmento, el porcentaje de superposición y el método de detección de límites: oración, párrafo o sección. Configuras estos ajustes por pipeline, lo que significa que puedes usar diferentes estrategias de chunking para diferentes tipos de documentos dentro del mismo flujo de trabajo.

El pipeline visual muestra los conteos de elementos en cada etapa, para que puedas ver inmediatamente cómo cambiar el tamaño del fragmento de 512 a 256 tokens duplica tu conteo de documentos. Esta visibilidad hace práctico experimentar con configuraciones y entender su impacto antes de comprometerse con una configuración.

Después del chunking, el nodo Quality Scorer valida la calidad de los fragmentos verificando oraciones truncadas, fragmentos excesivamente cortos o largos y coherencia del contenido. Esto detecta errores de configuración temprano, antes de que los fragmentos deficientes se propaguen a través del embedding y la indexación.

Primeros Pasos

Si estás construyendo un pipeline RAG y no has dedicado tiempo a tu estrategia de chunking, comienza aquí:

Identifica tus tipos de documentos principales y sus características estructurales.
Elige un método de detección de límites que coincida con la estructura de tu documento.
Establece el tamaño del fragmento en 512 tokens como línea base y ajusta según los benchmarks de recuperación.
Comienza con un 15% de superposición y reduce solo si los costos de almacenamiento son una preocupación.
Mide la precisión y el recall de recuperación en un conjunto de consultas representativo.
Itera en la configuración hasta que la calidad de recuperación cumpla con tu umbral.

La mejor estrategia de chunking para RAG no es una configuración universal, sino un proceso sistemático de ajustar la configuración de los fragmentos a las características del documento y validar con consultas reales. Los equipos que invierten en este proceso superan consistentemente a aquellos que tratan el chunking como algo secundario.