Benchmark de Estrategias de Chunking para RAG: Tamano Fijo vs Semantico vs Consciente del Documento

El chunking es la decision de mayor impacto en cualquier pipeline RAG. Si se hace bien, la precision de recuperacion sube entre 15 y 30 puntos porcentuales. Si se hace mal, ninguna cantidad de ingenieria de prompts o actualizaciones de modelo lo compensara.

Sin embargo, la mayoria de los equipos eligen una estrategia de chunking basandose en publicaciones de blog o configuraciones predeterminadas de su framework preferido, no en datos empiricos. Este articulo proporciona esos datos. Evaluamos cinco estrategias de chunking en un corpus estandarizado de documentos empresariales y medimos lo que realmente importa: precision de recuperacion, latencia, eficiencia de tokens y robustez entre tipos de documentos.

Las Cinco Estrategias

Antes de los numeros, un breve resumen de cada enfoque.

Chunking de tamano fijo divide documentos en chunks de un conteo de tokens predeterminado (tipicamente 256-512 tokens) con superposicion opcional. Es el enfoque mas simple y el predeterminado en la mayoria de los frameworks RAG. Cada chunk tiene el mismo tamano independientemente de la estructura del contenido.

Division recursiva por caracteres utiliza una jerarquia de separadores (saltos de parrafo, luego limites de oracion, luego limites de palabra) para dividir documentos en puntos de ruptura naturales mientras se mantiene dentro de un tamano objetivo de chunk. LangChain popularizo este enfoque, y sigue siendo la estrategia mas comúnmente desplegada en sistemas de produccion.

Chunking semantico usa un modelo de embedding para detectar limites tematicos dentro de un documento. Las oraciones adyacentes se agrupan segun la similitud coseno de sus embeddings, y un nuevo chunk comienza cuando la similitud cae por debajo de un umbral. Esto produce chunks de tamano variable que corresponden a temas coherentes.

Chunking consciente del documento aprovecha la estructura del documento (encabezados, secciones, tablas, listas) para definir los limites de los chunks. Una seccion con su encabezado se convierte en un chunk. Una tabla permanece intacta en lugar de dividirse a mitad de fila. Esto requiere un parser que entienda el diseno del documento, no solo texto sin formato.

Ventana deslizante crea chunks superpuestos a intervalos fijos, donde cada chunk comparte un porcentaje de tokens con sus vecinos (tipicamente 20-50% de superposicion). Esto asegura que ninguna informacion caiga en un limite, a costa de un mayor tamano de indice y uso de tokens.

Metodologia de Prueba

Construimos un corpus de benchmark a partir de cuatro tipos de documentos empresariales:

Contratos (50 documentos): Acuerdos multipartitos con clausulas anidadas, terminos definidos y referencias cruzadas
Manuales tecnicos (50 documentos): Documentacion estructurada con encabezados, bloques de codigo, tablas y procedimientos numerados
Informes financieros (50 documentos): Informes anuales con secciones narrativas, tablas de datos, notas al pie y graficos
Tickets de soporte (50 documentos): Texto no estructurado con mensajes cortos, marcas de tiempo y formato mixto

Para cada tipo de documento, creamos 100 pares de pregunta-respuesta con verdad de referencia donde la respuesta existe dentro de un pasaje especifico. La precision de recuperacion se mide como Recall@5, el porcentaje de consultas donde el pasaje correcto aparece en los 5 chunks mejor clasificados.

Modelo de embedding: OpenAI text-embedding-3-large (3072 dimensiones) Almacen de vectores: Qdrant con indexacion HNSW Tamano objetivo de chunk: 512 tokens (donde aplique) Superposicion: 20% para las estrategias de tamano fijo y ventana deslizante

Todas las estrategias se probaron en hardware identico (CPU de 32 nucleos, 64GB RAM) con el mismo modelo de embedding y configuracion de almacen de vectores.

Resultados del Benchmark

Estrategia	Precision de Recuperacion (Recall@5)	Latencia Promedio (ms)	Eficiencia de Tokens	Tamano de Indice (relativo)
Tamano fijo (512 tokens)	71.3%	12ms	1.0x (linea base)	1.0x
Caracter recursivo	78.6%	14ms	1.05x	1.02x
Semantico	83.2%	38ms	0.92x	0.95x
Consciente del documento	86.7%	16ms	0.88x	0.91x
Ventana deslizante (50% superposicion)	76.8%	13ms	1.82x	1.45x

Los resultados cuentan una historia clara. El chunking consciente del documento logra la mayor precision de recuperacion (86.7%) siendo tambien el mas eficiente en tokens. El chunking semantico se acerca en precision (83.2%) pero con una latencia significativamente mayor debido a la deteccion de limites basada en embedding durante la indexacion. El chunking de tamano fijo, a pesar de ser el predeterminado mas comun, ocupa el ultimo lugar en precision de recuperacion.

Resultados por Tipo de Documento

Los numeros agregados enmascaran diferencias importantes entre tipos de documentos.

Estrategia	Contratos	Manuales Tecnicos	Informes Financieros	Tickets de Soporte
Tamano fijo	64.0%	73.0%	68.0%	80.0%
Caracter recursivo	72.0%	81.0%	76.0%	85.0%
Semantico	80.0%	84.0%	82.0%	87.0%
Consciente del documento	89.0%	91.0%	88.0%	78.0%
Ventana deslizante	70.0%	79.0%	74.0%	84.0%

El chunking consciente del documento domina en documentos estructurados (contratos, manuales, informes) donde los limites de encabezados y secciones llevan significado semantico. Sin embargo, tiene un rendimiento inferior en tickets de soporte, texto no estructurado y de formato corto sin estructura documental confiable que aprovechar. Para contenido no estructurado, el chunking semantico es el mejor ejecutor.

Esta es la perspectiva clave: la mejor estrategia de chunking depende de su mezcla de documentos. Los equipos que procesan principalmente documentos empresariales estructurados (contratos, informes, manuales) deben usar chunking consciente del documento por defecto. Los equipos que manejan contenido no estructurado o de formato mixto se benefician mas del chunking semantico.

Desglose de Latencia

La latencia en la tabla anterior mide la latencia de recuperacion en tiempo de consulta, no el tiempo de indexacion. Las diferencias de latencia de indexacion son mas dramaticas:

Estrategia	Tiempo de Indexacion (200 docs)	Tiempo de Indexacion (10K docs)
Tamano fijo	4 min	3.2 hrs
Caracter recursivo	5 min	3.8 hrs
Semantico	22 min	18.4 hrs
Consciente del documento	8 min	6.1 hrs
Ventana deslizante	6 min	4.8 hrs

El tiempo de indexacion del chunking semantico es 4-5 veces mayor que las alternativas porque debe generar embeddings de cada oracion para detectar limites tematicos. Para pipelines que re-indexan frecuentemente o procesan altos volumenes, este costo se acumula. El chunking consciente del documento requiere un parser de documentos capaz pero evita la sobrecarga de embedding durante la indexacion.

Eficiencia de Tokens e Implicaciones de Costos

La eficiencia de tokens mide cuantos tokens se consumen por consulta al recuperar contexto. La sobrecarga de 1.82x de la ventana deslizante significa casi el doble de costos de embedding y contexto LLM comparado con el chunking de tamano fijo.

A escala empresarial (10,000 consultas por dia), las diferencias de costo son significativas:

Estrategia	Costo Mensual de Embedding	Costo Mensual de Contexto LLM	Sobrecarga Mensual Total
Tamano fijo	$450	$1,200	$1,650 (linea base)
Caracter recursivo	$473	$1,260	$1,733
Semantico	$414	$1,104	$1,518
Consciente del documento	$396	$1,056	$1,452
Ventana deslizante	$819	$2,184	$3,003

El chunking consciente del documento no solo es el mas preciso sino tambien el mas economico de operar a escala. La ventana deslizante, a menudo recomendada como un "predeterminado seguro", es la mas cara, casi 2 veces el costo del chunking consciente del documento con menor precision.

Cuando Usar Cada Estrategia

Tamano fijo (512 tokens): Prototipado e iteracion rapida donde la simplicidad importa mas que la precision. Aceptable para contenido homogeneo a nivel de parrafo como publicaciones de blog o articulos wiki. No recomendado para RAG empresarial en produccion.

Caracter recursivo: Un predeterminado razonable cuando se necesita mejor precision que tamano fijo sin la complejidad del parsing semantico o consciente del documento. Bueno para equipos que recien comienzan con RAG y quieren mejora incremental sobre tamano fijo.

Semantico: Mejor para contenido no estructurado donde el diseno del documento no proporciona senal util: correos electronicos de clientes, registros de chat, redes sociales, tickets de soporte. La penalizacion de latencia de indexacion lo hace menos adecuado para pipelines de alto volumen con re-indexacion frecuente.

Consciente del documento: El claro ganador para documentos empresariales estructurados: contratos, informes, manuales, politicas, especificaciones. Requiere un parser que entienda la estructura del documento (encabezados, tablas, secciones), pero los beneficios de precision y costo justifican la inversion.

Ventana deslizante: Util solo cuando no puede tolerar ninguna perdida de informacion en los limites de los chunks y esta dispuesto a pagar la sobrecarga de tokens. Considerelo para aplicaciones de seguridad critica donde perder un pasaje es mas costoso que mayores gastos operativos.

Consideraciones de Implementacion

Elegir una estrategia es solo parte del desafio. Los detalles de implementacion importan significativamente:

Seleccion del tamano de chunk. Incluso dentro de una estrategia, el tamano del chunk afecta dramaticamente el rendimiento. Nuestras pruebas mostraron un punto optimo entre 256 y 768 tokens para la mayoria de los documentos empresariales. Los chunks menores de 200 tokens pierden contexto; los chunks mayores de 1,000 tokens diluyen la relevancia.

Preservacion de metadatos. Independientemente de la estrategia, adjuntar metadatos (titulo del documento, encabezado de seccion, numero de pagina) a cada chunk mejora la recuperacion entre un 8 y un 12% en nuestras pruebas. Estos metadatos permiten la busqueda hibrida y proporcionan contexto para el reranking.

Enfoques hibridos. Los sistemas de produccion de mayor rendimiento que hemos observado combinan chunking consciente del documento para contenido estructurado con chunking semantico como respaldo para secciones no estructuradas. Esto requiere un clasificador de documentos antes en el pipeline pero logra un Recall@5 del 89-92% en corpus mixtos.

Como Ertas Aborda el Chunking

Ertas Data Suite incluye un nodo RAG Chunker que soporta multiples estrategias de chunking dentro del canvas del pipeline visual. Debido a que Ertas procesa documentos a traves de nodos de parsing estructurado (PDF Parser, Word Parser, Excel/CSV Parser) antes del chunking, la estructura del documento (encabezados, tablas, secciones) ya esta extraida y disponible.

Esto hace que el chunking consciente del documento sea una opcion natural. El nodo RAG Chunker recibe salida parseada y estructurada de los nodos anteriores y puede aprovechar esa estructura para definir los limites de los chunks. Los equipos tambien pueden encadenar el nodo Quality Scorer despues del chunking para marcar chunks de baja calidad antes de que lleguen a la etapa de embedding.

Para equipos que procesan tipos de documentos mixtos, los pipelines de Ertas pueden enrutar documentos estructurados y no estructurados a traves de diferentes configuraciones de chunking en el mismo canvas, con observabilidad completa en cada etapa.

Conclusiones Clave

El chunking consciente del documento logra la mayor precision de recuperacion (86.7% Recall@5) y la mejor eficiencia de tokens en documentos empresariales estructurados. El chunking semantico es la opcion mas solida para contenido no estructurado pero conlleva una penalizacion significativa de latencia de indexacion. El chunking de tamano fijo, aunque simple, deja mas de 15 puntos porcentuales de precision sin aprovechar comparado con enfoques conscientes del documento.

La eleccion de estrategia de chunking tiene un impacto directo y medible tanto en la calidad del RAG como en los costos operativos. Los equipos que construyen pipelines RAG empresariales deben hacer benchmarks contra su propio corpus documental, pero los datos sugieren que invertir en parsing y chunking consciente del documento se amortiza rapidamente, tanto en precision de recuperacion como en reduccion del gasto en tokens.

Benchmark de Estrategias de Chunking para RAG: Tamano Fijo vs Semantico vs Consciente del Documento

Las Cinco Estrategias

Metodologia de Prueba

Resultados del Benchmark

Resultados por Tipo de Documento

Desglose de Latencia

Eficiencia de Tokens e Implicaciones de Costos

Cuando Usar Cada Estrategia

Consideraciones de Implementacion

Como Ertas Aborda el Chunking

Conclusiones Clave

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

Embedding Model Benchmark for Enterprise RAG (2026): OpenAI, Cohere, BGE, E5, GTE, Nomic Compared

Enterprise Data Pipeline Benchmark Report 2026: Parsing, Redaction, Chunking, and Embedding Compared

On-Premise vs Cloud Data Pipeline Throughput: Enterprise Document Processing Benchmarks