Back to blog
    Benchmark de Estrategias de Chunking para RAG: Tamano Fijo vs Semantico vs Consciente del Documento
    benchmarkragchunkingdata-pipelineenterprisesegment:data-engineer

    Benchmark de Estrategias de Chunking para RAG: Tamano Fijo vs Semantico vs Consciente del Documento

    Benchmark controlado que compara cinco estrategias de chunking para RAG: tamano fijo, recursivo, semantico, consciente del documento y ventana deslizante, evaluando precision de recuperacion, latencia, eficiencia de tokens y casos de uso optimos.

    EErtas Team·

    El chunking es la decision de mayor impacto en cualquier pipeline RAG. Si se hace bien, la precision de recuperacion sube entre 15 y 30 puntos porcentuales. Si se hace mal, ninguna cantidad de ingenieria de prompts o actualizaciones de modelo lo compensara.

    Sin embargo, la mayoria de los equipos eligen una estrategia de chunking basandose en publicaciones de blog o configuraciones predeterminadas de su framework preferido, no en datos empiricos. Este articulo proporciona esos datos. Evaluamos cinco estrategias de chunking en un corpus estandarizado de documentos empresariales y medimos lo que realmente importa: precision de recuperacion, latencia, eficiencia de tokens y robustez entre tipos de documentos.

    Las Cinco Estrategias

    Antes de los numeros, un breve resumen de cada enfoque.

    Chunking de tamano fijo divide documentos en chunks de un conteo de tokens predeterminado (tipicamente 256-512 tokens) con superposicion opcional. Es el enfoque mas simple y el predeterminado en la mayoria de los frameworks RAG. Cada chunk tiene el mismo tamano independientemente de la estructura del contenido.

    Division recursiva por caracteres utiliza una jerarquia de separadores (saltos de parrafo, luego limites de oracion, luego limites de palabra) para dividir documentos en puntos de ruptura naturales mientras se mantiene dentro de un tamano objetivo de chunk. LangChain popularizo este enfoque, y sigue siendo la estrategia mas comúnmente desplegada en sistemas de produccion.

    Chunking semantico usa un modelo de embedding para detectar limites tematicos dentro de un documento. Las oraciones adyacentes se agrupan segun la similitud coseno de sus embeddings, y un nuevo chunk comienza cuando la similitud cae por debajo de un umbral. Esto produce chunks de tamano variable que corresponden a temas coherentes.

    Chunking consciente del documento aprovecha la estructura del documento (encabezados, secciones, tablas, listas) para definir los limites de los chunks. Una seccion con su encabezado se convierte en un chunk. Una tabla permanece intacta en lugar de dividirse a mitad de fila. Esto requiere un parser que entienda el diseno del documento, no solo texto sin formato.

    Ventana deslizante crea chunks superpuestos a intervalos fijos, donde cada chunk comparte un porcentaje de tokens con sus vecinos (tipicamente 20-50% de superposicion). Esto asegura que ninguna informacion caiga en un limite, a costa de un mayor tamano de indice y uso de tokens.

    Metodologia de Prueba

    Construimos un corpus de benchmark a partir de cuatro tipos de documentos empresariales:

    • Contratos (50 documentos): Acuerdos multipartitos con clausulas anidadas, terminos definidos y referencias cruzadas
    • Manuales tecnicos (50 documentos): Documentacion estructurada con encabezados, bloques de codigo, tablas y procedimientos numerados
    • Informes financieros (50 documentos): Informes anuales con secciones narrativas, tablas de datos, notas al pie y graficos
    • Tickets de soporte (50 documentos): Texto no estructurado con mensajes cortos, marcas de tiempo y formato mixto

    Para cada tipo de documento, creamos 100 pares de pregunta-respuesta con verdad de referencia donde la respuesta existe dentro de un pasaje especifico. La precision de recuperacion se mide como Recall@5, el porcentaje de consultas donde el pasaje correcto aparece en los 5 chunks mejor clasificados.

    Modelo de embedding: OpenAI text-embedding-3-large (3072 dimensiones) Almacen de vectores: Qdrant con indexacion HNSW Tamano objetivo de chunk: 512 tokens (donde aplique) Superposicion: 20% para las estrategias de tamano fijo y ventana deslizante

    Todas las estrategias se probaron en hardware identico (CPU de 32 nucleos, 64GB RAM) con el mismo modelo de embedding y configuracion de almacen de vectores.

    Resultados del Benchmark

    EstrategiaPrecision de Recuperacion (Recall@5)Latencia Promedio (ms)Eficiencia de TokensTamano de Indice (relativo)
    Tamano fijo (512 tokens)71.3%12ms1.0x (linea base)1.0x
    Caracter recursivo78.6%14ms1.05x1.02x
    Semantico83.2%38ms0.92x0.95x
    Consciente del documento86.7%16ms0.88x0.91x
    Ventana deslizante (50% superposicion)76.8%13ms1.82x1.45x

    Los resultados cuentan una historia clara. El chunking consciente del documento logra la mayor precision de recuperacion (86.7%) siendo tambien el mas eficiente en tokens. El chunking semantico se acerca en precision (83.2%) pero con una latencia significativamente mayor debido a la deteccion de limites basada en embedding durante la indexacion. El chunking de tamano fijo, a pesar de ser el predeterminado mas comun, ocupa el ultimo lugar en precision de recuperacion.

    Resultados por Tipo de Documento

    Los numeros agregados enmascaran diferencias importantes entre tipos de documentos.

    EstrategiaContratosManuales TecnicosInformes FinancierosTickets de Soporte
    Tamano fijo64.0%73.0%68.0%80.0%
    Caracter recursivo72.0%81.0%76.0%85.0%
    Semantico80.0%84.0%82.0%87.0%
    Consciente del documento89.0%91.0%88.0%78.0%
    Ventana deslizante70.0%79.0%74.0%84.0%

    El chunking consciente del documento domina en documentos estructurados (contratos, manuales, informes) donde los limites de encabezados y secciones llevan significado semantico. Sin embargo, tiene un rendimiento inferior en tickets de soporte, texto no estructurado y de formato corto sin estructura documental confiable que aprovechar. Para contenido no estructurado, el chunking semantico es el mejor ejecutor.

    Esta es la perspectiva clave: la mejor estrategia de chunking depende de su mezcla de documentos. Los equipos que procesan principalmente documentos empresariales estructurados (contratos, informes, manuales) deben usar chunking consciente del documento por defecto. Los equipos que manejan contenido no estructurado o de formato mixto se benefician mas del chunking semantico.

    Desglose de Latencia

    La latencia en la tabla anterior mide la latencia de recuperacion en tiempo de consulta, no el tiempo de indexacion. Las diferencias de latencia de indexacion son mas dramaticas:

    EstrategiaTiempo de Indexacion (200 docs)Tiempo de Indexacion (10K docs)
    Tamano fijo4 min3.2 hrs
    Caracter recursivo5 min3.8 hrs
    Semantico22 min18.4 hrs
    Consciente del documento8 min6.1 hrs
    Ventana deslizante6 min4.8 hrs

    El tiempo de indexacion del chunking semantico es 4-5 veces mayor que las alternativas porque debe generar embeddings de cada oracion para detectar limites tematicos. Para pipelines que re-indexan frecuentemente o procesan altos volumenes, este costo se acumula. El chunking consciente del documento requiere un parser de documentos capaz pero evita la sobrecarga de embedding durante la indexacion.

    Eficiencia de Tokens e Implicaciones de Costos

    La eficiencia de tokens mide cuantos tokens se consumen por consulta al recuperar contexto. La sobrecarga de 1.82x de la ventana deslizante significa casi el doble de costos de embedding y contexto LLM comparado con el chunking de tamano fijo.

    A escala empresarial (10,000 consultas por dia), las diferencias de costo son significativas:

    EstrategiaCosto Mensual de EmbeddingCosto Mensual de Contexto LLMSobrecarga Mensual Total
    Tamano fijo$450$1,200$1,650 (linea base)
    Caracter recursivo$473$1,260$1,733
    Semantico$414$1,104$1,518
    Consciente del documento$396$1,056$1,452
    Ventana deslizante$819$2,184$3,003

    El chunking consciente del documento no solo es el mas preciso sino tambien el mas economico de operar a escala. La ventana deslizante, a menudo recomendada como un "predeterminado seguro", es la mas cara, casi 2 veces el costo del chunking consciente del documento con menor precision.

    Cuando Usar Cada Estrategia

    Tamano fijo (512 tokens): Prototipado e iteracion rapida donde la simplicidad importa mas que la precision. Aceptable para contenido homogeneo a nivel de parrafo como publicaciones de blog o articulos wiki. No recomendado para RAG empresarial en produccion.

    Caracter recursivo: Un predeterminado razonable cuando se necesita mejor precision que tamano fijo sin la complejidad del parsing semantico o consciente del documento. Bueno para equipos que recien comienzan con RAG y quieren mejora incremental sobre tamano fijo.

    Semantico: Mejor para contenido no estructurado donde el diseno del documento no proporciona senal util: correos electronicos de clientes, registros de chat, redes sociales, tickets de soporte. La penalizacion de latencia de indexacion lo hace menos adecuado para pipelines de alto volumen con re-indexacion frecuente.

    Consciente del documento: El claro ganador para documentos empresariales estructurados: contratos, informes, manuales, politicas, especificaciones. Requiere un parser que entienda la estructura del documento (encabezados, tablas, secciones), pero los beneficios de precision y costo justifican la inversion.

    Ventana deslizante: Util solo cuando no puede tolerar ninguna perdida de informacion en los limites de los chunks y esta dispuesto a pagar la sobrecarga de tokens. Considerelo para aplicaciones de seguridad critica donde perder un pasaje es mas costoso que mayores gastos operativos.

    Consideraciones de Implementacion

    Elegir una estrategia es solo parte del desafio. Los detalles de implementacion importan significativamente:

    Seleccion del tamano de chunk. Incluso dentro de una estrategia, el tamano del chunk afecta dramaticamente el rendimiento. Nuestras pruebas mostraron un punto optimo entre 256 y 768 tokens para la mayoria de los documentos empresariales. Los chunks menores de 200 tokens pierden contexto; los chunks mayores de 1,000 tokens diluyen la relevancia.

    Preservacion de metadatos. Independientemente de la estrategia, adjuntar metadatos (titulo del documento, encabezado de seccion, numero de pagina) a cada chunk mejora la recuperacion entre un 8 y un 12% en nuestras pruebas. Estos metadatos permiten la busqueda hibrida y proporcionan contexto para el reranking.

    Enfoques hibridos. Los sistemas de produccion de mayor rendimiento que hemos observado combinan chunking consciente del documento para contenido estructurado con chunking semantico como respaldo para secciones no estructuradas. Esto requiere un clasificador de documentos antes en el pipeline pero logra un Recall@5 del 89-92% en corpus mixtos.

    Como Ertas Aborda el Chunking

    Ertas Data Suite incluye un nodo RAG Chunker que soporta multiples estrategias de chunking dentro del canvas del pipeline visual. Debido a que Ertas procesa documentos a traves de nodos de parsing estructurado (PDF Parser, Word Parser, Excel/CSV Parser) antes del chunking, la estructura del documento (encabezados, tablas, secciones) ya esta extraida y disponible.

    Esto hace que el chunking consciente del documento sea una opcion natural. El nodo RAG Chunker recibe salida parseada y estructurada de los nodos anteriores y puede aprovechar esa estructura para definir los limites de los chunks. Los equipos tambien pueden encadenar el nodo Quality Scorer despues del chunking para marcar chunks de baja calidad antes de que lleguen a la etapa de embedding.

    Para equipos que procesan tipos de documentos mixtos, los pipelines de Ertas pueden enrutar documentos estructurados y no estructurados a traves de diferentes configuraciones de chunking en el mismo canvas, con observabilidad completa en cada etapa.

    Conclusiones Clave

    El chunking consciente del documento logra la mayor precision de recuperacion (86.7% Recall@5) y la mejor eficiencia de tokens en documentos empresariales estructurados. El chunking semantico es la opcion mas solida para contenido no estructurado pero conlleva una penalizacion significativa de latencia de indexacion. El chunking de tamano fijo, aunque simple, deja mas de 15 puntos porcentuales de precision sin aprovechar comparado con enfoques conscientes del documento.

    La eleccion de estrategia de chunking tiene un impacto directo y medible tanto en la calidad del RAG como en los costos operativos. Los equipos que construyen pipelines RAG empresariales deben hacer benchmarks contra su propio corpus documental, pero los datos sugieren que invertir en parsing y chunking consciente del documento se amortiza rapidamente, tanto en precision de recuperacion como en reduccion del gasto en tokens.

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading