Dataset de Entrenamiento para Resumen Template

Plantilla para construir datasets que entrenen modelos de IA para producir resúmenes precisos y concisos de documentos, artículos, reuniones e informes.

Generation

Overview

Los datasets de resumen entrenan modelos de IA para condensar documentos largos en resúmenes más cortos y coherentes que capturen la información más importante. Las aplicaciones abarcan resumen de documentos empresariales (comprimir informes extensos, artículos de investigación y presentaciones legales), resumen de transcripciones de reuniones (extraer decisiones clave y elementos de acción), resumen de noticias (generar resúmenes concisos de artículos para boletines) y resumen de interacciones con clientes (resumir conversaciones de soporte para traspasos entre agentes y registros).

Dos enfoques principales definen los datos de entrenamiento para resumen. El resumen extractivo selecciona y combina las oraciones más importantes del documento fuente — los datos de entrenamiento identifican qué oraciones incluir. El resumen abstractivo genera nuevo texto que parafrasea y sintetiza el contenido fuente — los datos de entrenamiento emparejan documentos fuente con resúmenes escritos por humanos. Los LLMs modernos sobresalen en resumen abstractivo, convirtiéndolo en el enfoque más común y flexible para datasets de entrenamiento contemporáneos.

El desafío clave en los datasets de resumen es definir qué hace un buen resumen. Los resúmenes deben ser fieles (contener solo información presente en la fuente), completos (cubrir todos los puntos importantes), concisos (más cortos que la fuente por un ratio de compresión definido), coherentes (leerse como texto fluido y bien organizado) y útiles (servir las necesidades de información del lector). Estas cualidades deben reflejarse en los ejemplos de entrenamiento y medirse a través de procesos de validación de calidad.

Dataset Schema

typescript

interface SummarizationExample {
  instruction: string;
  input: string;            // Source document text
  output: string;           // Target summary
  metadata: {
    source_type: "article" | "report" | "transcript" | "email_thread" | "legal_filing";
    source_word_count: number;
    summary_word_count: number;
    compression_ratio: number;   // source_words / summary_words
    summary_style: "executive" | "technical" | "bullet_points" | "abstract";
    key_topics: string[];
  };
}

Esquema para datos de entrenamiento de resumen con metadatos de ratio de compresión y estilo

Sample Data

json

[
  {
    "instruction": "Summarize the following meeting transcript, highlighting key decisions and action items.",
    "input": "QUARTERLY PRODUCT REVIEW - MARCH 2026\n\nAttendees: VP Engineering, Product Director, Design Lead, QA Manager\n\nProduct Director opened the meeting reviewing Q1 metrics. User engagement increased 23% quarter-over-quarter, driven primarily by the new dashboard redesign launched in February. Monthly active users reached 145,000, exceeding the Q1 target of 130,000. However, the mobile app retention rate dropped from 42% to 38%, which the team identified as a priority concern.\n\nVP Engineering presented the technical roadmap. The team completed 47 of 52 planned story points. The five incomplete items were deferred to Q2 due to an unexpected security patch that consumed two engineering weeks. The security vulnerability (CVE-2026-1847) was identified through the bug bounty program and patched within 48 hours of discovery.\n\nDesign Lead shared user research findings from 30 customer interviews. Three key themes emerged: users want better data export capabilities, the onboarding flow is confusing for non-technical users, and enterprise customers need SSO integration. The team agreed to prioritize SSO for Q2 based on three pending enterprise deals totaling $850K ARR that list SSO as a requirement.\n\nQA Manager reported that automated test coverage reached 78%, up from 71% in Q4. Two critical bugs were found in production during Q1, both related to timezone handling in scheduled reports. A dedicated testing sprint for timezone-related features was proposed for early Q2.\n\nDecisions made: (1) SSO integration prioritized for Q2 sprint 1-2, (2) Mobile retention improvement project approved with dedicated PM allocation, (3) Onboarding redesign to begin in Q2 sprint 3.\n\nAction items assigned: Engineering to scope SSO implementation by March 22, Design to create onboarding improvement mockups by April 1, QA to plan timezone testing sprint, Product to draft mobile retention improvement brief.",
    "output": "Q1 Product Review Summary:\n\nKey Metrics: User engagement up 23% QoQ. MAU reached 145K (vs. 130K target). Mobile retention declined from 42% to 38%, flagged as priority concern.\n\nEngineering: Completed 47/52 story points. Shortfall due to emergency security patch (CVE-2026-1847), resolved within 48 hours. Test coverage improved to 78%.\n\nDecisions:\n- SSO integration prioritized for Q2 (driven by $850K in pending enterprise deals)\n- Mobile retention improvement project approved with dedicated PM\n- Onboarding redesign scheduled for Q2 sprint 3\n\nAction Items:\n- Engineering: Scope SSO implementation (due March 22)\n- Design: Onboarding improvement mockups (due April 1)\n- QA: Plan timezone testing sprint\n- Product: Draft mobile retention improvement brief",
    "metadata": {
      "source_type": "transcript",
      "source_word_count": 312,
      "summary_word_count": 124,
      "compression_ratio": 2.5,
      "summary_style": "executive",
      "key_topics": ["product-metrics", "engineering-roadmap", "user-research", "qa"]
    }
  }
]

Ejemplo de resumen de transcripción de reunión con resumen de estilo ejecutivo que captura decisiones y elementos de acción

Data Collection Guide

Recopila documentos fuente y emparéjalos con resúmenes escritos por humanos. El enfoque más efectivo es que los expertos del dominio escriban resúmenes de los documentos que encuentran en su flujo de trabajo normal — organizadores de reuniones resumiendo sus propias reuniones, analistas resumiendo sus propios informes y líderes de soporte resumiendo casos de escalamiento. Estos resúmenes producidos naturalmente reflejan las necesidades reales de información y prioridades.

Define guías de estilo de resumen para cada tipo de documento en tus datos de entrenamiento. Los resúmenes de reuniones deben enfatizar decisiones y elementos de acción. Los resúmenes de informes técnicos deben capturar hallazgos clave y metodologías. Los resúmenes de documentos legales deben destacar términos materiales y riesgos. Estilos de resumen inconsistentes en los datos de entrenamiento producirán un modelo que genera salidas impredecibles.

Controla el ratio de compresión en tu dataset. Los resúmenes muy cortos (compresión 10:1) requieren selectividad extrema y pueden omitir detalles importantes. Los resúmenes muy largos (compresión 2:1) pueden no proporcionar suficiente ahorro de tiempo para ser útiles. La mayoría de las aplicaciones empresariales apuntan a ratios de compresión de 3:1 a 5:1. Incluye la longitud objetivo del resumen o el ratio de compresión en tus instrucciones de entrenamiento para que el modelo aprenda a ajustar la longitud de su salida.

Quality Criteria

Evalúa los resúmenes en cuatro dimensiones: fidelidad (ninguna información no presente en la fuente), completitud (todos los puntos importantes cubiertos), concisión (sin repetición innecesaria ni relleno) y coherencia (se lee como texto bien organizado y fluido). Haz que los revisores califiquen cada dimensión en una escala de 1-5 y excluye los ejemplos donde cualquier dimensión tenga una puntuación inferior a 3.

La fidelidad es el criterio más crítico. Cada afirmación factual en el resumen debe ser verificable desde el documento fuente. Los resúmenes que introducen información no presente en la fuente (alucinaciones) son activamente dañinos y deben ser identificados y eliminados. Haz que los revisores resalten cualquier declaración en el resumen que no pueda rastrearse a un pasaje específico en el documento fuente.

Prueba la completitud de cobertura haciendo que los revisores listen independientemente los 5 puntos más importantes del documento fuente, y luego verifica que el resumen aborde al menos 4 de 5. La omisión de información crítica es un problema de calidad significativo, particularmente para resúmenes usados en contextos de toma de decisiones donde los detalles omitidos podrían cambiar la conclusión.

Using This Template with Ertas

Importa documentos fuente y sus resúmenes a Ertas Data Suite. Aplica redacción de PII tanto a los textos fuente como a los resúmenes — las transcripciones de reuniones e informes empresariales frecuentemente contienen nombres de empleados, nombres de clientes, cifras financieras y nombres clave de proyectos. El motor de redacción procesa ambos campos manteniendo la consistencia (si un nombre se enmascara en la fuente, la misma máscara se aplica en el resumen).

Exporta los datos emparejados fuente-resumen en formato Alpaca para el fine-tuning en Ertas Studio. El modelo exportado en GGUF permite el resumen de documentos local, lo cual es esencial para organizaciones que manejan documentos confidenciales que no pueden enviarse a APIs externas de resumen.

Recommended Model

El resumen requiere modelos lo suficientemente grandes para manejar contextos de entrada largos. Un modelo de 7B-8B con soporte de contexto de 8K maneja la mayoría de los documentos empresariales efectivamente. Para documentos muy largos (más de 10,000 palabras), considera modelos con ventanas de contexto extendidas o implementa un pipeline de resumir por secciones donde el modelo resume secciones independientemente y luego las combina.

Para despliegues en producción, GGUF en Q5_K_M proporciona buena calidad de resumen. El resumen es menos sensible a los artefactos de cuantización que las tareas de generación creativa, por lo que Q4_K_M también es una opción viable para inferencia más rápida al procesar grandes volúmenes de documentos.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →