Dataset de Preguntas y Respuestas Template

Plantilla para construir datasets de preguntas y respuestas extractivas y generativas para recuperación de conocimiento específico de dominio.

NLP

Overview

Los datasets de preguntas y respuestas (QA) entrenan modelos de IA para responder preguntas basándose en contexto proporcionado, conocimiento interno o una combinación de ambos. QA es una capacidad central para aplicaciones empresariales de IA que incluyen búsqueda en bases de conocimiento, recuperación de documentos, automatización de preguntas frecuentes, bots de mesa de ayuda internos y sistemas de generación aumentada por recuperación (RAG). La estructura del dataset varía según el tipo de QA: QA extractiva (seleccionar un fragmento de respuesta de un pasaje dado), QA abstractiva (generar una respuesta sintetizada a partir del contexto) y QA de libro cerrado (responder solo desde el conocimiento paramétrico del modelo).

Para aplicaciones empresariales, el enfoque más común y práctico es el QA fundamentado en contexto, donde el modelo recibe un pasaje de documento relevante y responde preguntas basándose en ese contexto. Esto se alinea perfectamente con las arquitecturas RAG donde un recuperador encuentra documentos relevantes y el modelo genera respuestas a partir del contenido recuperado. Los datos de entrenamiento para este caso de uso emparejan preguntas con pasajes de contexto y respuestas esperadas, enseñando al modelo a encontrar y sintetizar información del texto proporcionado.

La especificidad de dominio es crucial para los datasets de QA. Los modelos de QA de propósito general frecuentemente tienen dificultades con terminología especializada, patrones de razonamiento específicos del dominio y el conocimiento implícito requerido para responder correctamente preguntas en campos como derecho, medicina, finanzas o ingeniería. El fine-tuning con pares de QA específicos del dominio mejora significativamente la precisión y relevancia de las respuestas, particularmente para preguntas que requieren comprensión de jerga, acrónimos y convenciones del dominio.

Dataset Schema

typescript

interface QAExample {
  question: string;
  context: string;        // Source passage for context-grounded QA
  answer: string;         // The expected answer
  answer_start?: number;  // Character offset for extractive QA
  is_answerable: boolean; // Whether the context contains the answer
  metadata: {
    source_document: string;
    domain: string;
    difficulty: "easy" | "medium" | "hard";
    question_type: "factoid" | "reasoning" | "comparison" | "procedural";
  };
}

Esquema para ejemplos de preguntas y respuestas con soporte extractivo y generativo

Sample Data

json

[
  {
    "question": "What is the maximum file size supported for GGUF model uploads?",
    "context": "Ertas Studio supports GGUF model files up to 50GB in size. For models exceeding this limit, the sharded upload feature allows splitting the model into multiple files, each up to 50GB. The platform automatically reassembles sharded models during deployment. Upload speeds depend on your network connection, with typical enterprise connections achieving 500MB-1GB per minute. All uploads are encrypted in transit using TLS 1.3.",
    "answer": "The maximum file size for GGUF model uploads is 50GB. For larger models, the sharded upload feature can split files into multiple 50GB chunks that are automatically reassembled during deployment.",
    "answer_start": 30,
    "is_answerable": true,
    "metadata": {
      "source_document": "ertas-studio-docs/uploads.md",
      "domain": "product-documentation",
      "difficulty": "easy",
      "question_type": "factoid"
    }
  },
  {
    "question": "How does the PII redaction engine handle names that are also common words?",
    "context": "The PII redaction engine uses a combination of named entity recognition (NER), pattern matching, and contextual analysis to identify personal information. For names that are also common words (e.g., 'Grace', 'Rose', 'Mark'), the engine evaluates surrounding context to determine whether the word is being used as a proper name or a common noun. Contextual signals include capitalization, position in the sentence, surrounding words (Mr., Ms., Dr.), and semantic role. The engine defaults to redaction when the confidence score exceeds 0.7, with a configurable threshold that organizations can adjust based on their risk tolerance.",
    "answer": "The PII redaction engine uses contextual analysis alongside NER and pattern matching to distinguish names from common words. It evaluates capitalization, sentence position, surrounding words (like Mr., Ms., Dr.), and semantic role. When the confidence score exceeds 0.7 (a configurable threshold), it defaults to redaction.",
    "answer_start": 0,
    "is_answerable": true,
    "metadata": {
      "source_document": "ertas-data-suite-docs/pii-redaction.md",
      "domain": "product-documentation",
      "difficulty": "medium",
      "question_type": "reasoning"
    }
  },
  {
    "question": "Can I export models in TensorRT format from Ertas Studio?",
    "context": "Ertas Studio supports model export in three formats: GGUF for local CPU/GPU inference, SafeTensors for GPU-based deployment with frameworks like vLLM and TGI, and ONNX for cross-platform deployment with ONNX Runtime. Export configurations include quantization level selection, metadata embedding, and tokenizer bundling.",
    "answer": "No, TensorRT format is not currently supported. Ertas Studio supports export in three formats: GGUF, SafeTensors, and ONNX.",
    "answer_start": -1,
    "is_answerable": true,
    "metadata": {
      "source_document": "ertas-studio-docs/export.md",
      "domain": "product-documentation",
      "difficulty": "easy",
      "question_type": "factoid"
    }
  }
]

Ejemplos de QA que cubren escenarios factuales, de razonamiento y de respuesta negativa desde documentación de producto

Data Collection Guide

Comienza con tu documentación existente, artículos de base de conocimiento, preguntas frecuentes y wikis internos. Para cada documento, genera 3-5 preguntas que el documento responda, variando en dificultad desde extracción factual simple hasta razonamiento de múltiples pasos. Incluye preguntas donde la respuesta requiere sintetizar información de diferentes partes del pasaje, y preguntas donde el contexto no contiene la respuesta (enseñando al modelo a decir "no lo sé" en lugar de alucinar).

Involucra a expertos del dominio en la generación de preguntas. Pide a los expertos en la materia que escriban las preguntas que esperarían que los usuarios hicieran, en lugar de generar preguntas mecánicamente a partir del texto. Las preguntas escritas por expertos capturan los patrones de lenguaje natural y las necesidades de información de los usuarios reales, produciendo un dataset de entrenamiento más efectivo que las preguntas generadas algorítmicamente.

Incluye preguntas sin respuesta en tu dataset (15-20 por ciento de los ejemplos). Estas son preguntas donde el contexto proporcionado no contiene información suficiente para responder. La salida esperada debe indicar claramente que la información no está disponible en el contexto. Esto es crítico para aplicaciones RAG donde el recuperador puede devolver pasajes marginalmente relevantes que realmente no responden la pregunta del usuario — el modelo debe aprender a reconocer esto y declinar en lugar de fabricar una respuesta.

Quality Criteria

Verifica la corrección de las respuestas haciendo que un segundo revisor responda independientemente cada pregunta usando solo el contexto proporcionado, y luego compara con la respuesta etiquetada. Los desacuerdos deben ser arbitrados por un experto del dominio. Para preguntas factuales, debe haber exactamente una respuesta correcta derivable del contexto. Para preguntas de razonamiento, las variaciones de respuesta aceptables deben documentarse.

Asegura diversidad de preguntas en tipos de pregunta (qué, cómo, por qué, cuándo, cuál, comparación, procedimiento), niveles de dificultad y documentos fuente. Un dataset dominado por preguntas factuales simples no entrenará un modelo capaz de manejar las preguntas complejas de razonamiento que los usuarios hacen en la práctica. Apunta a una distribución de aproximadamente 40 por ciento fáciles, 40 por ciento medias y 20 por ciento difíciles.

Valida que los pasajes de contexto sean autocontenidos — la respuesta debe ser derivable solo del contexto proporcionado sin requerir conocimiento externo. Si una pregunta solo puede responderse combinando el contexto con experiencia del dominio no presente en el texto, expande el contexto para incluir la información necesaria o reclasifica la pregunta como un ejemplo de QA de libro cerrado.

Using This Template with Ertas

Importa tu corpus de documentación a Ertas Data Suite. Si la documentación contiene información específica de clientes, URLs internas o nombres de empleados, aplica redacción de PII antes de usar el texto como contextos de entrenamiento. El sistema de linaje de datos rastrea qué documentos fuente contribuyeron a cada par de QA, manteniendo la procedencia hasta la base de conocimiento original.

Exporta los pares de QA en formato Alpaca (instruction: pregunta, input: contexto, output: respuesta) o JSONL para el fine-tuning en Ertas Studio. Después del entrenamiento, el modelo exportado en GGUF puede alimentar sistemas RAG on-premise que procesan consultas localmente sin enviar las preguntas de los usuarios a APIs externas.

Recommended Model

Para sistemas de QA, un modelo de 7B-8B parámetros proporciona el balance correcto entre capacidad de comprensión y velocidad de inferencia. Los modelos a esta escala manejan ventanas de contexto de 4,000-8,000 tokens efectivamente, cubriendo la mayoría de los pasajes de documentos. Para sistemas de QA que deben procesar documentos muy largos, considera un modelo entrenado con soporte de contexto extendido.

Para QA extractivo de alto rendimiento (seleccionar fragmentos de respuesta exactos), los modelos basados en encoder como DeBERTa ajustados con datos estilo SQuAD proporcionan inferencia más rápida. Para QA generativo con explicaciones, un modelo de 7B ajustado y exportado a GGUF ofrece el mejor balance entre calidad y velocidad.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →