Haystack + Ertas
Integra modelos entrenados con Ertas en los pipelines NLP modulares de Haystack para recuperacion de documentos, respuesta a preguntas y busqueda semantica a escala empresarial.
Overview
Haystack, desarrollado por deepset, es un framework NLP de codigo abierto disenado para construir sistemas de busqueda y respuesta a preguntas listos para produccion. A diferencia de frameworks LLM de proposito general, Haystack prioriza los pipelines: cada componente — retriever, reader, generator, ranker — es un nodo modular que puede intercambiarse, encadenarse y configurarse independientemente. Esta arquitectura hace que Haystack sea particularmente adecuado para despliegues empresariales donde la confiabilidad, observabilidad y pruebas a nivel de componente importan mas que la velocidad de prototipado.
Haystack 2.x introdujo una API de pipeline completamente rediseada con soporte de primera clase para generacion impulsada por LLM, haciendolo una opcion solida para aplicaciones RAG que necesitan ir mas alla de patrones simples de prompt-y-recuperacion. Su framework de evaluacion integrado permite a los equipos medir recall de recuperacion, calidad de respuestas y metricas de fidelidad de forma nativa — capacidades esenciales al desplegar modelos ajustados en produccion y rastrear si las actualizaciones del modelo realmente mejoran el rendimiento downstream.
How Ertas Integrates
Los modelos entrenados con Ertas se insertan directamente en los pipelines de Haystack como componentes generadores o lectores. Despues del fine-tuning en Ertas Studio, despliegas el modelo en un endpoint OpenAI-compatible y configuras el OpenAIGenerator o OllamaGenerator de Haystack para apuntar a tu servidor de inferencia local o en la nube. Debido a que Haystack trata al LLM como solo otro componente del pipeline, puedes hacer pruebas A/B de tu modelo entrenado con Ertas contra un modelo generico ejecutando pipelines paralelos y comparando salidas usando los nodos de evaluacion de Haystack.
La combinacion del fine-tuning de Ertas y el framework de evaluacion de Haystack crea un poderoso ciclo de optimizacion. Puedes medir exactamente cuanto mejora tu modelo ajustado las respuestas con recuperacion aumentada en tu conjunto de evaluacion especifico del dominio, identificar patrones de fallo, generar ejemplos de entrenamiento dirigidos a partir de esos fallos y reentrenar en Ertas Studio. Este enfoque de volante de datos — donde los fallos de produccion alimentan directamente las mejoras de entrenamiento — es la forma mas confiable de construir sistemas de IA que mejoran con el tiempo en lugar de degradarse a medida que se acumulan casos limite.
Getting Started
- 1
Ajusta un modelo de dominio en Ertas Studio
Entrena un modelo en tu corpus de dominio usando Ertas Studio. Enfocate en la tarea especifica que tu pipeline de Haystack realizara — respuesta a preguntas, resumen o extraccion.
- 2
Despliega en un backend de inferencia soportado
Exporta el modelo GGUF y sirvelo a traves de Ollama, vLLM o cualquier endpoint OpenAI-compatible. Haystack soporta multiples backends de generador nativamente.
- 3
Construye tu pipeline de Haystack
Ensambla un pipeline de Haystack con tu eleccion de componentes retriever, ranker y generator. Apunta el generador al endpoint de tu modelo entrenado con Ertas.
- 4
Evalua con las metricas integradas de Haystack
Ejecuta tu pipeline contra un conjunto de evaluacion etiquetado y mide precision de respuestas, fidelidad y recall de recuperacion para cuantificar el impacto del fine-tuning.
- 5
Itera y reentrena
Analiza los fallos del pipeline, genera nuevos ejemplos de entrenamiento y reentrena en Ertas Studio. Redespliega el modelo mejorado sin cambiar la configuracion de tu pipeline de Haystack.
from haystack import Pipeline
from haystack.components.generators import OpenAIGenerator
from haystack.components.builders import PromptBuilder
# Configure generator with your Ertas-trained model
generator = OpenAIGenerator(
api_base_url="http://localhost:11434/v1",
model="ertas-support-7b",
api_key="not-needed",
)
prompt = PromptBuilder(
template="""Answer the question based on the context.
Context: {{ context }}
Question: {{ question }}
Answer:"""
)
# Build the pipeline
pipe = Pipeline()
pipe.add_component("prompt", prompt)
pipe.add_component("generator", generator)
pipe.connect("prompt", "generator")
result = pipe.run({
"prompt": {
"context": "Our return policy allows returns within 30 days...",
"question": "How long do I have to return an item?",
}
})
print(result["generator"]["replies"][0])Benefits
- Arquitectura de pipeline modular te permite intercambiar modelos sin reescribir logica de aplicacion
- Framework de evaluacion integrado cuantifica el impacto del fine-tuning en metricas de produccion
- Observabilidad de grado empresarial con registro y trazado a nivel de pipeline
- Pruebas A/B de modelos entrenados con Ertas contra lineas base en pipelines paralelos
- Procesamiento de documentos listo para produccion con soporte para PDF, DOCX y HTML
- Fuerte comunidad y soporte empresarial de deepset para despliegues de mision critica
Related Resources
Fine-Tuning
GGUF
Inference
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
How to Fine-Tune an LLM: The Complete 2026 Guide
Running AI Models Locally: The Complete Guide to Local LLM Inference
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Fine-Tune AI Models Without Writing Code
Hugging Face
LangChain
LlamaIndex
Ollama
vLLM
Ertas for Healthcare
Ertas for Customer Support
Ertas for Legal
Ertas for Data Extraction
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.