LlamaIndex + Ertas

Usa modelos entrenados con Ertas con LlamaIndex para construir aplicaciones RAG de grado produccion que entienden tus documentos y fuentes de datos especificos del dominio.

Overview

LlamaIndex (anteriormente GPT Index) es un framework de datos construido especificamente para conectar modelos de lenguaje grandes a fuentes de datos externas. Proporciona abstracciones robustas para ingestion de datos, indexacion, recuperacion y motores de consulta que van mucho mas alla de la busqueda vectorial simple. LlamaIndex soporta mas de 160 conectores de datos — desde PDFs y bases de datos hasta Slack, Notion y Google Drive — facilitando construir aplicaciones RAG sobre bases de conocimiento empresariales.

Lo que distingue a LlamaIndex es su enfoque en recuperacion de datos estructurados y planificacion de consultas. En lugar de volcar fragmentos crudos en un prompt, LlamaIndex puede descomponer consultas complejas en sub-consultas, enrutarlas a diferentes indices y sintetizar respuestas coherentes de multiples fuentes de datos. Cuando se combina con un modelo entrenado con Ertas que ya entiende tu terminologia de dominio, este enfoque de recuperacion estructurada reduce dramaticamente las alucinaciones y mejora la precision de respuestas en preguntas especificas del dominio.

How Ertas Integrates

Los modelos entrenados con Ertas se integran con LlamaIndex en dos puntos criticos del pipeline RAG: el motor de consulta y el sintetizador de respuestas. Despues de ajustar un modelo en Ertas Studio con tus datos de dominio, lo despliegas en cualquier endpoint OpenAI-compatible y configuras LlamaIndex para usarlo como el LLM principal. Debido a que el modelo ya entiende la jerga de tu industria, abreviaciones y patrones de razonamiento, las respuestas con recuperacion aumentada son significativamente mas precisas que las de un modelo generico.

Ertas Hub proporciona plantillas de configuracion de LlamaIndex pre-construidas para casos de uso comunes como Q&A de documentos legales, revision de literatura medica y analisis de informes financieros. Estas plantillas incluyen estrategias de fragmentacion optimizadas, recomendaciones de modelos de embedding y plantillas de prompts que se alinean con los formatos de chat usados durante el fine-tuning de Ertas. Esta alineacion de extremo a extremo — desde el formato de datos de entrenamiento hasta la estructura de prompt de recuperacion — es lo que hace que los pipelines RAG ajustados superen a las configuraciones genericas por amplios margenes.

Getting Started

1
Ajusta un modelo de dominio en Ertas Studio
Entrena un modelo con tus pares de Q&A especificos del dominio o corpus de documentos usando Ertas Studio. El modelo ajustado servira como la columna vertebral de razonamiento de tu pipeline de LlamaIndex.
2
Despliega el modelo en un endpoint de inferencia
Exporta el modelo en formato GGUF y sirvelo via Ollama, vLLM o Ertas Cloud. LlamaIndex soporta cualquier API OpenAI-compatible como backend.
3
Ingesta e indexa tus documentos
Usa los conectores de datos de LlamaIndex para cargar tus documentos, luego construye indices vectoriales o de palabras clave usando tu modelo de embedding preferido y almacen de vectores.
4
Configura el motor de consulta con tu modelo Ertas
Apunta el motor de consulta de LlamaIndex al endpoint de tu modelo entrenado con Ertas. Usa las plantillas de prompts de Ertas Hub para asegurar alineacion de prompts entrenamiento-inferencia.
5
Despliega y monitorea la aplicacion RAG
Sirve la aplicacion LlamaIndex via una API REST o interfaz de chat. Usa el monitoreo de Ertas Cloud para rastrear la calidad de inferencia e identificar areas de mejora del modelo.

python

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms.openai_like import OpenAILike

# Connect to your Ertas-trained model via Ollama
llm = OpenAILike(
    api_base="http://localhost:11434/v1",
    model="ertas-finance-7b",
    api_key="not-needed",
    is_chat_model=True,
    temperature=0.1,
)

# Load and index your documents
documents = SimpleDirectoryReader("./financial_reports").load_data()
index = VectorStoreIndex.from_documents(documents)

# Query with your fine-tuned model
query_engine = index.as_query_engine(llm=llm)
response = query_engine.query(
    "What was the year-over-year revenue growth in Q3?"
)
print(response)

Construye un pipeline RAG sobre documentos financieros usando un modelo entrenado con Ertas con LlamaIndex.

Benefits

Los modelos entrenados en el dominio producen respuestas RAG mas precisas que LLMs genericos
Soporte para mas de 160 conectores de datos cubre virtualmente cualquier fuente de datos empresarial
Descomposicion estructurada de consultas maneja preguntas complejas de multiples partes
Toda la inferencia permanece local o en tu VPC para cumplimiento de privacidad de datos
Plantillas pre-construidas de Ertas Hub aceleran la configuracion de pipelines LlamaIndex
Ciclo de mejora continua: retroalimenta fallos RAG en Ertas Studio para reentrenamiento