LlamaIndex + Ertas
Usa modelos entrenados con Ertas con LlamaIndex para construir aplicaciones RAG de grado produccion que entienden tus documentos y fuentes de datos especificos del dominio.
Overview
LlamaIndex (anteriormente GPT Index) es un framework de datos construido especificamente para conectar modelos de lenguaje grandes a fuentes de datos externas. Proporciona abstracciones robustas para ingestion de datos, indexacion, recuperacion y motores de consulta que van mucho mas alla de la busqueda vectorial simple. LlamaIndex soporta mas de 160 conectores de datos — desde PDFs y bases de datos hasta Slack, Notion y Google Drive — facilitando construir aplicaciones RAG sobre bases de conocimiento empresariales.
Lo que distingue a LlamaIndex es su enfoque en recuperacion de datos estructurados y planificacion de consultas. En lugar de volcar fragmentos crudos en un prompt, LlamaIndex puede descomponer consultas complejas en sub-consultas, enrutarlas a diferentes indices y sintetizar respuestas coherentes de multiples fuentes de datos. Cuando se combina con un modelo entrenado con Ertas que ya entiende tu terminologia de dominio, este enfoque de recuperacion estructurada reduce dramaticamente las alucinaciones y mejora la precision de respuestas en preguntas especificas del dominio.
How Ertas Integrates
Los modelos entrenados con Ertas se integran con LlamaIndex en dos puntos criticos del pipeline RAG: el motor de consulta y el sintetizador de respuestas. Despues de ajustar un modelo en Ertas Studio con tus datos de dominio, lo despliegas en cualquier endpoint OpenAI-compatible y configuras LlamaIndex para usarlo como el LLM principal. Debido a que el modelo ya entiende la jerga de tu industria, abreviaciones y patrones de razonamiento, las respuestas con recuperacion aumentada son significativamente mas precisas que las de un modelo generico.
Ertas Hub proporciona plantillas de configuracion de LlamaIndex pre-construidas para casos de uso comunes como Q&A de documentos legales, revision de literatura medica y analisis de informes financieros. Estas plantillas incluyen estrategias de fragmentacion optimizadas, recomendaciones de modelos de embedding y plantillas de prompts que se alinean con los formatos de chat usados durante el fine-tuning de Ertas. Esta alineacion de extremo a extremo — desde el formato de datos de entrenamiento hasta la estructura de prompt de recuperacion — es lo que hace que los pipelines RAG ajustados superen a las configuraciones genericas por amplios margenes.
Getting Started
- 1
Ajusta un modelo de dominio en Ertas Studio
Entrena un modelo con tus pares de Q&A especificos del dominio o corpus de documentos usando Ertas Studio. El modelo ajustado servira como la columna vertebral de razonamiento de tu pipeline de LlamaIndex.
- 2
Despliega el modelo en un endpoint de inferencia
Exporta el modelo en formato GGUF y sirvelo via Ollama, vLLM o Ertas Cloud. LlamaIndex soporta cualquier API OpenAI-compatible como backend.
- 3
Ingesta e indexa tus documentos
Usa los conectores de datos de LlamaIndex para cargar tus documentos, luego construye indices vectoriales o de palabras clave usando tu modelo de embedding preferido y almacen de vectores.
- 4
Configura el motor de consulta con tu modelo Ertas
Apunta el motor de consulta de LlamaIndex al endpoint de tu modelo entrenado con Ertas. Usa las plantillas de prompts de Ertas Hub para asegurar alineacion de prompts entrenamiento-inferencia.
- 5
Despliega y monitorea la aplicacion RAG
Sirve la aplicacion LlamaIndex via una API REST o interfaz de chat. Usa el monitoreo de Ertas Cloud para rastrear la calidad de inferencia e identificar areas de mejora del modelo.
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms.openai_like import OpenAILike
# Connect to your Ertas-trained model via Ollama
llm = OpenAILike(
api_base="http://localhost:11434/v1",
model="ertas-finance-7b",
api_key="not-needed",
is_chat_model=True,
temperature=0.1,
)
# Load and index your documents
documents = SimpleDirectoryReader("./financial_reports").load_data()
index = VectorStoreIndex.from_documents(documents)
# Query with your fine-tuned model
query_engine = index.as_query_engine(llm=llm)
response = query_engine.query(
"What was the year-over-year revenue growth in Q3?"
)
print(response)Benefits
- Los modelos entrenados en el dominio producen respuestas RAG mas precisas que LLMs genericos
- Soporte para mas de 160 conectores de datos cubre virtualmente cualquier fuente de datos empresarial
- Descomposicion estructurada de consultas maneja preguntas complejas de multiples partes
- Toda la inferencia permanece local o en tu VPC para cumplimiento de privacidad de datos
- Plantillas pre-construidas de Ertas Hub aceleran la configuracion de pipelines LlamaIndex
- Ciclo de mejora continua: retroalimenta fallos RAG en Ertas Studio para reentrenamiento
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
How to Fine-Tune an LLM: The Complete 2026 Guide
Running AI Models Locally: The Complete Guide to Local LLM Inference
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Haystack
Hugging Face
LangChain
Ollama
vLLM
Ertas for Healthcare
Ertas for Legal
Ertas for Finance
Ertas for Data Extraction
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.