Mejor Pipeline RAG para Servicios Financieros: Recuperacion Air-Gapped para Datos con Alto Contenido de PII

Los estados financieros, la PII de clientes y los datos de inteligencia sobre amenazas deben permanecer en entornos air-gapped. Eso no es una preferencia, es un requisito regulatorio. Sin embargo, la mayoria de los proveedores de pipelines RAG asumen conectividad a internet para embeddings, alojamiento de bases de datos vectoriales e inferencia de modelos. Esa suposicion los descalifica de la conversacion antes de que se ingiera un solo documento.

Este articulo cubre como construir un pipeline RAG para servicios financieros que opera completamente on-premise, maneja documentos con alto contenido de PII sin riesgo de exposicion y satisface los marcos de cumplimiento que gobiernan la industria.

Por Que los Pipelines RAG Estandar Fallan en Servicios Financieros

Un pipeline RAG tipico envia documentos a una API de embeddings en la nube, almacena vectores en una base de datos alojada y llama a un LLM en la nube en tiempo de inferencia. Cada uno de esos tres pasos crea una violacion de cumplimiento para la mayoria de las instituciones financieras.

Las llamadas a la API de embeddings transmiten texto crudo del documento. Cuando un analista financiero consulta un sistema RAG sobre la cartera de un cliente, el paso de recuperacion envia fragmentos del documento, que contienen numeros de cuenta, numeros de seguro social, historiales de transacciones, a una API externa. Eso es una brecha de datos bajo la mayoria de los marcos regulatorios, independientemente de que el proveedor de la API afirme cumplimiento SOC 2 de su parte.

Las bases de datos vectoriales alojadas almacenan representaciones de documentos externamente. Aunque los embeddings no son legibles por humanos, pueden invertirse para reconstruir contenido aproximado del documento. Almacenarlos en infraestructura de terceros significa que la PII ha salido de tu perimetro.

La inferencia LLM en la nube expone el contexto de la consulta. Los fragmentos recuperados, combinados con la consulta del usuario, se envian a un modelo en la nube. La ventana de contexto completa, incluyendo PII de los documentos recuperados, esta ahora en los servidores de otra persona.

Un pipeline RAG air-gapped elimina los tres puntos de fallo. Cada componente se ejecuta dentro de tu perimetro de red. Ningun dato sale.

Requisitos de Cumplimiento Que Dan Forma a la Arquitectura

Los despliegues RAG en servicios financieros deben satisfacer marcos regulatorios superpuestos. La arquitectura no es opcional, esta dictada por los siguientes requisitos.

SOC 2 Tipo II

Las auditorias SOC 2 Tipo II evaluan los controles durante un periodo minimo de seis meses. Para un pipeline RAG, esto significa:

Controles de acceso sobre quien puede consultar que colecciones de documentos
Registro de auditoria de cada evento de recuperacion e inferencia, con identidad del usuario, marca de tiempo, documentos recuperados y texto de la consulta
Gestion de cambios para actualizaciones de modelos, cambios de modelos de embedding y reconstrucciones de indices
Cifrado en reposo para el almacen vectorial y el almacen de documentos
Cifrado en transito para todas las llamadas API internas entre componentes del pipeline

El GDPR se aplica a cualquier institucion financiera que maneje datos de ciudadanos de la UE, independientemente de donde tenga su sede la institucion.

Derecho al olvido (Art. 17): Debes poder eliminar los datos de un individuo especifico del almacen vectorial y re-indexar sin esos datos. Los embeddings alojados en la nube hacen esto casi imposible de verificar.
Portabilidad de datos (Art. 20): El sistema RAG debe poder exportar todos los datos asociados con un sujeto de datos en un formato portable.
Proteccion de datos por diseno (Art. 25): La PII debe ser identificada y manejada con salvaguardas apropiadas en cada etapa: ingesta, segmentacion, embedding, almacenamiento, recuperacion y generacion.
EIPD (Art. 35): Se requiere una evaluacion de impacto en la proteccion de datos antes de desplegar sistemas de IA que procesan PII a escala.

Mantenimiento de Registros MiFID II

MiFID II requiere que las empresas financieras retengan registros de todas las comunicaciones y decisiones relacionadas con transacciones de clientes. Si un sistema impulsado por RAG contribuye a la investigacion de inversiones, evaluacion de riesgos o comunicacion con clientes, cada consulta y cada respuesta generada debe retenerse por un minimo de cinco anos, siete anos en algunas jurisdicciones.

Esto significa que el pipeline RAG necesita un registro de auditoria inmutable con los siguientes campos por evento: marca de tiempo, identidad del usuario, texto de la consulta, IDs de documentos recuperados con puntuaciones de relevancia, respuesta generada y version del modelo.

La Arquitectura RAG Air-Gapped

Un pipeline RAG air-gapped para datos financieros tiene cinco etapas, todas ejecutandose dentro del perimetro de red.

Etapa 1: Ingesta de Documentos y Deteccion de PII

Los documentos crudos ingresan al pipeline: estados financieros, formularios KYC, registros de transacciones, informes de cumplimiento. Antes de cualquier procesamiento, un paso de deteccion de PII identifica y etiqueta campos sensibles: numeros de cuenta, numeros de seguro social, IDs fiscales, nombres, direcciones, fechas de nacimiento.

Aqui es donde opera el PII Redactor de Ertas Data Suite. Ejecutandose como una aplicacion de escritorio sin requisito de internet, escanea los documentos entrantes y etiqueta cada identificador financiero. Los metadatos de PII etiquetados viajan con el documento a traves del pipeline, habilitando controles de acceso a nivel de campo mas adelante.

Etapa 2: Segmentacion y Preprocesamiento

Los documentos etiquetados se dividen en fragmentos aptos para recuperacion. Los documentos financieros requieren segmentacion consciente del dominio:

Division consciente de tablas preserva las tablas financieras como unidades atomicas en lugar de dividir filas entre fragmentos
Deteccion de limites de seccion mantiene intactas las secciones de presentaciones regulatorias (factores de riesgo, discusion de la gerencia, estados financieros)
Propagacion de metadatos asegura que cada fragmento herede las etiquetas de PII de su documento fuente

Etapa 3: Generacion Local de Embeddings

Un modelo de embeddings de codigo abierto se ejecuta on-premise. Sin llamadas a API. Los modelos en el rango de 300M-500M parametros (como E5-large o BGE-large) producen embeddings de alta calidad en hardware modesto: una sola GPU o incluso inferencia solo en CPU para colecciones de documentos mas pequenas.

La generacion de embeddings es un proceso por lotes. Una coleccion de 100,000 fragmentos de documentos puede ser embebida en menos de dos horas en una sola NVIDIA T4.

Etapa 4: Almacenamiento Vectorial Local y Recuperacion

El almacen vectorial se ejecuta on-premise. Opciones de codigo abierto como Qdrant, Milvus o Weaviate se despliegan como servicios autoalojados dentro de tu red. Ningun dato sale.

Las consultas de recuperacion se ejecutan localmente. Cuando un usuario consulta el sistema, la consulta se embebe usando el mismo modelo local, la busqueda por similitud se ejecuta contra el almacen vectorial local y los fragmentos top-k se devuelven, todo dentro del perimetro air-gapped.

Etapa 5: Inferencia Local con Registro de Auditoria

Un LLM desplegado localmente genera respuestas usando el contexto recuperado. El modelo, la consulta y los fragmentos recuperados nunca salen de tu infraestructura. Cada evento de inferencia se registra en el almacen de auditoria inmutable con procedencia completa: que documentos fueron recuperados, que usuario inicio la consulta y que respuesta fue generada.

Comparacion: RAG en la Nube vs. RAG Air-Gapped para Servicios Financieros

Dimension	RAG Alojado en la Nube	RAG Air-Gapped (Ertas)
Riesgo de exposicion de PII	Alto: texto del documento enviado a APIs externas	Ninguno: todo el procesamiento on-premise
Auditoria SOC 2 Tipo II	Requiere informes SOC 2 del proveedor y modelo de responsabilidad compartida	Completamente dentro de tu perimetro de auditoria
Derecho al olvido GDPR	Dificil de verificar la eliminacion en sistemas de terceros	Control total: elimina y re-indexa localmente
Mantenimiento de registros MiFID II	Registros de auditoria divididos entre proveedor y sistemas internos	Un solo almacen de registros inmutable on-premise
Dependencia de internet	Requerida para embeddings, BD vectorial e inferencia	Ninguna: operacion completamente air-gapped
Redaccion de PII	Manual o servicio de terceros (los datos salen del perimetro)	Ertas PII Redactor: local, sin internet
Control del modelo de embedding	Seleccionado por el proveedor, puede cambiar sin aviso	Tu eliges y controlas la version del modelo
Latencia	Variable: depende de los tiempos de respuesta de la API	Predecible: solo red local
Modelo de costos	Tarifas por token y por consulta que escalan con el uso	Costo de infraestructura fijo, sin tarifas por consulta
Dependencia de proveedor	Alta: embeddings propietarios, formatos vectoriales	Ninguna: componentes de codigo abierto en todo

Manejo de PII: El Requisito Decisivo

El mayor diferenciador para RAG en servicios financieros es el manejo de PII. La mayoria de los pipelines RAG tratan la PII como problema de otros. En servicios financieros, la PII son los datos centrales.

Un pipeline RAG de primera clase para documentos sensibles debe manejar la PII en tres niveles:

Redaccion pre-embedding. Ciertos campos de PII (numeros de seguro social, numeros de cuenta completos) deben ser redactados o tokenizados antes del embedding. Los embeddings deben codificar el contenido semantico del documento sin codificar PII recuperable. El PII Redactor de Ertas maneja esto automaticamente para tipos de identificadores financieros.

Controles de acceso a nivel de campo. Diferentes usuarios deben ver diferentes niveles de PII en los resultados recuperados. Un oficial de cumplimiento revisando alertas AML necesita detalles completos de la cuenta. Un analista de investigacion consultando comentarios de mercado no los necesita. El pipeline RAG debe aplicar estos controles en el momento de la recuperacion, no solo en la capa de UI.

Eliminacion y re-indexacion. Cuando un cliente ejerce su derecho al olvido, el pipeline debe eliminar todos los fragmentos derivados de los documentos de ese cliente, remover los vectores correspondientes del almacen y verificar que no quedan datos residuales. Esto es sencillo con un almacen vectorial local. Es casi imposible de verificar con uno alojado en la nube.

Requisitos de Hardware

Un pipeline RAG air-gapped para una institucion financiera de tamano medio (procesando de 50,000 a 500,000 documentos) requiere hardware modesto:

Servidor de embeddings: 1x NVIDIA T4 16GB o equivalente. Solo CPU es viable para colecciones de menos de 50,000 fragmentos pero mas lento para re-indexacion por lotes.
Almacen vectorial: 64GB RAM, 1TB NVMe SSD. Escala linealmente con el tamano de la coleccion.
Servidor de inferencia: 1x NVIDIA T4 16GB para modelos de 7B-8B parametros. Agrega un segundo para alta disponibilidad.
Almacen de registros de auditoria: Almacenamiento de solo escritura, dimensionado para cinco a siete anos de retencion. 500GB cubre la mayoria de los despliegues.

El costo total de hardware tipicamente esta entre $20,000 y $50,000, una fraccion de los costos anuales de API de RAG en la nube a los volumenes de consulta de servicios financieros.

Primeros Pasos

El camino mas rapido hacia un pipeline RAG air-gapped para datos financieros es comenzar con el manejo de PII. Si tu pipeline de deteccion y redaccion de PII es solido, el resto de la arquitectura sigue patrones estandar.

Ertas Data Suite proporciona el PII Redactor como parte de su aplicacion de escritorio on-premise. Maneja los identificadores financieros que las herramientas genericas de PII pasan por alto: formatos de numeros de cuenta, patrones de IDs fiscales entre jurisdicciones y numeros de referencia especificos de la institucion. Sin conexion a internet requerida. Registro de auditoria completo para cada decision de redaccion.

A partir de ahi, combinalo con modelos de embeddings de codigo abierto y un almacen vectorial autoalojado. El mejor pipeline RAG para servicios financieros empresariales es aquel donde ningun dato sale de tu perimetro, y puedes demostrarlo a cada auditor que lo solicite.

Mejor Pipeline RAG para Servicios Financieros: Recuperacion Air-Gapped para Datos con Alto Contenido de PII

Por Que los Pipelines RAG Estandar Fallan en Servicios Financieros