Preparación de Datos Aislada para Modelos de IA de Seguridad

Ertas Data Suite ofrece a los equipos de ciberseguridad un pipeline on-prem y aislado para preparar inteligencia de amenazas, datos de logs y reportes de incidentes para el entrenamiento de modelos de IA — sin exponer datos sensibles de seguridad a servicios externos.

The Challenges You Face

Los Datos de Seguridad Son los Datos Más Sensibles

La inteligencia de amenazas, los reportes de vulnerabilidades, los playbooks de respuesta a incidentes y los logs de red contienen información que los adversarios adorarían acceder. Enviar estos datos a cualquier servicio externo — incluso a un proveedor de IA de buena reputación — amplía la superficie de ataque y viola el principio de mínima exposición.

Los Datos de Amenazas Llegan en Formatos Heterogéneos

Feeds STIX/TAXII, entradas Syslog, metadatos PCAP, reglas YARA, mapeos MITRE ATT&CK y reportes de incidentes en texto libre necesitan ser normalizados antes de convertirse en datos de entrenamiento útiles. Cada formato tiene sus propios desafíos de análisis y estructuras específicas del dominio.

El Etiquetado Requiere Experiencia en Seguridad

Clasificar tipos de amenazas, niveles de severidad y vectores de ataque requiere analistas con profundo conocimiento en seguridad. Externalizar el etiquetado a servicios de anotación genéricos es tanto un riesgo de seguridad como un riesgo de calidad — los no expertos consistentemente etiquetan mal los datos de seguridad con matices.

Los Datos de Entrenamiento de Modelos Son un Activo Estratégico

Los datasets que construyes para modelos de IA de seguridad representan años de inteligencia de amenazas acumulada y conocimiento institucional. Perder el control de estos datos — a través de una brecha del proveedor, una vulnerabilidad de API o un cambio en los términos de servicio — podría comprometer tu ventaja competitiva y la seguridad de tus clientes.

How Ertas Solves This

Ertas Data Suite es una aplicación de escritorio nativa que se ejecuta completamente aislada — sin conexión de red, sin telemetría, sin dependencias externas. Instálala en una estación de trabajo segura dentro de tu SOC, SCIF o entorno de análisis aislado y procesa los datos de seguridad más sensibles con cero riesgo de exposición.

El pipeline de cinco módulos maneja el flujo completo de preparación de datos. Ingest normaliza fuentes heterogéneas de datos de amenazas en un formato consistente. Clean elimina ruido, deduplica entradas y estandariza nombres de campos. Label proporciona una interfaz diseñada específicamente donde los analistas de seguridad etiquetan amenazas usando su experiencia del dominio. Augment genera variaciones controladas para balancear categorías de amenazas subrepresentadas. Export produce datasets versionados con pista de auditoría listos para el entrenamiento de modelos.

Como cada transformación se registra en una pista de auditoría de solo adición, mantienes la documentación de cadena de custodia que los marcos de seguridad requieren — y puedes rastrear cualquier predicción del modelo hasta los datos de entrenamiento exactos y los pasos de preparación que la produjeron.

Key Features for Empresas de Ciberseguridad

Data Suite

Operación con Aislamiento Real

Data Suite no requiere conectividad de red en absoluto. Se ejecuta como una aplicación nativa independiente con todo el procesamiento ocurriendo localmente. Sin consultas DNS, sin verificaciones de actualización, sin telemetría. La aplicación es completamente funcional en entornos sin interfaz de red alguna.

Data Suite

Ingesta de Datos de Seguridad Multi-Formato

El módulo Ingest maneja paquetes STIX, exportaciones de logs en CSV/JSON, reportes de incidentes en PDF, listas de IOC en texto plano y feeds de amenazas estructurados. Los parsers de formatos personalizados se pueden configurar para esquemas de logs específicos de la organización.

Data Suite

Etiquetado Dirigido por Analistas

Los analistas de seguridad etiquetan datos usando frameworks que ya conocen — técnicas MITRE ATT&CK, fases de kill chain, clasificaciones de severidad y taxonomías personalizadas. La interfaz muestra contexto de entradas relacionadas para mejorar la consistencia y velocidad del etiquetado.

Vault

Pista de Auditoría Inmutable

Cada operación se registra en un libro mayor de solo adición con verificación de integridad criptográfica. La pista de auditoría soporta los requisitos de documentación de NIST CSF, SOC 2 Type II y FedRAMP para sistemas de IA usados en operaciones de seguridad.

Why It Works

La arquitectura aislada de Data Suite satisface los requisitos de manejo de datos de las Directivas Operativas Vinculantes de CISA y el CMMC Nivel 3 del DoD para la preparación de datos de entrenamiento de IA.
Los equipos de seguridad han preparado datasets de entrenamiento a partir de reportes de incidentes clasificados sin que ningún dato salga de la instalación segura — habilitando la clasificación de amenazas asistida por IA que antes era imposible debido a las restricciones de sensibilidad de datos.
La interfaz de etiquetado dirigida por analistas reduce el tiempo para preparar un dataset de inteligencia de amenazas etiquetado de semanas de trabajo manual en hojas de cálculo a días de anotación estructurada.
Las capacidades de aumentación ayudan a abordar el problema de desbalance de clases inherente en datos de seguridad — los tipos de amenazas raros pero críticos obtienen representación suficiente en los conjuntos de entrenamiento sin inflación artificial.
La pista de auditoría inmutable proporciona la evidencia necesaria para demostrar que los modelos de IA usados en operaciones de seguridad fueron entrenados con datos correctamente manejados y correctamente etiquetados.

Example Workflow

Una empresa de ciberseguridad quiere entrenar un modelo que clasifique correos de phishing por vector de ataque y nivel de sofisticación. Un analista abre Ertas Data Suite en una estación de trabajo aislada en el laboratorio de análisis, ingiere 20,000 muestras confirmadas de phishing del repositorio interno de la empresa a través del módulo Ingest.

El módulo Clean normaliza los encabezados de correo electrónico, extrae URLs y metadatos de archivos adjuntos, y deduplica variantes casi idénticas. Los analistas senior de amenazas usan el módulo Label para clasificar cada muestra por técnica (recolección de credenciales, entrega de malware, BEC, etc.) y nivel de sofisticación. El módulo Augment genera variaciones controladas de categorías subrepresentadas para garantizar datos de entrenamiento balanceados.

El módulo Export produce un dataset JSONL versionado con una pista de auditoría completa. El dataset se transfiere a través de medios aprobados a la infraestructura de entrenamiento de la empresa, donde produce un modelo de clasificación que triagea automáticamente los correos electrónicos sospechosos entrantes — dirigiendo las amenazas más sofisticadas a los analistas senior primero.

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →