Preparación de Datos Aislada para Modelos de IA de Seguridad
Ertas Data Suite ofrece a los equipos de ciberseguridad un pipeline on-prem y aislado para preparar inteligencia de amenazas, datos de logs y reportes de incidentes para el entrenamiento de modelos de IA — sin exponer datos sensibles de seguridad a servicios externos.
The Challenges You Face
Los Datos de Seguridad Son los Datos Más Sensibles
La inteligencia de amenazas, los reportes de vulnerabilidades, los playbooks de respuesta a incidentes y los logs de red contienen información que los adversarios adorarían acceder. Enviar estos datos a cualquier servicio externo — incluso a un proveedor de IA de buena reputación — amplía la superficie de ataque y viola el principio de mínima exposición.
Los Datos de Amenazas Llegan en Formatos Heterogéneos
Feeds STIX/TAXII, entradas Syslog, metadatos PCAP, reglas YARA, mapeos MITRE ATT&CK y reportes de incidentes en texto libre necesitan ser normalizados antes de convertirse en datos de entrenamiento útiles. Cada formato tiene sus propios desafíos de análisis y estructuras específicas del dominio.
El Etiquetado Requiere Experiencia en Seguridad
Clasificar tipos de amenazas, niveles de severidad y vectores de ataque requiere analistas con profundo conocimiento en seguridad. Externalizar el etiquetado a servicios de anotación genéricos es tanto un riesgo de seguridad como un riesgo de calidad — los no expertos consistentemente etiquetan mal los datos de seguridad con matices.
Los Datos de Entrenamiento de Modelos Son un Activo Estratégico
Los datasets que construyes para modelos de IA de seguridad representan años de inteligencia de amenazas acumulada y conocimiento institucional. Perder el control de estos datos — a través de una brecha del proveedor, una vulnerabilidad de API o un cambio en los términos de servicio — podría comprometer tu ventaja competitiva y la seguridad de tus clientes.
How Ertas Solves This
Ertas Data Suite es una aplicación de escritorio nativa que se ejecuta completamente aislada — sin conexión de red, sin telemetría, sin dependencias externas. Instálala en una estación de trabajo segura dentro de tu SOC, SCIF o entorno de análisis aislado y procesa los datos de seguridad más sensibles con cero riesgo de exposición.
El pipeline de cinco módulos maneja el flujo completo de preparación de datos. Ingest normaliza fuentes heterogéneas de datos de amenazas en un formato consistente. Clean elimina ruido, deduplica entradas y estandariza nombres de campos. Label proporciona una interfaz diseñada específicamente donde los analistas de seguridad etiquetan amenazas usando su experiencia del dominio. Augment genera variaciones controladas para balancear categorías de amenazas subrepresentadas. Export produce datasets versionados con pista de auditoría listos para el entrenamiento de modelos.
Como cada transformación se registra en una pista de auditoría de solo adición, mantienes la documentación de cadena de custodia que los marcos de seguridad requieren — y puedes rastrear cualquier predicción del modelo hasta los datos de entrenamiento exactos y los pasos de preparación que la produjeron.
Key Features for Empresas de Ciberseguridad
Operación con Aislamiento Real
Data Suite no requiere conectividad de red en absoluto. Se ejecuta como una aplicación nativa independiente con todo el procesamiento ocurriendo localmente. Sin consultas DNS, sin verificaciones de actualización, sin telemetría. La aplicación es completamente funcional en entornos sin interfaz de red alguna.
Ingesta de Datos de Seguridad Multi-Formato
El módulo Ingest maneja paquetes STIX, exportaciones de logs en CSV/JSON, reportes de incidentes en PDF, listas de IOC en texto plano y feeds de amenazas estructurados. Los parsers de formatos personalizados se pueden configurar para esquemas de logs específicos de la organización.
Etiquetado Dirigido por Analistas
Los analistas de seguridad etiquetan datos usando frameworks que ya conocen — técnicas MITRE ATT&CK, fases de kill chain, clasificaciones de severidad y taxonomías personalizadas. La interfaz muestra contexto de entradas relacionadas para mejorar la consistencia y velocidad del etiquetado.
Pista de Auditoría Inmutable
Cada operación se registra en un libro mayor de solo adición con verificación de integridad criptográfica. La pista de auditoría soporta los requisitos de documentación de NIST CSF, SOC 2 Type II y FedRAMP para sistemas de IA usados en operaciones de seguridad.
Why It Works
- La arquitectura aislada de Data Suite satisface los requisitos de manejo de datos de las Directivas Operativas Vinculantes de CISA y el CMMC Nivel 3 del DoD para la preparación de datos de entrenamiento de IA.
- Los equipos de seguridad han preparado datasets de entrenamiento a partir de reportes de incidentes clasificados sin que ningún dato salga de la instalación segura — habilitando la clasificación de amenazas asistida por IA que antes era imposible debido a las restricciones de sensibilidad de datos.
- La interfaz de etiquetado dirigida por analistas reduce el tiempo para preparar un dataset de inteligencia de amenazas etiquetado de semanas de trabajo manual en hojas de cálculo a días de anotación estructurada.
- Las capacidades de aumentación ayudan a abordar el problema de desbalance de clases inherente en datos de seguridad — los tipos de amenazas raros pero críticos obtienen representación suficiente en los conjuntos de entrenamiento sin inflación artificial.
- La pista de auditoría inmutable proporciona la evidencia necesaria para demostrar que los modelos de IA usados en operaciones de seguridad fueron entrenados con datos correctamente manejados y correctamente etiquetados.
Example Workflow
Una empresa de ciberseguridad quiere entrenar un modelo que clasifique correos de phishing por vector de ataque y nivel de sofisticación. Un analista abre Ertas Data Suite en una estación de trabajo aislada en el laboratorio de análisis, ingiere 20,000 muestras confirmadas de phishing del repositorio interno de la empresa a través del módulo Ingest.
El módulo Clean normaliza los encabezados de correo electrónico, extrae URLs y metadatos de archivos adjuntos, y deduplica variantes casi idénticas. Los analistas senior de amenazas usan el módulo Label para clasificar cada muestra por técnica (recolección de credenciales, entrega de malware, BEC, etc.) y nivel de sofisticación. El módulo Augment genera variaciones controladas de categorías subrepresentadas para garantizar datos de entrenamiento balanceados.
El módulo Export produce un dataset JSONL versionado con una pista de auditoría completa. El dataset se transfiere a través de medios aprobados a la infraestructura de entrenamiento de la empresa, donde produce un modelo de clasificación que triagea automáticamente los correos electrónicos sospechosos entrantes — dirigiendo las amenazas más sofisticadas a los analistas senior primero.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.