Extendiendo OpenClaw con Skills Personalizados Impulsados por Modelos Ajustados

El sistema de skills de OpenClaw es una de sus características más poderosas, y actualmente su mayor vulnerabilidad.

El marketplace ClawHub fue diseñado para que la comunidad compartiera capacidades reutilizables: un skill para gestionar calendarios, otro para procesar facturas, otro para monitorear la salud del servidor. En la práctica, la campaña ClawHavoc encontró 341 skills maliciosos distribuyendo el Atomic macOS Stealer, y escaneos posteriores identificaron más de 800 entradas comprometidas, aproximadamente el 20% del registro completo.

La cadena de suministro está envenenada. Pero el concepto de extender OpenClaw con capacidades específicas de dominio es sólido. La solución no es evitar los skills, sino construir los tuyos propios, respaldados por modelos ajustados con tus datos de dominio en lugar de llamadas genéricas a APIs.

Por Qué los Skills Personalizados Superan a los Skills de la Comunidad

1. Sin Riesgo de Cadena de Suministro

Cuando construyes un skill tú mismo, controlas cada línea de código y cada llamada al modelo. No hay dependencia de autores de terceros, no hay riesgo de actualizaciones maliciosas, no hay necesidad de auditar el código de otra persona cada vez que publican una nueva versión.

2. Mejor Rendimiento

Los skills de la comunidad están construidos para funcionar de forma genérica: usan prompts de sistema amplios para manejar los datos de cualquier usuario. Un skill personalizado respaldado por un modelo ajustado está especializado para tu tarea específica, tu formato de datos específico y tus requisitos de salida específicos.

3. Los Datos Se Quedan Locales

Si combinas skills personalizados con un modelo local ajustado, los datos procesados por el skill nunca salen de tu infraestructura. Los skills de la comunidad típicamente enrutan a través de cualquier API en la nube con la que OpenClaw esté configurado, lo que significa que tus datos fluyen a través de servidores de terceros incluso cuando el skill en sí es inofensivo.

Anatomía de un Skill Personalizado de OpenClaw

Un skill de OpenClaw es una capacidad autocontenida con entradas definidas, una función de procesamiento y salidas estructuradas. En su núcleo, cada skill es una plantilla de prompt que instruye al modelo subyacente sobre cómo manejar un tipo específico de tarea.

Los componentes clave:

Disparador: Cómo se invoca el skill (palabra clave, coincidencia de patrón o detección automática)
Recopilación de contexto: Qué datos recopila el skill antes de llamar al modelo
Interacción con el modelo: La plantilla de prompt y el formato de salida esperado
Acción: Qué hace el skill con la respuesta del modelo

Cuando el modelo subyacente está ajustado para la tarea específica, la plantilla de prompt puede ser más simple (se necesitan menos instrucciones), la salida es más consistente (menos desviaciones de formato) y la precisión mejora (el conocimiento de dominio está en los pesos, no metido a la fuerza en prompts de sistema).

Cinco Skills Personalizados que Vale la Pena Construir

1. Skill de Triaje de Tickets de Soporte

Qué hace: Monitorea los canales de soporte entrantes, clasifica tickets por categoría y prioridad, los enruta al equipo apropiado y redacta respuestas iniciales.

Por qué importa el fine-tuning: Tu taxonomía de soporte es única. La diferencia entre "problema de facturación" y "gestión de suscripción" depende de la estructura específica de tu producto. Un modelo ajustado entrenado con más de 500 tickets categorizados aprende estas distinciones con precisión; un modelo genérico adivina a partir de una descripción.

Datos de entrenamiento: Exporta tus últimos 6 meses de tickets de soporte con sus categorías, prioridades y respuestas iniciales. Formatea como pares de instrucción/respuesta.

Mejora esperada: La precisión de categorización típicamente salta del 70-75% (modelo genérico con prompt de sistema) al 90-95% (modelo ajustado).

2. Skill de Revisión de Contratos

Qué hace: Procesa contratos subidos, señala cláusulas desfavorables, extrae términos clave (fechas, montos, obligaciones) y genera un resumen con evaluación de riesgo.

Por qué importa el fine-tuning: "Desfavorable" es subjetivo y específico del dominio. Lo que cuenta como cláusula de riesgo para un acuerdo de proveedor SaaS es diferente de un subcontrato de construcción. El fine-tuning con el historial de revisión de contratos de tu organización enseña al modelo tus criterios de riesgo específicos.

Datos de entrenamiento: 200-500 contratos revisados con cláusulas anotadas (señaladas/no señaladas) y salidas de resumen.

Mejora esperada: La precisión de señalización de cláusulas alcanza el 90% con fine-tuning, comparado con el 65-75% con modelos genéricos con prompt engineering.

3. Skill de Generación de Informes Diarios

Qué hace: Extrae datos de fuentes configuradas (dashboards, bases de datos, APIs), genera un informe narrativo en tu formato de plantilla y lo distribuye a los interesados a través del canal apropiado.

Por qué importa el fine-tuning: Consistencia del formato del informe. Un modelo ajustado ha visto cientos de tus informes y replica la estructura exacta, el tono y el estilo analítico cada vez. Los modelos genéricos varían su formato de salida de forma impredecible.

Datos de entrenamiento: 100-300 informes anteriores emparejados con los datos de entrada que los generaron.

Mejora esperada: La adherencia a la plantilla pasa del 80-85% a más del 97%.

4. Skill de Borrador de Email

Qué hace: Analiza emails entrantes, identifica el tipo de respuesta requerido, redacta una respuesta que coincida con el tono y nivel de detalle apropiados, y la pone en cola para revisión humana antes de enviar.

Por qué importa el fine-tuning: Cada persona y organización tiene una voz de email distinta. El fine-tuning con tus emails enviados captura tu estilo de comunicación: nivel de formalidad, convenciones de saludo, preferencias de cierre, cómo manejas diferentes tipos de relación (cliente vs. colega vs. proveedor).

Datos de entrenamiento: 500-1,000 de tus emails enviados con sus mensajes entrantes desencadenantes.

Mejora esperada: La tasa de aceptación de borradores (enviados sin ediciones) típicamente se duplica del 30-40% al 60-75%.

5. Skill de Extracción y Normalización de Datos

Qué hace: Procesa documentos entrantes (facturas, órdenes de compra, formularios de ingreso) y extrae datos estructurados en un esquema consistente para sistemas posteriores.

Por qué importa el fine-tuning: Cumplimiento del esquema. Cuando OpenClaw alimenta datos extraídos a bases de datos, APIs u hojas de cálculo, cada desviación del esquema esperado causa un error. Los modelos ajustados logran más del 99% de cumplimiento de esquema porque han visto el formato de salida exacto cientos de veces durante el entrenamiento.

Datos de entrenamiento: 200-500 documentos con sus correspondientes salidas de datos estructurados.

Mejora esperada: Cumplimiento del esquema del 79% al 99%.

El Proceso de Construcción

Para cada skill personalizado:

1. Recopila Datos de Entrenamiento

Exporta ejemplos de la tarea desde tus flujos de trabajo existentes. El formato debe ser:

{
  "instruction": "Classify this support ticket and draft a response",
  "input": "[ticket content]",
  "output": "Category: Billing\nPriority: Medium\nResponse: [draft response]"
}

Apunta a más de 500 ejemplos. Más datos generalmente significa mejor rendimiento, pero incluso 200 ejemplos de alta calidad producen una mejora significativa sobre un modelo genérico.

2. Ajusta el Modelo

Sube tu dataset a Ertas Studio. Selecciona un modelo base: Qwen 2.5 7B o Llama 3.3 8B funcionan bien para la mayoría de tareas de skills. Ejecuta un trabajo de fine-tuning con LoRA (rank 16, 3 epochs es un punto de partida confiable).

Evalúa contra un conjunto de prueba separado. Itera si la precisión está por debajo de tu umbral.

Exporta como GGUF.

3. Despliega Localmente

Despliega el modelo GGUF vía Ollama. Configura OpenClaw para usar tu modelo local para este skill.

4. Construye el Skill

Escribe la definición del skill: condiciones de activación, lógica de recopilación de contexto, plantilla de prompt y acciones de salida. Debido a que el modelo está ajustado para la tarea, la plantilla de prompt puede ser mínima. No necesitas gastar párrafos de prompt de sistema describiendo el formato de salida o las reglas de dominio; el modelo ya los conoce.

5. Prueba e Itera

Ejecuta el skill contra datos reales. Recopila casos donde el modelo tiene un rendimiento inferior. Agrégalos como ejemplos de entrenamiento para la siguiente iteración de fine-tuning.

Un Modelo o Varios

Para la mayoría de equipos, un solo modelo ajustado manejando múltiples tipos de skills funciona bien si las tareas comparten un dominio. Una agencia que gestiona comunicaciones con clientes podría entrenar un modelo para redacción de emails, triaje de tickets y generación de informes para un solo cliente.

Cuando las tareas son significativamente diferentes, como revisión de contratos vs. generación de código vs. resumen de notas médicas, modelos ajustados separados por tipo de skill funcionan mejor. Ollama soporta la carga de múltiples modelos, y OpenClaw puede enrutar diferentes skills a diferentes endpoints de modelo.

El enfoque de adaptadores LoRA es particularmente eficiente aquí: comparte un solo modelo base, carga adaptadores específicos de tarea por skill. El overhead de almacenamiento es mínimo (50-200MB por adaptador), y el cambio de adaptadores es rápido.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

La Ventaja de Seguridad

Al construir skills personalizados respaldados por modelos locales ajustados, eliminas dos vectores de ataque simultáneamente:

Riesgo de cadena de suministro: Sin dependencia de skills creados por la comunidad que pueden contener código malicioso
Riesgo de exfiltración de datos: Sin datos transmitidos a APIs en la nube durante la ejecución del skill

Tus skills se ejecutan completamente en tu infraestructura, procesando tus datos a través de tus modelos. La única dependencia externa son los pesos del modelo base que descargaste una vez.

En un panorama donde el 20% del registro de skills de OpenClaw fue comprometido, construir los tuyos propios no es solo una optimización de rendimiento, es un requisito de seguridad.