Clasificación de Catálogo de Productos de E-Commerce con IA: Modelos de Categorización Ajustados

Las marcas de e-commerce que agregan 100-500 nuevos SKUs por mes enfrentan un problema de gestión de catálogo: cada nuevo producto necesita ser categorizado, etiquetado, atribuido y colocado en la estructura de navegación correcta. Hecho manualmente, esto toma 5-15 minutos por producto — 8-75 horas por mes en mano de obra directa.

Un clasificador ajustado entrenado con tu taxonomía lo hace en segundos por producto, con más del 90% de precisión. Este es un entregable directo de agencia de IA: métricas claras de antes/después, tiempo de construcción rápido y una justificación obvia de retainer (los nuevos productos llegan cada mes).

Qué Hace el Clasificador

Entrada: Datos del producto (nombre, descripción, marca, cualquier atributo existente)

Salida: Clasificación en múltiples dimensiones:

Categoría principal (Ropa > Hombres > Ropa exterior)
Etiquetas secundarias (impermeable, aislada, empacable)
Rango de género/talla
Clasificación de material
Nivel de precio
Palabras clave de búsqueda

El modelo produce JSON estructurado que tu sistema de gestión de catálogo consume directamente.

Ejemplo:

Entrada:

Product: Arc'teryx Beta AR Jacket Men's
Description: All-round waterproof shell for mountain activities. GORE-TEX Pro fabric, fully seam-taped, helmet-compatible hood. 485g.

Salida:

{
  "primary_category": "Clothing > Men's > Jackets & Coats > Rain Jackets",
  "secondary_categories": ["Hiking", "Mountaineering", "Skiing"],
  "attributes": {
    "waterproof": true,
    "material": "GORE-TEX Pro",
    "insulation": "none",
    "gender": "mens",
    "weight_oz": 17.1,
    "packable": true
  },
  "tags": ["waterproof", "shell", "gore-tex", "mountaineering", "packable", "alpine"],
  "price_tier": "premium",
  "meta_keywords": ["waterproof jacket mens", "gore-tex jacket", "mountain shell", "rain jacket hiking"]
}

Por Qué un Modelo Ajustado Supera a la IA Genérica

GPT-4 genérico con un prompt puede clasificar productos a un nivel básico. Los problemas:

No conoce tu taxonomía. Tu tienda tiene una estructura de categorías específica con 3-4 niveles. La IA genérica inventa categorías que no existen en tu navegación.
No conoce tu vocabulario de atributos. Tus definiciones de "nivel de precio", tus clasificaciones de material, tus etiquetas de actividad — son específicas de la tienda. La IA genérica adivina.
No está calibrada para tus casos límite. Una chaqueta de plumón con carcasa impermeable ¿en qué categoría va? Un traje de baño para hombre vendido en una tienda de deportes al aire libre — ¿ropa de baño o equipo deportivo? Tus decisiones pasadas de catálogo codifican tu respuesta; un modelo ajustado la aprende.

Construyendo el Dataset

Fuente: Tu catálogo de productos ya clasificado — cada producto que ya has categorizado manualmente es un ejemplo de entrenamiento.

Objetivo de tamaño: 1,000-5,000 productos (cubriendo tu rango de categorías)

Construcción:

{"messages": [
  {"role": "system", "content": "You are a product classification assistant for [Brand]. Classify products according to our taxonomy. Always output valid JSON matching the schema provided."},
  {"role": "user", "content": "Classify this product:\nName: Patagonia Nano Puff Jacket Womens\nDescription: Lightweight insulated jacket with PrimaLoft Gold Insulation Eco. Wind resistant DWR finish. Packs into chest pocket. 9.5 oz."},
  {"role": "assistant", "content": "{\"primary_category\": \"Clothing > Women's > Jackets & Coats > Insulated Jackets\", \"secondary_categories\": [\"Hiking\", \"Travel\", \"Skiing\"], \"attributes\": {\"waterproof\": false, \"material\": \"PrimaLoft Gold\", \"insulation\": \"synthetic\", \"gender\": \"womens\", \"weight_oz\": 9.5, \"packable\": true}, \"tags\": [\"insulated\", \"packable\", \"lightweight\", \"synthetic-fill\", \"primaloft\"], \"price_tier\": \"premium\", \"meta_keywords\": [\"insulated jacket women\", \"packable down jacket\", \"lightweight insulated jacket\"]}"}
]}

Incluye ejemplos de cada categoría en tu taxonomía. Apunta a 20-50 ejemplos por categoría de nivel superior.

Configuración de Entrenamiento

Para tareas de clasificación con salida JSON estructurada:

Modelo base: Mistral 7B Instruct tiene buen rendimiento en tareas de salida estructurada
LoRA rank: 8-16 (un rank menor funciona bien para clasificación)
Épocas: 3-5 (las tareas de clasificación convergen rápidamente)

El modelo necesita aprender: (1) tu estructura de categorías, (2) tu vocabulario de atributos, (3) cómo producir JSON válido.

Evaluación

Reserva el 10% de tu dataset. Después del entrenamiento, ejecuta el conjunto de evaluación y mide:

Métrica principal: Asignación correcta de categoría principal (coincidencia exacta)

Métricas secundarias:

Precisión de etiquetas (etiquetas asignadas que son correctas)
Recuperación de etiquetas (etiquetas correctas que fueron asignadas)
Validez JSON (100% de las salidas deberían ser parseables)
Precisión de atributos (precisión de campos individuales)

Resultados típicos con un dataset bien construido de 2,000+ ejemplos: 88-94% de categoría principal correcta en el conjunto reservado.

Integración

Pipeline de clasificación por lotes para ingesta de nuevos productos:

import requests
import json

def classify_product(name: str, description: str) -> dict:
    response = requests.post(
        'http://your-ollama-server:11434/api/chat',
        json={
            "model": "product-classifier",
            "messages": [
                {
                    "role": "user",
                    "content": f"Classify this product:\nName: {name}\nDescription: {description}"
                }
            ],
            "stream": False
        }
    )

    content = response.json()['message']['content']

    try:
        return json.loads(content)
    except json.JSONDecodeError:
        # Extract JSON from response if wrapped in text
        import re
        json_match = re.search(r'\{.*\}', content, re.DOTALL)
        if json_match:
            return json.loads(json_match.group())
        raise ValueError(f"Could not parse classification output: {content}")

# Process new products CSV
import csv
with open('new_products.csv') as f:
    for row in csv.DictReader(f):
        classification = classify_product(row['name'], row['description'])
        # Push to your catalog management system
        update_catalog(row['sku'], classification)

Ejecuta esto como un trabajo nocturno en las importaciones de nuevos productos. La revisión de agentes atrapa el 6-12% que necesita corrección manual.

Estructura de Retainer para Este Caso de Uso

El retainer para clasificación de catálogo se justifica por:

Nuevos productos llegan continuamente → el modelo los procesa automáticamente
Cambios de taxonomía (nuevas categorías, navegación reestructurada) → el modelo necesita re-entrenamiento
Monitoreo de precisión → detectando desviación de clasificación antes de que contamine tu catálogo

Paquete de retainer: $300-500/mes

Incluye: Procesamiento mensual por lotes de nuevos productos, re-entrenamiento trimestral con nuevos ejemplos, panel de monitoreo de precisión, pipeline de correcciones para retroalimentación de agentes

Lectura Adicional

Oportunidad de Agencia de IA para E-Commerce — La visión general completa de la vertical de e-commerce
IA para Shopify Sin Costos de API — Integración de modelos locales para Shopify
IA de Servicio al Cliente para E-Commerce — Automatización de tickets de soporte
Gestionar Múltiples Modelos Ajustados — Gestión de modelos multi-cliente

Clasificación de Catálogo de Productos de E-Commerce con IA: Modelos de Categorización Ajustados

Qué Hace el Clasificador

Por Qué un Modelo Ajustado Supera a la IA Genérica

Construyendo el Dataset

Configuración de Entrenamiento

Evaluación

Integración

Estructura de Retainer para Este Caso de Uso

Lectura Adicional

Ship AI that runs on your users' devices.

Keep reading

IA de Servicio al Cliente para E-Commerce: Construye un Modelo de Soporte Ajustado

Ajusta una IA de descripciones de propiedades para bienes raíces: paso a paso

Ajusta un modelo de recomendación de productos para e-commerce: guía completa