
Clasificación de Catálogo de Productos de E-Commerce con IA: Modelos de Categorización Ajustados
Categorizar manualmente miles de SKUs es costoso e inconsistente. Un clasificador ajustado entrenado con tu taxonomía reduce el tiempo de categorización en un 80% y mejora la consistencia en todo tu catálogo.
Las marcas de e-commerce que agregan 100-500 nuevos SKUs por mes enfrentan un problema de gestión de catálogo: cada nuevo producto necesita ser categorizado, etiquetado, atribuido y colocado en la estructura de navegación correcta. Hecho manualmente, esto toma 5-15 minutos por producto — 8-75 horas por mes en mano de obra directa.
Un clasificador ajustado entrenado con tu taxonomía lo hace en segundos por producto, con más del 90% de precisión. Este es un entregable directo de agencia de IA: métricas claras de antes/después, tiempo de construcción rápido y una justificación obvia de retainer (los nuevos productos llegan cada mes).
Qué Hace el Clasificador
Entrada: Datos del producto (nombre, descripción, marca, cualquier atributo existente)
Salida: Clasificación en múltiples dimensiones:
- Categoría principal (Ropa > Hombres > Ropa exterior)
- Etiquetas secundarias (impermeable, aislada, empacable)
- Rango de género/talla
- Clasificación de material
- Nivel de precio
- Palabras clave de búsqueda
El modelo produce JSON estructurado que tu sistema de gestión de catálogo consume directamente.
Ejemplo:
Entrada:
Product: Arc'teryx Beta AR Jacket Men's
Description: All-round waterproof shell for mountain activities. GORE-TEX Pro fabric, fully seam-taped, helmet-compatible hood. 485g.
Salida:
{
"primary_category": "Clothing > Men's > Jackets & Coats > Rain Jackets",
"secondary_categories": ["Hiking", "Mountaineering", "Skiing"],
"attributes": {
"waterproof": true,
"material": "GORE-TEX Pro",
"insulation": "none",
"gender": "mens",
"weight_oz": 17.1,
"packable": true
},
"tags": ["waterproof", "shell", "gore-tex", "mountaineering", "packable", "alpine"],
"price_tier": "premium",
"meta_keywords": ["waterproof jacket mens", "gore-tex jacket", "mountain shell", "rain jacket hiking"]
}
Por Qué un Modelo Ajustado Supera a la IA Genérica
GPT-4 genérico con un prompt puede clasificar productos a un nivel básico. Los problemas:
- No conoce tu taxonomía. Tu tienda tiene una estructura de categorías específica con 3-4 niveles. La IA genérica inventa categorías que no existen en tu navegación.
- No conoce tu vocabulario de atributos. Tus definiciones de "nivel de precio", tus clasificaciones de material, tus etiquetas de actividad — son específicas de la tienda. La IA genérica adivina.
- No está calibrada para tus casos límite. Una chaqueta de plumón con carcasa impermeable ¿en qué categoría va? Un traje de baño para hombre vendido en una tienda de deportes al aire libre — ¿ropa de baño o equipo deportivo? Tus decisiones pasadas de catálogo codifican tu respuesta; un modelo ajustado la aprende.
Construyendo el Dataset
Fuente: Tu catálogo de productos ya clasificado — cada producto que ya has categorizado manualmente es un ejemplo de entrenamiento.
Objetivo de tamaño: 1,000-5,000 productos (cubriendo tu rango de categorías)
Construcción:
{"messages": [
{"role": "system", "content": "You are a product classification assistant for [Brand]. Classify products according to our taxonomy. Always output valid JSON matching the schema provided."},
{"role": "user", "content": "Classify this product:\nName: Patagonia Nano Puff Jacket Womens\nDescription: Lightweight insulated jacket with PrimaLoft Gold Insulation Eco. Wind resistant DWR finish. Packs into chest pocket. 9.5 oz."},
{"role": "assistant", "content": "{\"primary_category\": \"Clothing > Women's > Jackets & Coats > Insulated Jackets\", \"secondary_categories\": [\"Hiking\", \"Travel\", \"Skiing\"], \"attributes\": {\"waterproof\": false, \"material\": \"PrimaLoft Gold\", \"insulation\": \"synthetic\", \"gender\": \"womens\", \"weight_oz\": 9.5, \"packable\": true}, \"tags\": [\"insulated\", \"packable\", \"lightweight\", \"synthetic-fill\", \"primaloft\"], \"price_tier\": \"premium\", \"meta_keywords\": [\"insulated jacket women\", \"packable down jacket\", \"lightweight insulated jacket\"]}"}
]}
Incluye ejemplos de cada categoría en tu taxonomía. Apunta a 20-50 ejemplos por categoría de nivel superior.
Configuración de Entrenamiento
Para tareas de clasificación con salida JSON estructurada:
- Modelo base: Mistral 7B Instruct tiene buen rendimiento en tareas de salida estructurada
- LoRA rank: 8-16 (un rank menor funciona bien para clasificación)
- Épocas: 3-5 (las tareas de clasificación convergen rápidamente)
El modelo necesita aprender: (1) tu estructura de categorías, (2) tu vocabulario de atributos, (3) cómo producir JSON válido.
Evaluación
Reserva el 10% de tu dataset. Después del entrenamiento, ejecuta el conjunto de evaluación y mide:
Métrica principal: Asignación correcta de categoría principal (coincidencia exacta)
Métricas secundarias:
- Precisión de etiquetas (etiquetas asignadas que son correctas)
- Recuperación de etiquetas (etiquetas correctas que fueron asignadas)
- Validez JSON (100% de las salidas deberían ser parseables)
- Precisión de atributos (precisión de campos individuales)
Resultados típicos con un dataset bien construido de 2,000+ ejemplos: 88-94% de categoría principal correcta en el conjunto reservado.
Integración
Pipeline de clasificación por lotes para ingesta de nuevos productos:
import requests
import json
def classify_product(name: str, description: str) -> dict:
response = requests.post(
'http://your-ollama-server:11434/api/chat',
json={
"model": "product-classifier",
"messages": [
{
"role": "user",
"content": f"Classify this product:\nName: {name}\nDescription: {description}"
}
],
"stream": False
}
)
content = response.json()['message']['content']
try:
return json.loads(content)
except json.JSONDecodeError:
# Extract JSON from response if wrapped in text
import re
json_match = re.search(r'\{.*\}', content, re.DOTALL)
if json_match:
return json.loads(json_match.group())
raise ValueError(f"Could not parse classification output: {content}")
# Process new products CSV
import csv
with open('new_products.csv') as f:
for row in csv.DictReader(f):
classification = classify_product(row['name'], row['description'])
# Push to your catalog management system
update_catalog(row['sku'], classification)
Ejecuta esto como un trabajo nocturno en las importaciones de nuevos productos. La revisión de agentes atrapa el 6-12% que necesita corrección manual.
Estructura de Retainer para Este Caso de Uso
El retainer para clasificación de catálogo se justifica por:
- Nuevos productos llegan continuamente → el modelo los procesa automáticamente
- Cambios de taxonomía (nuevas categorías, navegación reestructurada) → el modelo necesita re-entrenamiento
- Monitoreo de precisión → detectando desviación de clasificación antes de que contamine tu catálogo
Paquete de retainer: $300-500/mes
- Incluye: Procesamiento mensual por lotes de nuevos productos, re-entrenamiento trimestral con nuevos ejemplos, panel de monitoreo de precisión, pipeline de correcciones para retroalimentación de agentes
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura Adicional
- Oportunidad de Agencia de IA para E-Commerce — La visión general completa de la vertical de e-commerce
- IA para Shopify Sin Costos de API — Integración de modelos locales para Shopify
- IA de Servicio al Cliente para E-Commerce — Automatización de tickets de soporte
- Gestionar Múltiples Modelos Ajustados — Gestión de modelos multi-cliente
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

E-Commerce Customer Service AI: Build a Fine-Tuned Support Model
Replace expensive GPT-4 support calls with a fine-tuned model trained on your ticket history. Here's the full build: data prep, training, deployment, and accuracy targets.

Fine-Tune a Product Recommendation Model for E-Commerce: Full Walkthrough
Generic recommendation engines miss semantic product relationships. Here's how to fine-tune a model on your catalog and purchase history to build recommendations that increase average order value.

Fine-Tune a Listing Description AI for Real Estate: Step-by-Step
Real estate agents spend 30-45 minutes writing each listing. A fine-tuned model trained on the brokerage's own listings generates on-brand descriptions in 2 minutes. Here's how to build it.