
La Destilación de Modelos No Es Robo — Pero Aquí Te Explicamos Por Qué Deberías Hacerlo Tú Mismo
La destilación de modelos es una técnica legítima de ML — todos los laboratorios importantes la usan. El incidente de DeepSeek fue una violación contractual, no un robo. Aquí te explicamos por qué ajustar modelos open-source con tus propios datos es el camino ético, legal y estratégicamente sólido.
La palabra "destilación" se volvió controversial de la noche a la mañana. Después de que Anthropic reveló que DeepSeek, Moonshot AI y MiniMax habían usado 24,000 cuentas para extraer sistemáticamente las capacidades de Claude, la técnica fue enmarcada en titulares como algo entre espionaje y robo.
Ese encuadre es engañoso. La destilación es una de las técnicas más ampliamente usadas en machine learning. El problema no es el método — es hacia dónde lo apuntas.
Entender esta distinción importa para todo equipo que construye con IA, porque la misma técnica que metió en problemas a tres laboratorios chinos es también el camino más limpio para poseer capacidades de IA que nadie te puede quitar.
Destilación 101: Qué Es Realmente
La destilación de conocimiento fue introducida en un paper de 2015 por Geoffrey Hinton, Oriol Vinyals y Jeff Dean. La idea es simple: toma un modelo "maestro" grande y costoso y entrena un modelo "estudiante" más pequeño y barato para imitar su comportamiento.
El maestro genera salidas para un conjunto de entradas. El estudiante aprende a reproducir esas salidas. El resultado es un modelo más pequeño que captura un subconjunto útil de las capacidades del maestro a un costo de cómputo significativamente menor.
Esta no es una técnica marginal. Es fundamental para cómo opera la industria de IA:
- OpenAI destila sus propios modelos para crear GPT-4o-mini y otras variantes más baratas
- Google destila Gemini Ultra en Gemini Flash para aplicaciones de baja latencia
- Anthropic usa destilación interna para producir versiones más ligeras de Claude
- Meta publicó Llama específicamente para que la comunidad pudiera construir sobre él — incluyendo a través de destilación
Todo laboratorio con un modelo de frontera también tiene modelos más pequeños derivados de él. La destilación es cómo llegan ahí.
El Espectro de Legitimidad
No toda destilación es igual. Hay un espectro, y dónde te ubicas en él determina si estás haciendo ingeniería de ML estándar o violando los términos de servicio de alguien.
Nivel 1: Open-Source a Open-Source (Completamente Permitido)
Tomas Llama 3 70B y usas sus salidas para entrenar una variante de Llama 3 7B. La licencia de Meta permite esto explícitamente siempre que divulgues el origen del modelo. Las licencias de Qwen y Mistral tienen provisiones similares.
Esto es el equivalente a leer un libro de texto y escribir tus propias notas. El conocimiento está libremente disponible. La aplicación es tuya.
Nivel 2: API Cerrada a Tu Propio Modelo (Violación de ToS)
Tomas salidas de Claude o GPT-4 a escala y las usas para entrenar un modelo competidor. El proceso técnico es idéntico al Nivel 1. Pero los Términos de Servicio del proveedor prohíben usar salidas como datos de entrenamiento para modelos competidores.
Aquí es donde operaron DeepSeek, Moonshot y MiniMax. Usaron la API como fue diseñada, recibieron salidas y reutilizaron esas salidas de una manera que los ToS prohíben.
Nivel 3: Explotación de Acceso Propietario (Robo)
Obtienes pesos del modelo a través de acceso no autorizado — una brecha de datos, un insider, ingeniería inversa — y los usas directamente. Esto es robo directo de propiedad intelectual, potencialmente criminal.
La situación de DeepSeek se ubica claramente en el Nivel 2. No robaron pesos. No hackearon sistemas. Usaron la API, pagaron por el acceso y usaron las salidas de una manera que los ToS de Anthropic prohíben. El propio blog de Anthropic reconoció que la destilación es "un método de entrenamiento ampliamente usado y legítimo" — el problema fue contractual, no criminal. Incluso el análisis del South China Morning Post señaló que Anthropic reconoció que "la técnica de destilación en sí no era ilegal." Es una violación de ToS, no un atraco — pero esa distinción no evitó que la historia fuera enmarcada como algo más dramático.
También vale la pena señalar el alcance de estas prohibiciones. La Política de Uso de Anthropic no solo prohíbe entrenar modelos competidores — prohíbe usar salidas para entrenar cualquier modelo de IA sin autorización previa. Esto significa que la misma cláusula que aplica a la extracción a escala industrial de DeepSeek también aplica, técnicamente, a un equipo SaaS de cinco personas ajustando un pequeño clasificador con respuestas de API registradas. Los Términos de Servicio no hacen distinción basada en escala, intención o si eres un competidor.
Por Qué Todos los Laboratorios Importantes Destilan
El hecho de que OpenAI, Anthropic, Google y Meta todos destilen sus propios modelos debería decirte algo: la técnica produce valor real.
La destilación interna permite a los laboratorios ofrecer variantes de modelos más baratas sin entrenar desde cero. GPT-4o-mini no es un modelo separado desarrollado independientemente — hereda capacidades de GPT-4o a través de destilación, luego se optimiza para costo y latencia.
Esto crea una asimetría estratégica. Los laboratorios que construyen modelos de frontera pueden destilarlos en una línea de productos. Todos los demás tienen que construir su propio modelo de frontera (miles de millones de dólares) o encontrar otra manera de obtener capacidades similares en un paquete más pequeño.
Esa "otra manera" es lo que impulsó la campaña de DeepSeek. No podían destilar legalmente a Claude. No podían permitirse construir un equivalente de Claude desde cero en el mismo plazo. Así que encontraron un camino intermedio que resultó violar los ToS de Anthropic.
La lección no es que la destilación esté mal. La lección es que destilar desde APIs cerradas es estratégicamente frágil — incluso si logras hacerlo sin ser detectado.
Por Qué Destilar Desde APIs Cerradas Es una Mala Estrategia
Deja la ética de lado por un momento. Incluso si pudieras destilar desde Claude o GPT-4 sin consecuencias, es una mala elección estratégica.
Obtienes capacidades genéricas, no expertise de dominio. Un modelo destilado de GPT-4 sabe lo que GPT-4 sabe — que es todo y nada en particular. No entenderá la terminología de tus clientes, los casos edge de tu industria o los requisitos específicos de tu producto. Obtienes una versión más barata de un generalista, no un especialista.
Heredas las debilidades del maestro. Si GPT-4 alucina sobre ciertos temas, tu modelo destilado también lo hará. Si Claude tiene puntos ciegos en tu dominio, esos puntos ciegos se transfieren al estudiante. No puedes arreglar lo que no controlas.
No puedes iterar. Cuando las necesidades de tu negocio cambian, no puedes reentrenar al maestro. No puedes agregar nuevos ejemplos a su set de entrenamiento. No puedes ajustar su comportamiento para nuevos casos de uso. Estás atascado con una captura de las capacidades de alguien más en un solo punto en el tiempo.
Estás a un sistema de detección de perderlo todo. Anthropic detectó estas campañas. Detectarán más. La tecnología de detección solo mejorará. Construir una dependencia de negocio sobre una técnica que viola los ToS de tu proveedor es construir sobre tiempo prestado.
Ajusta modelos open-source con tus propios datos — sin violaciones de ToS, sin dependencia de proveedor.