De computadoras del tamaño de una habitación a IA en tu bolsillo: el paralelo del fine-tuning

En 1946, ENIAC ocupaba 1,800 pies cuadrados, pesaba 30 toneladas y realizaba 5,000 operaciones por segundo. Requería 20 personas para operarla y consumía 150 kilovatios de potencia.

En 2026, el procesador de tu teléfono ejecuta billones de operaciones por segundo, cabe en un chip más pequeño que tu uña y consume milivatios. También tiene una unidad de procesamiento neural capaz de ejecutar un modelo de lenguaje de mil millones de parámetros.

El viaje de ENIAC al iPhone tomó unos 60 años. El viaje de la inferencia de IA solo en la nube a la IA en el dispositivo está ocurriendo en unos 6.

Y el mismo patrón que hizo útil cada generación de computación — el software de aplicación — se está repitiendo. Excepto que esta vez, el "software de aplicación" son los modelos ajustados.

El patrón: el hardware se encoge, los usuarios se multiplican

Cada gran transición de hardware de computación sigue el mismo arco:

Era 1: Centralizada (1950s-1970s)

Los mainframes servían a grandes instituciones. Unos pocos miles de computadoras existían en todo el mundo. Los usuarios iban a la computadora — literalmente, enviando tarjetas perforadas.

Tamaño de mercado: Miles de máquinas. Decenas de miles de usuarios.

Era 2: Departamental (1970s-1980s)

Las minicomputadoras (DEC VAX, HP 3000) llevaron la computación a los departamentos dentro de las empresas. Más pequeñas, más baratas, más accesibles — pero aún recursos compartidos gestionados por especialistas.

Tamaño de mercado: Cientos de miles de máquinas. Millones de usuarios.

Era 3: Personal (1980s-2000s)

Las PCs pusieron una computadora en cada escritorio. El hardware era estandarizado y accesible. ¿Qué lo hizo útil? El software. WordPerfect, Lotus 1-2-3, Excel, el navegador web. Sin aplicaciones, una PC era un pisapapeles caro.

Tamaño de mercado: Miles de millones de máquinas. Miles de millones de usuarios.

Era 4: Móvil (2007-presente)

Los smartphones pusieron una computadora en cada bolsillo. El hardware era lo suficientemente potente. ¿Qué desbloqueó el mercado? La App Store. Millones de aplicaciones especializadas, cada una ajustada (literalmente) para un caso de uso específico.

Tamaño de mercado: Más de 6 mil millones de dispositivos. Más de 5 mil millones de usuarios.

Cada generación hizo el hardware 10-100x más barato y 10-100x más numeroso. Y cada generación solo alcanzó su potencial cuando una capa de software emergió para especializar el hardware de propósito general para tareas específicas.

La IA está repitiendo este arco — comprimido

La inferencia de IA sigue la misma trayectoria, pero a velocidad acelerada:

Etapa 1: Centros de datos en la nube (2020-2024)

La inferencia de IA ocurría en centros de datos centralizados. Los usuarios accedían a través de APIs — OpenAI, Anthropic, Google. Enviabas tu "tarjeta perforada" (un prompt) y recibías un resultado de vuelta. El cómputo era costoso, centralizado y controlado por unos pocos proveedores.

Esta es la era mainframe de la IA.

Etapa 2: Servidores de borde y GPUs locales (2024-2026)

Herramientas como Ollama, llama.cpp y LM Studio trajeron la IA al hardware local. Las GPUs de consumo y Apple Silicon ahora pueden ejecutar modelos de 7B a 70B parámetros. El hardware está en tu escritorio, el modelo está en tu disco.

Esta es la era de la minicomputadora/PC de la IA. Más accesible, pero aún requiere conocimiento técnico y hardware decente.

Etapa 3: Silicio dedicado (2026+)

Empresas como Taalas están construyendo chips de propósito específico que ejecutan modelos concretos a velocidad extraordinaria. El HC1 ejecuta Llama 3.1 8B a 17,000 tokens/seg — más rápido que cualquier GPU, a una fracción del costo y la potencia.

Esta es la era temprana del microprocesador de la IA. Especializado, rápido, cada vez más barato.

Etapa 4: En el dispositivo (próximamente)

Chips de IA integrados en cada dispositivo — teléfonos, laptops, electrodomésticos, vehículos, dispositivos médicos, equipos industriales. No como un accesorio, sino como un componente central. Cada dispositivo se vuelve "inteligente" por defecto.

Esta es la era del smartphone de la IA. Estamos en el umbral.

La capa de software que desbloquea cada generación

Aquí está el patrón dentro del patrón: el hardware por sí solo nunca creó el mercado. El software lo hizo.

Los mainframes necesitaban programas COBOL escritos por especialistas
Las PCs necesitaban aplicaciones para consumidores (y eventualmente la web)
Los smartphones necesitaban la App Store — millones de apps especializadas

El hardware de IA necesita modelos ajustados.

Un modelo base genérico ejecutándose en silicio dedicado es como un smartphone sin apps. Puede hacer cosas básicas — responder preguntas generales, generar texto genérico — pero no puede hacer lo tuyo. No entiende tu terminología médica. No conoce tu dominio legal. No puede clasificar tus tickets de soporte al cliente.

Los adaptadores LoRA ajustados son las "apps" de la era del hardware de IA.

Considera el paralelo:

Era de computación	Hardware	Capa de software	Lo que desbloqueó
PC	Procesadores x86	Aplicaciones de escritorio	Productividad para todos
Móvil	Procesadores ARM	Apps móviles (App Store)	Computación en cada bolsillo
IA	Chips de inferencia (GPU, ASIC)	Modelos ajustados (adaptadores LoRA)	IA específica de dominio en todas partes

La App Store no solo distribuyó software — creó un marketplace donde cualquiera podía construir herramientas especializadas para audiencias específicas. Las plataformas de fine-tuning cumplen la misma función para la IA: permiten que cualquiera cree un modelo especializado para su dominio específico, sin necesidad de construir un modelo desde cero.

Por qué la ventana importa

En cada transición de hardware, hay una ventana donde el hardware está listo pero el ecosistema de software aún se está formando. Los equipos que construyen durante esta ventana capturan el mercado.

Apple lanzó la App Store en 2008, un año después del iPhone. Los primeros desarrolladores de apps prácticamente no tenían competencia. Para 2010, el mercado estaba saturado.
La web era navegable en 1993 (navegador Mosaic). Las empresas que construyeron sitios web en 1995-1998 establecieron presencias online que definieron categorías. Para 2005, cada competidor se había puesto al día.

El hardware de inferencia de IA está en esa ventana ahora mismo:

Los NPUs de consumo se están enviando en cientos de millones de dispositivos
Se proyecta que el hardware de IA en el borde alcance $59 mil millones para 2030
Los ASICs de IA dedicados como el HC1 están demostrando rendimiento de grado de producción
Los modelos de pesos abiertos (Llama, Qwen, Gemma) proporcionan la capa base

¿Qué falta? Millones de modelos ajustados para millones de casos de uso específicos. Los equipos que construyan esos modelos ahora serán dueños de la "app store" de la era del hardware de IA.

Lo que esto significa en la práctica

Para desarrolladores indie

Ajusta un modelo pequeño en el dominio de tu producto hoy. Cuando la IA en el dispositivo se vuelva estándar (ya está comenzando), tu modelo estará listo para enviarse como parte de tu app — sin dependencia de la nube, sin costo por consulta, sin preocupaciones de privacidad.

Para agencias

Construye una biblioteca de adaptadores LoRA por cliente. A medida que el hardware se vuelve más barato y distribuido, estarás desplegando modelos de IA especializados en la infraestructura del cliente — no gestionando suscripciones de API.

Para empresas

La conversación de cumplimiento cambia completamente con la IA en el dispositivo. Un modelo ajustado ejecutándose en hardware en tu instalación no es un riesgo de privacidad de datos — es una solución de privacidad de datos. Comienza a construir los modelos ajustados ahora para que estén validados cuando tu adquisición de hardware se ponga al día.

Para todos

Aprende a hacer fine-tuning. No porque sea técnicamente interesante (lo es), sino porque es la habilidad que hace útil cada generación de hardware de IA. Así como aprender a programar hizo útiles las PCs y aprender a crear apps hizo útiles los smartphones.

La jugada de plataforma

Si los modelos ajustados son las "apps" y el hardware de IA es el "teléfono," entonces las plataformas de fine-tuning son la "app store."

Eso es lo que Ertas está construyendo. Una plataforma donde cualquiera — independientemente de su experiencia en ML — puede ajustar modelos de pesos abiertos para su dominio específico. Sube un dataset. Entrena visualmente. Exporta como GGUF o adaptador LoRA. Despliega en cualquier lugar.

El modelo que ajustas hoy se ejecuta en una GPU. Mañana se ejecuta en silicio dedicado. Eventualmente, se ejecuta en un chip en el dispositivo de tu cliente. El fine-tuning es la constante; el hardware es la variable.

La ventana está abierta. Construye ahora.