AI en el Edge Empresarial: Modelos Ajustados en Plantas Industriales, Clinicas y Sitios de Campo

Edge AI significa ejecutar modelos de AI en dispositivos en el punto donde se generan los datos y se toman las decisiones — no en un data center, no en la nube, sino en la camara de la planta industrial, la tablet de la clinica, el dispositivo ruggedizado del inspector de campo, el escaner de inventario de la tienda.

Este no es un concepto nuevo. Los sistemas de control industrial han ejecutado inferencia local durante decadas. Lo que ha cambiado es lo que es posible en el edge. Modelos de lenguaje cuantizados que caben en 4 GB de RAM. Modelos de vision que corren a 30 FPS en un dispositivo de $500. Modelos de NLP que transcriben y clasifican texto en tiempo real en una tablet sin conectividad de red.

Se proyecta que el gasto global en edge computing alcance los $380 mil millones para 2028, creciendo a un CAGR del 14%. Ese numero refleja un cambio estructural: las empresas estan moviendo la inferencia de infraestructura cloud centralizada a dispositivos edge distribuidos, impulsadas por requisitos de latencia, restricciones de soberania de datos, limitaciones de conectividad y costos.

La pieza que la mayoria de los proveedores ignora es lo que hace que el edge AI realmente funcione para casos de uso empresarial. No es el hardware. No es el runtime de inferencia. Es el modelo ajustado — un modelo pequeno entrenado con datos especificos del dominio que realiza una tarea lo suficientemente bien para uso en produccion, dentro de las restricciones de computo y memoria del hardware edge.

Por Que Edge, No Nube

La suposicion predeterminada en AI empresarial es el despliegue en la nube: enviar datos a una API centralizada, recibir predicciones, integrar los resultados. Esto funciona para muchos casos de uso. No funciona para estos:

Aplicaciones criticas en latencia. Un modelo de inspeccion de calidad en una linea de produccion necesita clasificar una pieza en menos de 50 milisegundos. A 120 piezas por minuto, la camara captura una imagen cada 500ms. Para cuando envias esa imagen a una API en la nube, recibes una respuesta y activas un mecanismo de rechazo, la pieza se ha movido tres posiciones en la linea. La inferencia edge a 15-30ms te da el presupuesto de tiempo que necesitas.

Entornos sin conectividad. Un sitio de construccion en un area remota tiene conectividad celular intermitente en el mejor de los casos. Una plataforma petrolera tiene conectividad satelital con latencia de mas de 600ms y limites de ancho de banda. Una operacion minera subterranea no tiene conectividad en absoluto. Estos entornos necesitan modelos que se ejecuten completamente en el dispositivo, sin dependencia de red.

Requisitos de soberania de datos. Un hospital no puede enviar imagenes de pacientes a una API en la nube para analisis. Un contratista de defensa no puede enviar imagenes de manufactura a ningun servicio externo. Los datos de formulacion de una empresa farmaceutica no pueden salir de la instalacion. El despliegue edge mantiene los datos en el dispositivo — nunca atraviesan una red.

Ancho de banda y costo a escala. Una fabrica con 50 camaras generando 30 imagenes por segundo cada una produce 1,500 imagenes por segundo. A 500 KB por imagen, eso es 750 MB/s de datos — 2.7 TB por hora. Enviar eso a una API en la nube no es practico ni economico. Procesarlo en dispositivos edge conectados a cada camara elimina el problema de ancho de banda por completo.

Continuidad operacional. Las APIs en la nube se caen. Los enlaces de red fallan. Cuando tu sistema de inspeccion de calidad depende de inferencia en la nube, una caida de red significa detener la linea de produccion o funcionar sin inspeccion. Los modelos edge continuan operando a traves de cualquier interrupcion de red.

Cinco Casos de Uso de Edge AI Empresarial

1. Manufactura: Inspeccion Visual de Calidad

El problema: Un fabricante de semiconductores inspecciona wafers en busca de defectos superficiales — rasguños, particulas, irregularidades de patron. La inspeccion visual humana detecta aproximadamente el 85% de los defectos y toma 15-30 segundos por wafer. A 10,000 wafers por dia, eso es 40-80 horas-persona de trabajo de inspeccion diariamente.

La solucion edge: Un modelo de vision basado en YOLO ajustado se ejecuta en un modulo NVIDIA Jetson Orin conectado a una camara de escaneo lineal de alta resolucion. El modelo fue ajustado con 2,000 imagenes de defectos etiquetadas anotadas por ingenieros de calidad experimentados — no clases genericas de ImageNet, sino la taxonomia especifica de defectos de esta instalacion: rasguños Tipo A (mayor a 5 micras de ancho), contaminacion por particulas (campo claro vs. campo oscuro), defectos de patron litografico, anomalias de zona de exclusion de borde.

Rendimiento: El modelo ajustado corre a 45 FPS en el Jetson Orin, dando una decision de clasificacion en aproximadamente 22ms. Tasa de deteccion de defectos: 97.2%, comparado con 85% para inspeccion humana. Tasa de falsos positivos: 1.8%, lo que significa que solo el 1.8% de los wafers buenos son marcados para revision humana. El modelo procesa 10,000 wafers por dia sin fatiga del inspector, sin cambios de turno y sin variabilidad entre la precision de la primera hora y la octava hora.

Por que importa el fine-tuning aqui: Un modelo generico de deteccion de objetos entrenado con COCO u Open Images nunca ha visto un wafer de semiconductor. No puede distinguir un rasguño de 5 micras de una caracteristica normal del patron. El fine-tuning con 2,000 imagenes especificas de la instalacion le ensena al modelo el vocabulario visual de este proceso de manufactura particular.

Por que importa el edge aqui: Los datos propietarios de manufactura — imagenes de defectos, datos de rendimiento, parametros de proceso — no pueden salir de la instalacion. Las imagenes contienen informacion sobre procesos de manufactura propietarios que los competidores pagarian sumas significativas por obtener. El despliegue edge significa que los datos nunca salen de la conexion camara-a-Jetson.

2. Salud: NLP Clinico en Tablet

El problema: Un medico documenta un encuentro con un paciente en notas clinicas. Esas notas deben ser codificadas con codigos diagnosticos ICD-10 y codigos de procedimiento CPT para facturacion, reportes de calidad y analitica clinica. La codificacion manual por codificadores certificados cuesta $0.50-2.00 por encuentro e introduce un retraso de 48-72 horas entre el encuentro y la disponibilidad de los datos codificados.

La solucion edge: Un modelo de lenguaje pequeno ajustado (3B-7B parametros, cuantizado a 4-bit) se ejecuta en una tablet en el consultorio. Mientras el medico dicta o escribe notas, el modelo sugiere codigos diagnosticos y de procedimiento en tiempo real. El medico confirma o corrige las sugerencias antes de finalizar.

El modelo fue ajustado con 1,000 notas clinicas etiquetadas de la documentacion propia de la institucion — no texto medico generico, sino las abreviaturas especificas, patrones de fraseado y plantillas de documentacion usadas por los clinicos de esta instalacion. "SOB" significa "shortness of breath" (dificultad para respirar). "BID" significa "twice daily" (dos veces al dia). "NKDA" significa "no known drug allergies" (sin alergias conocidas a medicamentos).

Rendimiento: El modelo ajustado sugiere codigos ICD-10 primarios correctos con 92% de precision y codigos CPT correctos con 88% de precision. Con la confirmacion del medico, la precision efectiva es de mas del 99% porque el medico detecta el 8-12% de sugerencias que son incorrectas. La codificacion ocurre en tiempo real en lugar de 48-72 horas despues.

Por que importa el edge aqui: Ningun dato PHI sale del dispositivo. Las notas clinicas del paciente se procesan completamente en la tablet. No se envian datos a ningun servidor externo. El hospital mantiene cumplimiento total con HIPAA sin necesitar un Business Associate Agreement con un proveedor de AI en la nube, sin preocupaciones de cifrado en transito y sin el riesgo de que los datos del paciente aparezcan en los datos de entrenamiento de un tercero.

3. Construccion: AI de Inspeccion de Campo

El problema: Un proyecto de construccion requiere cientos de inspecciones de sitio durante su ciclo de vida — vaciados de concreto, colocacion de varilla, aplicacion de impermeabilizacion, instalacion preliminar de MEP. Cada inspeccion genera un reporte con fotos, mediciones y evaluaciones de cumplimiento contra las especificaciones de diseno y codigos aplicables. Los inspectores llevan tablets cargadas con planos y especificaciones, verificando manualmente lo que ven contra lo que fue disenado.

La solucion edge: Un modelo multimodal ajustado en una tablet ruggedizada. El inspector fotografía un vaciado de concreto. El modelo identifica los elementos visibles (espaciado de varilla, encofrado, marcadores de profundidad de vaciado), los cruza con los datos de BOQ y especificaciones cargados, y pre-llena el reporte de inspeccion con observaciones y verificaciones de cumplimiento.

Ajustado con 800 fotos de inspeccion etiquetadas del archivo de proyectos de la firma — anotadas por inspectores experimentados que identificaron defectos (nidos de abeja en concreto, recubrimiento insuficiente del refuerzo, espaciado incorrecto de varilla) y elementos de cumplimiento.

Rendimiento: Reduce el tiempo de reporte de inspeccion de 45 minutos a 15 minutos por inspeccion. Detecta un 30% mas de defectos que la inspeccion solo manual porque el modelo procesa cada pixel de la foto, mientras que los inspectores humanos se enfocan en areas donde esperan problemas.

Por que importa el edge aqui: Los sitios de construccion en ubicaciones remotas — proyectos de autopista en el desierto, infraestructura offshore, obras de tuneles en montanas — no tienen conectividad de internet confiable. La AI de inspeccion debe funcionar completamente offline. Los datos se sincronizan al servidor del proyecto cuando el inspector regresa a la base, pero el flujo de trabajo de inspeccion en sitio tiene cero dependencia de red.

4. Retail: Reconocimiento de Productos en Dispositivo

El problema: Una cadena de supermercados con 500 tiendas necesita auditar el cumplimiento de anaquel — estan los productos colocados segun el planograma? Son correctas las etiquetas de precio? Se capturan las situaciones de agotamiento de stock? Las auditorias manuales de anaquel toman 2-3 horas por tienda por semana, mayormente recorriendo pasillos y comparando anaqueles fisicos con planogramas impresos.

La solucion edge: Los asociados de tienda usan un dispositivo portatil (o una camara montada en carrito) que ejecuta un modelo de reconocimiento de productos ajustado. El modelo identifica productos de fotos de anaquel, compara la colocacion detectada contra el planograma digital y senala discrepancias: productos faltantes, facings incorrectos, posicion de anaquel equivocada, desajustes de etiquetas de precio.

Ajustado con el catalogo de productos especifico de la cadena — no imagenes genericas de productos de internet, sino fotos tomadas en tienda bajo condiciones reales de iluminacion, con empaque real (incluyendo productos de marca propia que no aparecen en ningun dataset publico), en angulos reales de anaquel. 3,000 imagenes etiquetadas cubriendo 8,000 SKUs.

Rendimiento: El tiempo de auditoria de anaquel baja de 2-3 horas a 30-40 minutos por tienda. Precision de deteccion de cumplimiento de planograma: 94%. Precision de deteccion de agotamiento de stock: 97%. En 500 tiendas, el ahorro de tiempo equivale a 12-15 empleados de tiempo completo.

Por que importa el edge aqui: Procesar imagenes de anaquel en la nube requeriria subir varios cientos de imagenes de alta resolucion por tienda por auditoria. A traves de conexiones celulares en tiendas con senal deficiente, esto es impracticamente lento. El procesamiento edge da resultados en tiempo real mientras el asociado recorre el pasillo. Ademas, los datos de colocacion de productos y precios son competitivamente sensibles — los retailers no quieren estos datos en ningun servidor externo.

5. Energia: Mantenimiento Predictivo en Subestaciones

El problema: Una empresa electrica opera 2,000 subestaciones, cada una con transformadores, interruptores de circuito, equipos de maniobra y otros equipos que requieren monitoreo. La falla de equipo causa apagones que afectan a miles de clientes y cuesta $50,000-500,000 por incidente en reparaciones de emergencia e ingresos perdidos.

La solucion edge: Dispositivos edge en cada subestacion recopilan datos de sensores — temperatura, vibracion, mediciones de descarga parcial, resultados de analisis de aceite — y ejecutan un modelo de deteccion de anomalias ajustado localmente. El modelo identifica patrones que preceden a la falla del equipo: aumento gradual de temperatura en un devanado de transformador, aumento de amplitud de vibracion en un rodamiento de ventilador de enfriamiento, actividad elevada de descarga parcial en equipos de maniobra.

Ajustado con 5 anos de datos historicos de sensores de las propias subestaciones de la empresa, etiquetados con eventos de falla conocidos y sus firmas precursoras. 450 patrones de anomalia etiquetados cubriendo 12 tipos de equipo y 35 modos de falla.

Rendimiento: El modelo detecta el 89% de las fallas inminentes 2-14 dias antes de que ocurran, comparado con una tasa de deteccion del 40% con monitoreo basado en umbrales. Tasa de falsas alarmas: 3.2% — lo suficientemente baja para que los equipos de campo respondan a alertas sin "fatiga de alarma."

Por que importa el edge aqui: Las subestaciones en areas rurales tienen conectividad limitada — a menudo solo un enlace SCADA de bajo ancho de banda. Transmitir datos crudos de sensores (potencialmente gigabytes por dia por subestacion en 2,000 sitios) a una nube central para analisis es impractico. El procesamiento edge analiza datos localmente y transmite solo alertas y estadisticas resumidas, reduciendo los requisitos de ancho de banda en mas del 99%.

Hardware para Edge AI Empresarial

El hardware de edge AI ha madurado significativamente. Las opciones viables para despliegue empresarial en 2026:

Dispositivo	Memoria GPU/NPU	Tamano Tipico de Modelo	Consumo	Rango de Precio	Mejor Para
NVIDIA Jetson Orin Nano	8 GB compartida	Hasta 7B (Q4)	7-15W	$200-300	Modelos de vision, LLMs pequenos
NVIDIA Jetson AGX Orin	32-64 GB compartida	Hasta 30B (Q4)	15-60W	$900-2,000	LLMs grandes, multi-modelo
Intel NUC (Arc GPU)	8-16 GB	Hasta 13B (Q4)	28-65W	$500-1,000	NLP, procesamiento de documentos
Qualcomm Snapdragon X Elite	16-32 GB compartida	Hasta 13B (Q4)	15-45W	$600-1,200	Despliegue movil/tablet
Apple M-series (Mac Mini/iPad)	16-24 GB unificada	Hasta 14B (Q4)	10-30W	$600-1,500	NLP, asistentes en dispositivo
Hailo-8L accelerator	N/A (8 TOPS)	Solo modelos de vision	2.5W	$50-100	Vision embebida

Para modelos de lenguaje, la restriccion clave es la memoria. Un modelo de 7B parametros con cuantizacion de 4-bit requiere aproximadamente 4 GB de RAM para los pesos, mas memoria de trabajo para inferencia — total 5-6 GB. Un modelo de 13B con cuantizacion de 4-bit requiere 8-9 GB en total. Estos caben comodamente en el hardware edge actual.

Para modelos de vision, la restriccion clave es el throughput. Un modelo YOLO corriendo a mas de 30 FPS en un Jetson Orin procesa un frame cada 33ms — lo suficientemente rapido para inspeccion en tiempo real en una linea de produccion que se mueve a velocidades industriales.

Cuantizacion: Haciendo que los Modelos Quepan

La cuantizacion reduce la precision del modelo de punto flotante de 16-bit a enteros de 4-bit u 8-bit. El impacto practico:

Nivel de Cuantizacion	Tamano del Modelo (7B)	RAM Requerida	Velocidad vs. FP16	Precision vs. FP16
FP16 (sin cuantizacion)	14 GB	~16 GB	1.0x (baseline)	Baseline
Q8 (8-bit)	7 GB	~9 GB	1.3-1.5x mas rapido	-0.5% a -1%
Q5_K_M (5-bit mixto)	5 GB	~7 GB	1.5-1.8x mas rapido	-1% a -2%
Q4_K_M (4-bit mixto)	4 GB	~6 GB	1.8-2.2x mas rapido	-1.5% a -3%
Q3_K_S (3-bit)	3 GB	~5 GB	2.0-2.5x mas rapido	-3% a -6%

Para despliegue edge empresarial, Q4_K_M es la opcion estandar. Proporciona el mejor balance de tamano, velocidad y precision. La reduccion de precision de 1.5-3% comparada con precision completa es aceptable para la mayoria de las tareas de produccion, especialmente cuando el modelo fue ajustado — los modelos ajustados son mas robustos a la cuantizacion que los modelos de proposito general porque el fine-tuning ha enfocado la capacidad del modelo en la tarea especifica.

El formato GGUF se ha convertido en el estandar para despliegue edge. Empaqueta los pesos del modelo cuantizado, el tokenizador y los metadatos en un solo archivo que puede ser cargado por motores de inferencia como llama.cpp, Ollama o vLLM sin ninguna dependencia de framework.

El Pipeline Edge-Fine-Tuning

Desplegar modelos ajustados en dispositivos edge sigue una arquitectura de entrenamiento centralizado e inferencia distribuida:

Paso 1: Preparar Datos Centralmente

La preparacion de datos de entrenamiento ocurre on-premise (no en el edge). Aqui es donde los documentos se ingestan, limpian, desidentifican y etiquetan por expertos de dominio. El pipeline de preparacion de datos se ejecuta en servidores con almacenamiento y computo adecuados para procesar archivos grandes de documentos.

Paso 2: Ajustar Centralmente

El fine-tuning se ejecuta en un servidor GPU on-premise o estacion de trabajo. Una sola NVIDIA A100 o RTX 4090 ajusta un modelo de 7B con LoRA en 2-6 horas con 500-1,000 ejemplos. El modelo ajustado es el adaptador LoRA — un archivo de 50-200 MB que modifica el comportamiento del modelo base para la tarea objetivo.

Paso 3: Fusionar y Cuantizar

El adaptador LoRA se fusiona con los pesos del modelo base, y el modelo fusionado se cuantiza a la precision objetivo (tipicamente Q4_K_M). La salida es un solo archivo GGUF listo para despliegue edge. Para un modelo de 7B, este archivo es de aproximadamente 4 GB.

Paso 4: Desplegar en Dispositivos Edge

El archivo GGUF se distribuye a los dispositivos edge — copiado a una tarjeta SD para un Jetson, enviado via gestion de dispositivos para tablets, o desplegado a traves de un canal de actualizacion OTA para dispositivos conectados. El motor de inferencia (llama.cpp, un wrapper personalizado o un runtime especifico de la plataforma) carga el modelo y comienza a servir predicciones.

Logistica de despliegue para flotas empresariales:

Tamano de Flota	Metodo de Despliegue	Frecuencia de Actualizacion	Mecanismo de Rollback
1-10 dispositivos	Copia manual / USB	Segun necesidad	Mantener GGUF anterior en dispositivo
10-100 dispositivos	Gestion de dispositivos (MDM)	Mensual	Particion A/B con fallback
100-1,000 dispositivos	Infraestructura de actualizacion OTA	Trimestral	Despliegue escalonado con canary
Mas de 1,000 dispositivos	Pipeline de despliegue personalizado	Ventanas programadas	Despliegue blue-green

Paso 5: Recopilar Retroalimentacion

Los dispositivos edge registran resultados de inferencia, puntajes de confianza y — cuando estan disponibles — correcciones humanas. Esta retroalimentacion se sincroniza periodicamente al sistema central (durante ventanas de conectividad para dispositivos offline, o en tiempo real para dispositivos conectados).

Las predicciones de baja confianza y las correcciones humanas se convierten en candidatos para la siguiente ronda de etiquetado y reentrenamiento. El modelo mejora con el tiempo a medida que su distribucion de entrenamiento se expande para cubrir casos extremos encontrados en produccion.

Paso 6: Reentrenar Periodicamente

En un ciclo trimestral o semestral, el modelo se reentrena con el dataset expandido (datos de entrenamiento originales mas retroalimentacion validada). El modelo actualizado pasa por el mismo pipeline de fusionar-cuantizar-desplegar. A traves de ciclos sucesivos de reentrenamiento, la precision del modelo aumenta y la tasa de predicciones de baja confianza disminuye.

La Preparacion de Datos Es el Cuello de Botella

Este es el hallazgo consistente en cada despliegue de edge AI empresarial: el modelo y el hardware son las partes faciles. La parte dificil es preparar datos de entrenamiento que sean lo suficientemente precisos para producir un modelo que funcione dentro de las restricciones ajustadas del hardware edge.

Los modelos edge son pequenos por necesidad. Un modelo de 7B tiene aproximadamente 100x menos parametros que GPT-4. No puede compensar datos de entrenamiento ruidosos con capacidad pura. Cada ejemplo de entrenamiento importa. Cada error de etiquetado se amplifica.

La implicacion practica: los proyectos de edge AI requieren una preparacion de datos mas rigurosa que los proyectos de AI en la nube. Cuanto mas pequeno el modelo, mas alta la barra de calidad de datos.

Requisitos especificos para datos de entrenamiento de grado edge:

Precision de etiquetado superior al 95%. Los modelos edge no tienen el margen de parametros para promediar el ruido de etiquetado. Lo que un modelo de 70B tolera, un modelo de 7B no.
Distribucion de clases balanceada. Un dataset desbalanceado produce un modelo que es preciso en la clase mayoritaria y no confiable en las clases minoritarias. En una linea de produccion, la clase minoritaria es frecuentemente el defecto — lo mas importante de detectar.
Diversidad representativa de entradas. Los datos de entrenamiento deben cubrir el rango de entradas que el modelo vera en el edge — diferentes condiciones de iluminacion para modelos de vision, diferentes formatos de documentos para modelos de NLP, diferentes calibraciones de sensores para modelos de series temporales. Los dispositivos edge operan en entornos no controlados. El modelo debe ser robusto a la variacion.
Evaluacion correcta con conciencia de cuantizacion. Evalua el modelo despues de la cuantizacion, no antes. Un modelo que es 95% preciso en FP16 pero 88% preciso en Q4 tiene un problema de cuantizacion. El fine-tuning con entrenamiento consciente de cuantizacion (QAT) o la seleccion de una arquitectura amigable con la cuantizacion mitiga esto.

La Economia de Inferencia Edge vs. Nube

Para costos de inferencia continuos, el despliegue edge es mas barato que la nube a escala empresarial:

Inferencia en la nube (API por token):

100,000 documentos/mes x aproximadamente 2,000 tokens cada uno = 200M tokens/mes
A $0.15 por millon de tokens de entrada + $0.60 por millon de tokens de salida (precios tipicos de 2026 para modelos capaces)
Costo mensual: aproximadamente $150 entrada + aproximadamente $120 salida = aproximadamente $270/mes solo por las llamadas a API
Anual: aproximadamente $3,240

Inferencia edge (en dispositivo):

Hardware: $1,000 por dispositivo (unico, amortizado en 3 anos = $28/mes)
Energia: aproximadamente 30W x 24h x 30 dias = 21.6 kWh/mes x $0.12/kWh = $2.60/mes
Costo mensual: aproximadamente $31/mes
Anual: aproximadamente $367

A este volumen, edge es mas barato. Pero la ventaja de costo crece dramaticamente con la escala. A 1,000,000 documentos/mes, el costo de la API en la nube aumenta linealmente a aproximadamente $2,700/mes mientras que el costo del dispositivo edge permanece fijo (el mismo dispositivo procesa mas documentos, simplemente funciona mas tiempo cada dia).

La ventaja real de costo del edge no esta en el computo — esta en los costos eliminados:

Sin costos de ancho de banda por subir datos a la nube
Sin costos de almacenamiento en la nube para el pipeline de datos
Sin costos de BAA/DPA por acuerdos de cumplimiento con proveedores cloud
Sin costos relacionados con latencia por retrasos de produccion esperando respuestas de la nube
Sin costos por tiempo de inactividad por caidas de API en la nube que afectan la produccion

Lo Que Esto Significa para la Estrategia de AI Empresarial

Edge AI no es un reemplazo para AI en la nube. Es un patron de despliegue para un conjunto especifico de restricciones: baja latencia, sin conectividad, soberania de datos y alto volumen. Las empresas ejecutaran algunos modelos en la nube, algunos on-premise y algunos en el edge — frecuentemente versiones diferentes del mismo modelo optimizadas para cada objetivo de despliegue.

El hilo comun es la preparacion de datos. Ya sea que el modelo se ejecute en la nube, on-premise o en el edge, el pipeline de datos de entrenamiento es el mismo: ingestar, limpiar, etiquetar, aumentar, exportar. El edge simplemente eleva la barra de calidad porque el modelo es mas pequeno y menos tolerante.

El fine-tuning es lo que hace que el edge AI sea practico para casos de uso empresarial. Sin fine-tuning, un modelo generico de 7B es una herramienta de proposito general que es mediocre en cada tarea empresarial. Con fine-tuning en 500-1,000 ejemplos especificos del dominio, el mismo modelo de 7B se convierte en un especialista que supera a modelos genericos de 70B en la tarea objetivo — y cabe en un dispositivo edge de $500.

El pipeline que importa no es modelo a dispositivo. Es datos a modelo a dispositivo. Haz bien la preparacion de datos y el resto del pipeline sigue. Hazlo mal y ninguna mejora de hardware ni cambio de arquitectura del modelo lo compensara.