browser-use + Ertas

Automatiza cualquier tarea web con browser-use: el agente open-source de Playwright + LLM que navega, hace clic, escribe y extrae informacion de paginas web, con soporte de primera clase para modelos locales ajustados via Ertas.

Overview

browser-use es el principal agente open-source de automatizacion de navegador, con mas de 50K estrellas en GitHub a mediados de 2026 y licencia MIT. El framework envuelve Playwright con un bucle de control impulsado por LLM: el modelo recibe una captura de pantalla o el arbol de accesibilidad de la pagina actual, decide que accion tomar (clic, escribir, scroll, navegar, extraer) y el framework ejecuta esa accion en un navegador real. Este patron permite a los agentes operar cualquier interfaz web — incluso aquellas que no tienen API — interactuando con ellas de la misma forma en que lo hacen los humanos.

El framework admite tanto control basado en vision (donde el modelo ve capturas de pantalla) como control basado en DOM (donde el modelo lee el arbol de accesibilidad). Las mejoras recientes han llevado a browser-use a una precision superior al 88% en benchmarks estandar de tareas de navegador, haciendolo viable para produccion en casos como autorrelleno de formularios, web scraping, flujos de gestion de cuentas, enriquecimiento de leads y pruebas end-to-end de aplicaciones web. La combinacion de licencia MIT, amplia compatibilidad con LLMs y solido rendimiento en benchmarks ha hecho de browser-use la opcion por defecto para automatizacion de navegador open-source en 2026.

How Ertas Integrates

Los modelos entrenados con Ertas funcionan con browser-use a traves de cualquier endpoint compatible con OpenAI. Despues de ajustar un modelo sobre trazas de tareas de navegador en Ertas Studio (capturas de pantalla emparejadas con secuencias de acciones y razonamiento), despliegas via Ollama, vLLM o Ertas Cloud y apuntas browser-use al endpoint. Los modelos ajustados pueden superar sustancialmente a los modelos de proposito general en tareas de navegador especificas del dominio: un modelo ajustado sobre tus flujos SaaS especificos, los layouts de tus dashboards y tus patrones de formularios los navegara con mayor confiabilidad que un modelo frontera generico que nunca los ha visto.

Para despliegues sensibles al costo, la combinacion de Ertas + browser-use es particularmente valiosa. Las tareas de navegador tienden a ser repetitivas dentro de un solo producto o dominio, lo que significa que un modelo ajustado pequeno (clase 7B-14B) puede igualar o superar el rendimiento de un modelo frontera en los patrones de navegacion especificos sobre los que fue entrenado. Combinado con un despliegue autoalojado de browser-use, esto permite automatizacion web a un costo por tarea ordenes de magnitud menor que usar GPT-5.5 o Claude Opus 4.7 via API para los mismos flujos. Las aplicaciones sensibles a la privacidad (cualquier cosa que involucre credenciales de usuario, dashboards internos o datos propietarios) tambien se benefician del patron totalmente autoalojado.

Getting Started

1
Recopila o genera datos de entrenamiento de tareas de navegador
Registra trazas exitosas de tareas de navegador (capturas de pantalla + acciones + razonamiento) para tu dominio. Ertas Studio admite este formato de datos de entrenamiento multimodal de forma nativa.
2
Ajusta un modelo con capacidades de vision en Ertas Studio
Usa una base multimodal (por ejemplo, Gemma 4, Qwen3-VL) y ajusta sobre tu corpus de tareas de navegador para producir un modelo especializado en tus flujos web especificos.
3
Despliega en un endpoint de inferencia con vision habilitada
Sirve via vLLM, Ollama o Ertas Cloud con soporte multimodal habilitado. browser-use llamara a este endpoint con capturas de pantalla y prompts.
4
Instala browser-use y configura el modelo
Instala browser-use y configura el proveedor de LLM para apuntar a tu endpoint de inferencia de Ertas. Elige modo de control basado en vision o en DOM segun tus tareas.
5
Ejecuta flujos de trabajo automatizados
Emite tareas en lenguaje natural; browser-use orquesta el LLM y el navegador para completarlas. Registra las trazas exitosas y fallidas para refinar el modelo de forma continua.

python

from browser_use import Agent
from langchain_openai import ChatOpenAI

# Point browser-use at your Ertas-trained vision-capable model
llm = ChatOpenAI(
    base_url="http://localhost:8000/v1",  # vLLM with multimodal support
    model="ertas-browser-agent-7b",
    api_key="not-needed",
    temperature=0.1,
)

agent = Agent(
    task="""
        Log into our admin dashboard at admin.example.com,
        navigate to the user management page, and export
        the list of all users created in the last 30 days
        as a CSV file.
    """,
    llm=llm,
)

result = await agent.run()
print(f"Task completed: {result.success}")
print(f"Output file: {result.artifacts}")

Ejecuta un agente browser-use respaldado por un modelo entrenado con Ertas que ha sido especializado en los flujos de tu dashboard.

Benefits

Automatiza cualquier interfaz web — incluso las que no tienen APIs — mediante interaccion en un navegador real
Licencia MIT sin restricciones comerciales sobre el trabajo derivado
Precision superior al 88% en benchmarks estandar de tareas de navegador con modelos frontera
Modelos ajustados especificos del dominio pueden igualar la precision frontera a una fraccion del costo de inferencia
Despliegue totalmente autoalojado para credenciales y dashboards internos sensibles a la privacidad
Comunidad activa de mas de 50K estrellas con mejoras regulares al framework