browser-use + Ertas

使用 browser-use 自动化任何 Web 任务——这是开源的 Playwright + LLM 智能体，能够导航、点击、输入并从网页中提取信息，并通过 Ertas 一流地支持微调本地模型。

Overview

browser-use 是领先的开源浏览器自动化智能体，截至 2026 年中，GitHub 星标超过 50K，并采用 MIT 许可证。该框架将 Playwright 与一个由 LLM 驱动的控制循环结合：模型接收当前页面的截图或可访问性树，决定要采取的动作（点击、输入、滚动、导航、提取），然后框架在真实浏览器中执行该动作。这种模式使智能体能够操作任何 Web 界面——包括没有 API 的界面——其交互方式与人类相同。

该框架同时支持基于视觉的控制（模型查看截图）和基于 DOM 的控制（模型读取可访问性树）。最近的改进将 browser-use 在标准浏览器任务基准测试中的准确率提升至 88% 以上，使其在自动化表单填写、Web 抓取、账户管理工作流、潜在客户增强和 Web 应用程序的端到端测试等用例中达到生产可用水平。MIT 许可、广泛的 LLM 兼容性和强大的基准性能相结合，使 browser-use 成为 2026 年开源浏览器自动化的默认选择。

How Ertas Integrates

Ertas 训练的模型通过任何兼容 OpenAI 的端点与 browser-use 协同工作。在 Ertas Studio 中对浏览器任务轨迹（截图与动作序列和推理配对）进行微调后，你可以通过 Ollama、vLLM 或 Ertas Cloud 部署，并将 browser-use 指向该端点。微调后的模型在领域特定的浏览器任务上可大幅超越通用模型：针对你特定的 SaaS 工作流、仪表板布局和表单模式微调的模型，会比从未见过这些内容的前沿通用模型更可靠地导航它们。

对于成本敏感的部署，Ertas + browser-use 组合尤为有价值。浏览器任务在单个产品或领域内通常具有重复性，这意味着小型微调模型（7B-14B 类）在其训练过的特定浏览模式上可以匹敌甚至超越前沿模型的性能。结合自托管 browser-use 部署，相比使用 GPT-5.5 或 Claude Opus 4.7 API 处理相同工作流，可将每个任务的 Web 自动化成本降低数个数量级。隐私敏感型应用（涉及用户凭据、内部仪表板或专有数据）也受益于完全自托管的模式。

Getting Started

1
收集或生成浏览器任务训练数据
记录你的领域中成功的浏览器任务轨迹（截图 + 动作 + 推理）。Ertas Studio 原生支持此多模态训练数据格式。
2
在 Ertas Studio 中微调具备视觉能力的模型
使用多模态基础模型（例如 Gemma 4、Qwen3-VL），在你的浏览器任务语料上微调，产出针对你特定 Web 工作流的专用模型。
3
部署到启用视觉的推理端点
通过 vLLM、Ollama 或 Ertas Cloud 提供服务，并启用多模态支持。browser-use 将使用截图和提示调用此端点。
4
安装 browser-use 并配置模型
安装 browser-use 并配置 LLM 提供商以指向你的 Ertas 推理端点。根据你的任务选择基于视觉或基于 DOM 的控制模式。
5
运行自动化工作流
下达自然语言任务；browser-use 编排 LLM 和浏览器以完成它们。记录成功和失败的轨迹，以便持续精炼模型。

python

from browser_use import Agent
from langchain_openai import ChatOpenAI

# Point browser-use at your Ertas-trained vision-capable model
llm = ChatOpenAI(
    base_url="http://localhost:8000/v1",  # vLLM with multimodal support
    model="ertas-browser-agent-7b",
    api_key="not-needed",
    temperature=0.1,
)

agent = Agent(
    task="""
        Log into our admin dashboard at admin.example.com,
        navigate to the user management page, and export
        the list of all users created in the last 30 days
        as a CSV file.
    """,
    llm=llm,
)

result = await agent.run()
print(f"Task completed: {result.success}")
print(f"Output file: {result.artifacts}")

运行一个由 Ertas 训练模型支持的 browser-use 智能体，该模型已在你特定的仪表板工作流上专门化。