browser-use + Ertas
使用 browser-use 自动化任何 Web 任务——这是开源的 Playwright + LLM 智能体,能够导航、点击、输入并从网页中提取信息,并通过 Ertas 一流地支持微调本地模型。
Overview
browser-use 是领先的开源浏览器自动化智能体,截至 2026 年中,GitHub 星标超过 50K,并采用 MIT 许可证。该框架将 Playwright 与一个由 LLM 驱动的控制循环结合:模型接收当前页面的截图或可访问性树,决定要采取的动作(点击、输入、滚动、导航、提取),然后框架在真实浏览器中执行该动作。这种模式使智能体能够操作任何 Web 界面——包括没有 API 的界面——其交互方式与人类相同。
该框架同时支持基于视觉的控制(模型查看截图)和基于 DOM 的控制(模型读取可访问性树 )。最近的改进将 browser-use 在标准浏览器任务基准测试中的准确率提升至 88% 以上,使其在自动化表单填写、Web 抓取、账户管理工作流、潜在客户增强和 Web 应用程序的端到端测试等用例中达到生产可用水平。MIT 许可、广泛的 LLM 兼容性和强大的基准性能相结合,使 browser-use 成为 2026 年开源浏览器自动化的默认选择。
How Ertas Integrates
Ertas 训练的模型通过任何兼容 OpenAI 的端点与 browser-use 协同工作。在 Ertas Studio 中对浏览器任务轨迹(截图与动作序列和推理配对)进行微调后,你可以通过 Ollama、vLLM 或 Ertas Cloud 部署,并将 browser-use 指向该端点。微调后的模型在领域特定的浏览器任务上可大幅超越通用模型:针对你特定的 SaaS 工作流、仪表板布局和表单模式微调的模型,会比从未见过这些内容的前沿通用模型更可靠地导航它们。
对于成本敏感的部署,Ertas + browser-use 组合尤为有价值。浏览器任务在单个产品或领域内通常具有重复性,这意味着小型微调模型(7B-14B 类)在其训练过的特定浏览模式上可以匹敌甚至超越前沿模型的性能。结合自托管 browser-use 部署,相比使用 GPT-5.5 或 Claude Opus 4.7 API 处理相同工作流,可将每个任务的 Web 自动化成本降低数个数量级。隐私敏感型应用(涉及用户凭据、内部仪表板或专有数据)也受益于完全自托管的模式。
Getting Started
- 1
收集或生成浏览器任务训练数据
记录你的领域中成功的浏览器任务轨迹(截图 + 动作 + 推理)。Ertas Studio 原生支持此多模态训练数据格式。
- 2
在 Ertas Studio 中微调具备视觉能力的模型
使用多模态基础模型(例如 Gemma 4、Qwen3-VL),在你的浏览器任务语料上微调,产出针对你特定 Web 工作流的专用模型。
- 3
部署到启用视觉的推理端点
通过 vLLM、Ollama 或 Ertas Cloud 提供服务,并启用多模态支持。browser-use 将使用截图和提示调用此端点。
- 4
安装 browser-use 并配置模型
安装 browser-use 并配置 LLM 提供商以指向你的 Ertas 推理端点。根据你的任务选择基于视觉或基于 DOM 的控制模式。
- 5
运行自动化工作流
下达自然语言任务;browser-use 编排 LLM 和浏览器以完成它们。记录成功和失败的轨迹,以便持续精炼模型。
from browser_use import Agent
from langchain_openai import ChatOpenAI
# Point browser-use at your Ertas-trained vision-capable model
llm = ChatOpenAI(
base_url="http://localhost:8000/v1", # vLLM with multimodal support
model="ertas-browser-agent-7b",
api_key="not-needed",
temperature=0.1,
)
agent = Agent(
task="""
Log into our admin dashboard at admin.example.com,
navigate to the user management page, and export
the list of all users created in the last 30 days
as a CSV file.
""",
llm=llm,
)
result = await agent.run()
print(f"Task completed: {result.success}")
print(f"Output file: {result.artifacts}")Benefits
- 通过真实浏览器交互自动化任何 Web 界面——包括没有 API 的界面
- MIT 许可证,对衍生作品没有商业限制
- 在标准浏览器任务基准测试中,使用前沿模型可达 88% 以上的准确率
- 微调的领域特定模型可以匹敌前沿模型的准确率,且推理成本仅为其一小部分
- 完全自托管部署,适用于隐私敏感的凭据和内部仪表板
- 拥有 50K+ 星标的活跃社区,框架持续改进
Related Resources
Fine-Tuning
Inference
LoRA
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Fine-Tune AI Models Without Writing Code
Running AI Models Locally: The Complete Guide to Local LLM Inference
LangChain
Make.com
n8n
Ollama
vLLM
Ertas for Customer Support
Ertas for Data Extraction
Ertas for AI Automation Agencies
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.