browser-use + Ertas

    使用 browser-use 自动化任何 Web 任务——这是开源的 Playwright + LLM 智能体,能够导航、点击、输入并从网页中提取信息,并通过 Ertas 一流地支持微调本地模型。

    Overview

    browser-use 是领先的开源浏览器自动化智能体,截至 2026 年中,GitHub 星标超过 50K,并采用 MIT 许可证。该框架将 Playwright 与一个由 LLM 驱动的控制循环结合:模型接收当前页面的截图或可访问性树,决定要采取的动作(点击、输入、滚动、导航、提取),然后框架在真实浏览器中执行该动作。这种模式使智能体能够操作任何 Web 界面——包括没有 API 的界面——其交互方式与人类相同。

    该框架同时支持基于视觉的控制(模型查看截图)和基于 DOM 的控制(模型读取可访问性树)。最近的改进将 browser-use 在标准浏览器任务基准测试中的准确率提升至 88% 以上,使其在自动化表单填写、Web 抓取、账户管理工作流、潜在客户增强和 Web 应用程序的端到端测试等用例中达到生产可用水平。MIT 许可、广泛的 LLM 兼容性和强大的基准性能相结合,使 browser-use 成为 2026 年开源浏览器自动化的默认选择。

    How Ertas Integrates

    Ertas 训练的模型通过任何兼容 OpenAI 的端点与 browser-use 协同工作。在 Ertas Studio 中对浏览器任务轨迹(截图与动作序列和推理配对)进行微调后,你可以通过 Ollama、vLLM 或 Ertas Cloud 部署,并将 browser-use 指向该端点。微调后的模型在领域特定的浏览器任务上可大幅超越通用模型:针对你特定的 SaaS 工作流、仪表板布局和表单模式微调的模型,会比从未见过这些内容的前沿通用模型更可靠地导航它们。

    对于成本敏感的部署,Ertas + browser-use 组合尤为有价值。浏览器任务在单个产品或领域内通常具有重复性,这意味着小型微调模型(7B-14B 类)在其训练过的特定浏览模式上可以匹敌甚至超越前沿模型的性能。结合自托管 browser-use 部署,相比使用 GPT-5.5 或 Claude Opus 4.7 API 处理相同工作流,可将每个任务的 Web 自动化成本降低数个数量级。隐私敏感型应用(涉及用户凭据、内部仪表板或专有数据)也受益于完全自托管的模式。

    Getting Started

    1. 1

      收集或生成浏览器任务训练数据

      记录你的领域中成功的浏览器任务轨迹(截图 + 动作 + 推理)。Ertas Studio 原生支持此多模态训练数据格式。

    2. 2

      在 Ertas Studio 中微调具备视觉能力的模型

      使用多模态基础模型(例如 Gemma 4、Qwen3-VL),在你的浏览器任务语料上微调,产出针对你特定 Web 工作流的专用模型。

    3. 3

      部署到启用视觉的推理端点

      通过 vLLM、Ollama 或 Ertas Cloud 提供服务,并启用多模态支持。browser-use 将使用截图和提示调用此端点。

    4. 4

      安装 browser-use 并配置模型

      安装 browser-use 并配置 LLM 提供商以指向你的 Ertas 推理端点。根据你的任务选择基于视觉或基于 DOM 的控制模式。

    5. 5

      运行自动化工作流

      下达自然语言任务;browser-use 编排 LLM 和浏览器以完成它们。记录成功和失败的轨迹,以便持续精炼模型。

    python
    from browser_use import Agent
    from langchain_openai import ChatOpenAI
    
    # Point browser-use at your Ertas-trained vision-capable model
    llm = ChatOpenAI(
        base_url="http://localhost:8000/v1",  # vLLM with multimodal support
        model="ertas-browser-agent-7b",
        api_key="not-needed",
        temperature=0.1,
    )
    
    agent = Agent(
        task="""
            Log into our admin dashboard at admin.example.com,
            navigate to the user management page, and export
            the list of all users created in the last 30 days
            as a CSV file.
        """,
        llm=llm,
    )
    
    result = await agent.run()
    print(f"Task completed: {result.success}")
    print(f"Output file: {result.artifacts}")
    运行一个由 Ertas 训练模型支持的 browser-use 智能体,该模型已在你特定的仪表板工作流上专门化。

    Benefits

    • 通过真实浏览器交互自动化任何 Web 界面——包括没有 API 的界面
    • MIT 许可证,对衍生作品没有商业限制
    • 在标准浏览器任务基准测试中,使用前沿模型可达 88% 以上的准确率
    • 微调的领域特定模型可以匹敌前沿模型的准确率,且推理成本仅为其一小部分
    • 完全自托管部署,适用于隐私敏感的凭据和内部仪表板
    • 拥有 50K+ 星标的活跃社区,框架持续改进

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.