browser-use + Ertas

    使用 browser-use 自動化任何 web 任務——這是開源的 Playwright + LLM 代理,可在網頁中導覽、點擊、輸入與擷取資料,並透過 Ertas 對微調本地模型提供一流支援。

    Overview

    browser-use 是領先的開源瀏覽器自動化代理,截至 2026 年中已累積超過 50K 個 GitHub 星標,並採用 MIT 授權。此框架以 LLM 驅動的控制迴圈包裝 Playwright:模型接收當前頁面的螢幕截圖或 accessibility tree,決定要採取的動作(點擊、輸入、捲動、導覽、擷取),框架便在實際瀏覽器中執行該動作。這種模式讓代理能夠以人類相同的互動方式操作任何 web 介面——包括沒有 API 的介面。

    此框架同時支援基於視覺的控制(模型看螢幕截圖)以及基於 DOM 的控制(模型讀取 accessibility tree)。近期改進已將 browser-use 在標準瀏覽器任務基準上的準確率推升至 88% 以上,使其在自動化表單填寫、網頁爬取、帳號管理工作流程、潛在客戶資料補強以及 web 應用端到端測試等使用情境中達到正式上線可用水準。MIT 授權、廣泛的 LLM 相容性以及優異的基準表現相結合,使 browser-use 成為 2026 年開源瀏覽器自動化的預設選擇。

    How Ertas Integrates

    Ertas 訓練的模型透過任何 OpenAI 相容端點與 browser-use 協同運作。在 Ertas Studio 以瀏覽器任務軌跡(搭配動作序列與推理的螢幕截圖)微調模型後,你可透過 Ollama、vLLM 或 Ertas Cloud 部署,並讓 browser-use 指向該端點。針對特定領域的瀏覽器任務,微調模型的表現可顯著超越通用模型:在你特定的 SaaS 工作流程、儀表板版面與表單模式上微調的模型,會比從未見過這些介面的通用前沿模型導覽得更可靠。

    對於成本敏感的部署,Ertas + browser-use 的組合特別有價值。瀏覽器任務在單一產品或領域內往往具高度重複性,這意味著一個小型微調模型(7B-14B 等級)能在其受訓的特定瀏覽模式上達到甚至超越前沿模型的表現。再加上自託管 browser-use 部署,這使得 web 自動化能以比透過 API 使用 GPT-5.5 或 Claude Opus 4.7 處理相同工作流程低數個數量級的每任務成本完成。隱私敏感的應用(任何涉及使用者憑證、內部儀表板或專有資料)也能從完全自託管的模式中受益。

    Getting Started

    1. 1

      蒐集或產生瀏覽器任務的訓練資料

      為你的領域記錄成功的瀏覽器任務軌跡(螢幕截圖 + 動作 + 推理)。Ertas Studio 原生支援這種多模態訓練資料格式。

    2. 2

      於 Ertas Studio 微調具視覺能力的模型

      使用具多模態能力的基礎模型(例如 Gemma 4、Qwen3-VL)並在你的瀏覽器任務語料上微調,產出專為你特定 web 工作流程客製的模型。

    3. 3

      部署至支援視覺的推論端點

      透過 vLLM、Ollama 或 Ertas Cloud(並啟用多模態支援)提供服務。browser-use 將以螢幕截圖與提示呼叫此端點。

    4. 4

      安裝 browser-use 並設定模型

      安裝 browser-use,並設定 LLM provider 指向你的 Ertas 推論端點。根據任務需求選擇基於視覺或基於 DOM 的控制模式。

    5. 5

      執行自動化工作流程

      下達自然語言任務;browser-use 會編排 LLM 與瀏覽器以完成任務。記錄成功與失敗軌跡以持續精煉模型。

    python
    from browser_use import Agent
    from langchain_openai import ChatOpenAI
    
    # Point browser-use at your Ertas-trained vision-capable model
    llm = ChatOpenAI(
        base_url="http://localhost:8000/v1",  # vLLM with multimodal support
        model="ertas-browser-agent-7b",
        api_key="not-needed",
        temperature=0.1,
    )
    
    agent = Agent(
        task="""
            Log into our admin dashboard at admin.example.com,
            navigate to the user management page, and export
            the list of all users created in the last 30 days
            as a CSV file.
        """,
        llm=llm,
    )
    
    result = await agent.run()
    print(f"Task completed: {result.success}")
    print(f"Output file: {result.artifacts}")
    執行一個由 Ertas 訓練模型驅動的 browser-use 代理,該模型已針對你特定的儀表板工作流程進行專屬化訓練。

    Benefits

    • 透過真實瀏覽器互動自動化任何 web 介面——包括沒有 API 的介面
    • MIT 授權,對衍生作品無商業限制
    • 搭配前沿模型在標準瀏覽器任務基準上達到 88% 以上準確率
    • 微調後的特定領域模型可以前沿模型一小部分推論成本達到相同準確率
    • 完全自託管部署,適合處理隱私敏感的憑證與內部儀表板
    • 活躍的社群(50K+ 星標)持續改進框架

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.