browser-use + Ertas

使用 browser-use 自動化任何 web 任務——這是開源的 Playwright + LLM 代理，可在網頁中導覽、點擊、輸入與擷取資料，並透過 Ertas 對微調本地模型提供一流支援。

Overview

browser-use 是領先的開源瀏覽器自動化代理，截至 2026 年中已累積超過 50K 個 GitHub 星標，並採用 MIT 授權。此框架以 LLM 驅動的控制迴圈包裝 Playwright：模型接收當前頁面的螢幕截圖或 accessibility tree，決定要採取的動作（點擊、輸入、捲動、導覽、擷取），框架便在實際瀏覽器中執行該動作。這種模式讓代理能夠以人類相同的互動方式操作任何 web 介面——包括沒有 API 的介面。

此框架同時支援基於視覺的控制（模型看螢幕截圖）以及基於 DOM 的控制（模型讀取 accessibility tree）。近期改進已將 browser-use 在標準瀏覽器任務基準上的準確率推升至 88% 以上，使其在自動化表單填寫、網頁爬取、帳號管理工作流程、潛在客戶資料補強以及 web 應用端到端測試等使用情境中達到正式上線可用水準。MIT 授權、廣泛的 LLM 相容性以及優異的基準表現相結合，使 browser-use 成為 2026 年開源瀏覽器自動化的預設選擇。

How Ertas Integrates

Ertas 訓練的模型透過任何 OpenAI 相容端點與 browser-use 協同運作。在 Ertas Studio 以瀏覽器任務軌跡（搭配動作序列與推理的螢幕截圖）微調模型後，你可透過 Ollama、vLLM 或 Ertas Cloud 部署，並讓 browser-use 指向該端點。針對特定領域的瀏覽器任務，微調模型的表現可顯著超越通用模型：在你特定的 SaaS 工作流程、儀表板版面與表單模式上微調的模型，會比從未見過這些介面的通用前沿模型導覽得更可靠。

對於成本敏感的部署，Ertas + browser-use 的組合特別有價值。瀏覽器任務在單一產品或領域內往往具高度重複性，這意味著一個小型微調模型（7B-14B 等級）能在其受訓的特定瀏覽模式上達到甚至超越前沿模型的表現。再加上自託管 browser-use 部署，這使得 web 自動化能以比透過 API 使用 GPT-5.5 或 Claude Opus 4.7 處理相同工作流程低數個數量級的每任務成本完成。隱私敏感的應用（任何涉及使用者憑證、內部儀表板或專有資料）也能從完全自託管的模式中受益。

Getting Started

1
蒐集或產生瀏覽器任務的訓練資料
為你的領域記錄成功的瀏覽器任務軌跡（螢幕截圖 + 動作 + 推理）。Ertas Studio 原生支援這種多模態訓練資料格式。
2
於 Ertas Studio 微調具視覺能力的模型
使用具多模態能力的基礎模型（例如 Gemma 4、Qwen3-VL）並在你的瀏覽器任務語料上微調，產出專為你特定 web 工作流程客製的模型。
3
部署至支援視覺的推論端點
透過 vLLM、Ollama 或 Ertas Cloud（並啟用多模態支援）提供服務。browser-use 將以螢幕截圖與提示呼叫此端點。
4
安裝 browser-use 並設定模型
安裝 browser-use，並設定 LLM provider 指向你的 Ertas 推論端點。根據任務需求選擇基於視覺或基於 DOM 的控制模式。
5
執行自動化工作流程
下達自然語言任務；browser-use 會編排 LLM 與瀏覽器以完成任務。記錄成功與失敗軌跡以持續精煉模型。

python

from browser_use import Agent
from langchain_openai import ChatOpenAI

# Point browser-use at your Ertas-trained vision-capable model
llm = ChatOpenAI(
    base_url="http://localhost:8000/v1",  # vLLM with multimodal support
    model="ertas-browser-agent-7b",
    api_key="not-needed",
    temperature=0.1,
)

agent = Agent(
    task="""
        Log into our admin dashboard at admin.example.com,
        navigate to the user management page, and export
        the list of all users created in the last 30 days
        as a CSV file.
    """,
    llm=llm,
)

result = await agent.run()
print(f"Task completed: {result.success}")
print(f"Output file: {result.artifacts}")

執行一個由 Ertas 訓練模型驅動的 browser-use 代理，該模型已針對你特定的儀表板工作流程進行專屬化訓練。