Agent Browser 完全教程 - AI 代理浏览器自动化指南
🌐 Agent Browser 完全教程
Vercel Labs 出品的 AI 代理浏览器自动化工具
项目
agent-browser
作者
Vercel Labs
日期
2026-03-06
📖 什么是 Agent Browser?
Agent Browser 是 Vercel Labs 开发的浏览器自动化 CLI 工具,专为 AI 代理设计。它提供快速、可靠的浏览器控制能力,让 AI 能够像人类一样浏览网页、点击按钮、填写表单。
浏览器自动化 AI 代理 CLI 工具 Vercel
⚡ 快速开始
1️⃣ 安装
| # 全局安装(推荐) |
| npm install -g agent-browser |
| # 下载 Chromium 浏览器(首次使用) |
| agent-browser install |
| # Linux 用户还需安装系统依赖 |
| agent-browser install --with-deps |
2️⃣ 核心工作流程
🎯 黄金四步法:
agent-browser open <url>— 打开网页agent-browser snapshot -i— 获取可交互元素(带引用 ID)agent-browser click @e1— 使用引用 ID 操作元素agent-browser snapshot -i— 页面变化后重新获取
📚 核心命令详解
🔍 导航与快照
| agent-browser open example.com # 打开网页 |
| agent-browser snapshot # 获取完整无障碍树 |
| agent-browser snapshot -i # 仅可交互元素(推荐) |
| agent-browser snapshot -i -c -d 5 # 交互 + 紧凑 + 深度 5 |
| agent-browser screenshot page.png # 截图 |
| agent-browser screenshot --annotate # 带标注的截图(显示元素编号) |
👆 交互操作
| agent-browser click @e2 # 点击元素 |
| agent-browser fill @e3 "text" # 填写输入框 |
| agent-browser type @e3 "text" # 打字(不清空) |
| agent-browser press Enter # 按键盘 |
| agent-browser hover @e4 # 悬停 |
| agent-browser check @e5 # 勾选复选框 |
| agent-browser select @e6 "option" # 选择下拉选项 |
📖 获取内容
| agent-browser get text @e1 # 获取文本 |
| agent-browser get html @e1 # 获取 HTML |
| agent-browser get value @e1 # 获取输入值 |
| agent-browser get url # 获取当前 URL |
| agent-browser get title # 获取页面标题 |
| agent-browser is visible @e1 # 检查是否可见 |
⏳ 等待与查找
| agent-browser wait 3000 # 等待 3 秒 |
| agent-browser wait --text "Welcome" # 等待文本出现 |
| agent-browser wait --load networkidle # 等待网络空闲 |
| agent-browser find role button click --name "Submit" |
| agent-browser find text "登录" click |
| agent-browser find label "邮箱" fill "test@test.com" |
🎯 实战案例:自动登录 GitHub
📝 场景说明
使用 agent-browser 自动打开 GitHub 登录页面,填写用户名密码,完成登录并验证。
步骤 1:打开登录页面
| agent-browser open https://github.com/login |
步骤 2:获取页面元素
| agent-browser snapshot -i |
| # 输出示例: |
| - textbox "Username or email address" [ref=e1] |
| - textbox "Password" [ref=e2] |
| - button "Sign in" [ref=e3] |
步骤 3:填写表单并提交
| # 填写用户名 |
| agent-browser fill @e1 "your-username" |
| # 填写密码 |
| agent-browser fill @e2 "your-password" |
| # 点击登录按钮 |
| agent-browser click @e3 |
| # 等待页面加载 |
| agent-browser wait --load networkidle |
步骤 4:验证登录结果
| # 获取当前 URL(应跳转到 dashboard) |
| agent-browser get url |
| # 检查是否看到用户头像(登录成功标志) |
| agent-browser is visible @e10 |
| # 截图保存证据 |
| agent-browser screenshot logged-in.png |
🚀 一键脚本版本
| #!/bin/bash |
| # GitHub 自动登录脚本 |
| # 打开登录页 |
| agent-browser open https://github.com/login |
| # 获取元素(AI 分析后确定 ref) |
| SNAPSHOT=$(agent-browser snapshot -i) |
| echo "$SNAPSHOT" |
| # 假设 AI 识别出:用户名=e1, 密码=e2, 登录按钮=e3 |
| agent-browser fill @e1 "your-username" |
| agent-browser fill @e2 "your-password" |
| agent-browser click @e3 |
| # 等待并验证 |
| agent-browser wait --load networkidle |
| agent-browser get url |
| agent-browser screenshot github-logged-in.png |
| # 关闭浏览器 |
| agent-browser close |
💡 高级技巧
🔐 会话管理
| # 使用命名会话(自动保存登录状态) |
| agent-browser --session-name github open github.com |
| # 下次直接打开已登录的 GitHub |
| agent-browser --session-name github open github.com/notifications |
| # 列出所有会话 |
| agent-browser session list |
🌐 多标签页管理
| agent-browser tab new # 新建标签页 |
| agent-browser tab 2 # 切换到第 2 个标签 |
| agent-browser tab list # 列出所有标签 |
| agent-browser tab close 1 # 关闭第 1 个标签 |
🛡️ 安全功能
| # 域名白名单(只允许访问指定域名) |
| agent-browser --allowed-domains "github.com,*.github.com" open github.com |
| # 敏感操作需要确认 |
| agent-browser --confirm-actions eval,download open example.com |
| # 限制输出长度(防止上下文泛滥) |
| agent-browser --max-output 50000 snapshot |
📱 移动端测试
| # 模拟 iPhone 14 |
| agent-browser --device "iPhone 14" open example.com |
| # 设置视口大小 |
| agent-browser set viewport 375 812 |
✅ 优点 vs ❌ 缺点
✅ 优点
- ⚡ 快速:Rust CLI + Node.js 守护进程架构
- 🤖 AI 友好:snapshot-ref 工作流专为 LLM 设计
- 📚 文档完善:--help 输出详尽
- 🔐 会话持久:自动保存登录状态
- 🛡️ 安全功能:域名白名单、操作确认
- 🌐 多标签支持:同时管理多个页面
- 📱 移动端模拟:支持 iOS 设备
- ☁️ 云服务集成:Browserbase、Kernel 等
❌ 缺点
- 📦 体积较大:Chromium 约 684MB
- ⚠️ 实验性功能:Native 模式不稳定
- 🐧 Linux 配置:需额外安装系统依赖
- 🍎 iOS 测试:需要 macOS + Xcode
- 💰 云服务:Browserbase 等需付费
⭐ 综合评分
⭐⭐⭐⭐⭐
4.8 / 5.0
强烈推荐 — AI 代理浏览器自动化首选工具
🔗 相关链接
- 📦 GitHub: github.com/vercel-labs/agent-browser
- 📚 文档: agent-browser.vercel.app
- 📦 NPM: npmjs.com/package/agent-browser
教程由 AI 自动生成 | 2026-03-06
标签:#AgentBrowser #浏览器自动化 #AI 代理 #Vercel #CLI 工具
评论
发表评论