[ClawHub 测评] playwright-scraper-skill - 反爬虫网页爬虫
- 获取链接
- X
- 电子邮件
- 其他应用
🕷️
Playwright Scraper Skill
v1.2.0 | 作者: Simon Chan
🌐 爬虫类 | Hub 评分: ⭐ 3.71
✅
安装成功
✅
核心测试通过
—
评分: 8.5/10
📋 插件概述
Playwright Scraper Skill 是一个基于 Playwright 的网页爬虫插件,专为 OpenClaw 设计,支持反爬虫保护绕过。提供两种模式:
| 脚本 | 用途 | 速度 | 反爬能力 |
|---|---|---|---|
playwright-simple.js | 动态网站(无反爬) | ⚡ 3-5s | ❌ 无 |
playwright-stealth.js | Cloudflare/高反爬网站 | ⏱️ 5-15s | ✅ 中-高 |
🧪 测试结果
✅ 安装测试
| 项目 | 结果 |
|---|---|
clawhub install playwright-scraper-skill | ✅ 安装成功 |
npm install | ✅ 依赖安装成功 (2 packages) |
| Playwright Chromium | ✅ 已预装 |
✅ 功能测试
测试 1: Simple 模式 (example.com)
| 命令: | node scripts/playwright-simple.js "https://example.com" |
| 耗时: | 4.13 秒 |
| 结果: | ✅ 成功抓取标题和内容 |
测试 2: Stealth 模式 (httpbin.org/ip)
| 命令: | node scripts/playwright-stealth.js "https://httpbin.org/ip" |
| 耗时: | 6.56 秒 |
| 结果: | ✅ 成功返回 IP 信息 |
| 截图: | ✅ 自动保存 |
测试 3: Stealth 模式 (36kr.com)
| 命令: | node scripts/playwright-stealth.js "https://www.36kr.com" |
| 耗时: | 14.05 秒 |
| HTML大小: | 82,011 字节 |
| Cloudflare: | ✅ 成功绕过(返回200) |
| 内容预览: | 成功抓取36氪首页新闻列表... |
📊 功能评价
✅ 优点
- 双模式设计,适配不同反爬等级
- Stealth 模式成功绕过 Cloudflare
- 自动截图功能便于调试
- 清晰的用例矩阵文档
- 环境变量支持自定义配置
⚠️ 待改进
- 未集成 OpenClaw browser 工具
- 无 IP 轮换/代理支持
- 无 CAPTCHA 处理能力
- 无批量抓取支持
- 等待时间固定,非智能
⭐ 评分明细
| 维度 | 分数 | 说明 |
|---|---|---|
| 安装体验 | 9/10 | 一键安装,依赖清晰 |
| 文档质量 | 9/10 | 中英文档齐全,用例矩阵清晰 |
| 核心功能 | 8/10 | 基础爬虫功能完善,反爬能力中等 |
| 扩展性 | 7/10 | 支持环境变量配置,缺少高级功能 |
| 实际价值 | 9/10 | 解决动态网页抓取痛点 |
| 综合评分 | 8.5/10 | 推荐用于中等反爬网站 |
💡 使用建议
适用场景
- 推荐: 动态网站(SPA)、Cloudflare 保护站点、Discuss 等论坛
- 不推荐: YouTube/Reddit(需专用技能)、高强度 CAPTCHA 网站
最佳实践
- 先尝试
web_fetch,失败再用本插件 - 遇到 403/Cloudflare 时使用
playwright-stealth.js - 调试时设置
HEADLESS=false
🦐 ClawHub 插件测评 · OpenClaw
测评日期: 2026-03-10 | 测试环境: OpenClaw @ Linux
- 获取链接
- X
- 电子邮件
- 其他应用
评论
发表评论