GitHub 项目测评:Windows-MCP - 让 AI Agent 操控 Windows 系统

🪟

GitHub 项目测评

Windows-MCP
让 AI Agent 像人类一样操控 Windows 系统
⭐ 4,696
GitHub Stars
🍴 584
Forks
🐍 Python
主要语言
🔓 MIT
开源许可

📌 项目简介

Windows-MCP 是一个轻量级、开源的 MCP(Model Context Protocol)服务器,由 CursorTouch 组织开发维护。它充当 AI 大语言模型与 Windows 操作系统之间的桥梁,让 Claude、GPT-4、Gemini 等 AI Agent 能够直接操控你的 Windows 电脑——打开应用程序、点击按钮、输入文字、执行 PowerShell 命令、读取屏幕内容,甚至进行复杂的 UI 自动化测试。

项目于 2025 年 5 月首次发布,短短十个月内便收获了超过 4,600 颗 Stars,并在 Claude Desktop Extensions 目录中达到了 200万+ 用户。目前已被收录进官方 MCP Registry,并可通过 PyPI 直接安装。

与传统的 RPA(机器人流程自动化)工具不同,Windows-MCP 不依赖计算机视觉或特定模型。它利用 Windows 的原生辅助功能 API(Accessibility API),通过 UI Automation 与系统交互,这意味着任何 LLM 都可以使用它,无需专门的视觉模型支持。

🎯 核心功能详解

🛠️ MCP 工具集

Windows-MCP 提供了一套完整的工具集,让 AI Agent 能够像人类一样操作 Windows:

工具名称 功能描述 风险等级
Click 在指定坐标点击屏幕
Type 在元素中输入文本(可选清除现有内容)
Scroll 垂直或水平滚动窗口或特定区域
Move 移动鼠标指针或拖拽元素
Shortcut 执行键盘快捷键(Ctrl+C、Alt+Tab 等)
Wait 暂停执行指定时长 安全
Snapshot 捕获桌面状态、应用列表、交互元素及截图 安全
App 启动应用、调整窗口大小、切换应用
Shell 执行 PowerShell 命令 关键
Scrape 抓取网页内容 安全*
Clipboard 读取或设置剪贴板内容
Process 列出运行进程或终止进程
Registry 读写、删除、列出注册表项 关键

🌐 DOM 模式(浏览器自动化)

Snapshot 工具支持特殊的 use_dom=True 模式,专门用于浏览器自动化。此模式下,工具会过滤掉浏览器 UI 元素,仅返回网页内容(DOM 树),让 AI 能够更精准地理解和操作网页元素。同时支持 use_vision=True 参数来包含截图,以及 display=[0]display=[0,1] 来指定特定显示器(多屏场景)。

⚡ 性能特点

实时交互延迟:典型操作间延迟为 0.2 至 0.9 秒,具体取决于活动应用程序数量、系统负载和 LLM 推理速度。这个性能对于大多数自动化任务来说已经足够流畅。

v0.6.0 版本改进:通过异步批处理分析数据,工具执行延迟降低了约 6 倍,服务器启动时间也大幅缩短。

🔧 安装方法

前置要求

  • Python 3.13+(推荐使用最新版本)
  • UV 包管理器(Astra 出品的现代 Python 包管理器)
    # 方式一:pip 安装
    pip install uv

    # 方式二:官方脚本安装(推荐)
    curl -LsSf https://astral.sh/uv/install.sh | sh
  • Windows 系统:支持 Windows 7、8、8.1、10、11
  • 语言设置:建议使用英文系统,其他语言需禁用 App-Tool

📋 方式一:Claude Desktop 安装(推荐)

最常用的安装方式,仅需修改配置文件:

步骤 1:安装 Claude Desktop 和 MCPB CLI:

npm install -g @anthropic-ai/mcpb

步骤 2:编辑 Claude Desktop 配置文件(位置:%APPDATA%\Claude\claude_desktop_config.json),添加:

{ "mcpServers": { "windows-mcp": { "command": "uvx", "args": ["windows-mcp"] } } }

步骤 3:重启 Claude Desktop,开始使用!

⚠️ MSIX 版本用户注意事项

如果你从 Microsoft Store 安装 Claude Desktop(MSIX 版本),配置文件路径不同,且需要使用 uv.exe 的完整路径:

{ "mcpServers": { "windows-mcp": { "command": "C:\\Users\\<user>\\.local\\bin\\uv.exe", "args": [ "--directory", "C:\\Users\\<user>\\AppData\\Local\\Packages\\Claude_...", "run", "windows-mcp" ] } } }

🖥️ 方式二:其他 MCP 客户端

Windows-MCP 支持多种 MCP 客户端,配置方式类似:

客户端 配置文件位置 安装命令
Perplexity Desktop Settings → Connectors → Add Connector uvx windows-mcp
Gemini CLI %USERPROFILE%/.gemini/settings.json npm install -g @google/gemini-cli
Qwen Code %USERPROFILE%/.qwen/settings.json npm install -g @qwen-code/qwen-code@latest
Codex CLI %USERPROFILE%/.codex/config.toml npm install -g @openai/codex

🖥️ 运行模式

📍 本地模式(默认)

本地模式下,Windows-MCP 直接在你的 Windows 机器上运行,MCP 客户端直接连接。这是最常用的个人使用方式。

# 标准 stdio 模式(默认)
uvx windows-mcp

# SSE 模式(网络访问)
uvx windows-mcp --transport sse --host localhost --port 8000

# HTTP 流模式(推荐用于生产环境)
uvx windows-mcp --transport streamable-http --host localhost --port 8000

☁️ 远程模式(VM 支持)

通过 windowsmcp.io 云服务,Windows-MCP 支持连接到云端 Windows 虚拟机。适合 MCP 客户端在远程机器上运行,而需要在 Windows 环境执行操作的场景。

配置示例:

{ "mcpServers": { "windows-mcp": { "command": "uvx", "args": ["windows-mcp"], "env": { "MODE": "remote", "SANDBOX_ID": "your-sandbox-id", "API_KEY": "your-api-key" } } } }

🔌 传输协议对比

协议 命令 适用场景
stdio(默认) --transport stdio 本地直连(Claude Desktop、Cursor 等)
sse --transport sse --host HOST --port PORT Server-Sent Events 网络访问
streamable-http --transport streamable-http HTTP 流式传输(生产环境推荐)

💡 使用案例

案例一:自动化办公任务

场景:每天需要从 Excel 表格中提取数据,填入 Web 表单,并发送邮件报告。

AI 指令示例:"打开 Excel 文件 data.xlsx,读取 B 列的数据,然后在浏览器中打开 https://forms.example.com,将数据依次填入表单,最后打开 Outlook 发送完成通知邮件。"

Windows-MCP 会自动执行:App 打开 Excel → Snapshot 获取界面状态 → Shell 读取数据 → App 打开浏览器 → Scrape 获取表单元素 → Type 填写数据 → App 打开 Outlook → Type 编写邮件 → Shortcut 发送。

案例二:UI 自动化测试

场景:测试 Windows 桌面应用程序的用户界面流程。

AI 指令示例:"启动 MyApp.exe,点击'新建项目'按钮,在对话框中输入项目名称'Test-001',选择'高级设置',确认创建,然后截图验证结果。"

传统的 UI 自动化测试需要编写复杂脚本,而 Windows-MCP 让 AI 通过自然语言描述就能完成整个测试流程,包括边界情况的探索。

案例三:跨应用数据同步

场景:将邮件客户端中的附件保存到特定文件夹,并在 Notion 中创建对应记录。

AI 指令示例:"检查 Outlook 收件箱中今天的未读邮件,将所有 PDF 附件保存到 D:\Documents\Invoices\,然后打开浏览器登录 Notion,创建新页面记录这些发票信息。"

案例四:Windows-Use:基于 Windows-MCP 的 Agent

项目团队还发布了 Windows-UsePyPI),一个基于 Windows-MCP 构建的完整 AI Agent。用户可以直接安装使用,无需自己配置 MCP 服务器,开箱即用。

pip install windows-use

⚠️ 安全注意事项

🚨 重要警告:Windows-MCP 拥有完整的系统访问权限!

Windows-MCP 不是沙箱环境。它直接在你的真实 Windows 系统上执行操作,这意味着:

  • 所有操作都是真实执行,没有中间层或模拟
  • 许多操作不可撤销(文件删除、数据覆盖等)
  • 如果 AI 被恶意操控,可能造成严重损害

🛡️ 推荐的安全部署方式

环境类型 推荐度 说明
虚拟机(VM) ✅ 强烈推荐 使用 VMware、VirtualBox、Hyper-V,操作前创建快照
Windows Sandbox ✅ 推荐 Windows 10/11 Pro 内置沙箱,每次启动都是干净环境
专用测试机 ⚠️ 可接受 无重要数据,可随时重装的独立机器
生产环境/主机 ❌ 不推荐 有重要数据或连接敏感系统的机器

📊 遥测数据收集

Windows-MCP 默认收集匿名使用数据以改进项目。不收集:工具参数、工具输出、个人身份信息。收集:工具执行状态、执行时长、工具名称、客户端名称/版本、匿名会话 ID。

如需禁用遥测,在配置中添加环境变量:

"env": { "ANONYMIZED_TELEMETRY": "false" }

⚖️ 优缺点分析

✅ 优点
  • 模型无关:不依赖特定 LLM 或视觉模型,任何支持 MCP 的 AI 都可使用
  • 工具全面:15+ 工具覆盖鼠标、键盘、应用、Shell、剪贴板、注册表等操作
  • 安装简单:支持 PyPI 直接安装(uvx windows-mcp),一键配置
  • 多客户端支持:Claude Desktop、Perplexity、Gemini CLI、Qwen Code、Codex CLI 等
  • 性能优秀:0.2-0.9 秒操作延迟,v0.6.0 后性能提升约 6 倍
  • 活跃开发:频繁更新,最新版本 v0.6.9,社区活跃(4,696 Stars,584 Forks)
  • 文档完善:详细的安装指南、安全文档、API 说明
  • 云服务支持:通过 windowsmcp.io 支持 VM 远程模式
❌ 缺点与限制
  • 仅限 Windows:不支持 macOS、Linux 等其他操作系统
  • 安全风险高:直接操作系统,可能执行不可逆的破坏性操作
  • 语言依赖:App-Tool 需要英文系统,其他语言需禁用此工具
  • 不适合 IDE 编程:Type 工具不适合在 IDE 中编写代码(会一次性输入整段代码)
  • 无法选择文本片段:由于依赖 Accessibility API,无法精确定位段落中的特定文字
  • 不支持游戏:作者明确表示不能用于玩游戏
  • 首次启动较慢:安装依赖需要时间,可能触发超时(需重启)
🎯 适用场景
✅ 推荐使用 ❌ 不推荐使用
  • 个人效率自动化(邮件、文档处理)
  • 桌面应用 QA 测试
  • 跨应用数据同步
  • Web 表单自动填写
  • 演示/培训环境自动化
  • 生产服务器/关键基础设施
  • 敏感数据处理(金融、医疗)
  • 无备份的重要数据机器
  • 多人共享系统
  • 合规要求严格的环境

📦 版本更新

v0.6.9(最新版本,2026-03-13)

  • 工具可发现性改进:为 App、PowerShell、Snapshot、Scrape、Clipboard、Process、Registry 添加关键词同义词,AI 客户端首次搜索即可找到正确工具
  • Scrape 采样:使用 MCP 采样在服务器端总结网页内容,减少调用方上下文中的 markdown 膨胀
  • Snapshot 快速截图use_ui_tree=False 跳过耗时的可访问性树遍历,仅截图
  • App resize 改进name 参数可直接指定窗口
  • 多显示器支持display=[0]display=[0,1] 限制输出到特定屏幕

v0.6.0(性能里程碑)

  • 性能优化:修复 PostHog 分析导致的延迟,工具执行速度提升约 6 倍
  • 初始化改进:修复服务器启动过慢的问题
  • Bug 修复:解决应用切换时的"Thread Detach Error"

📊 项目信息

项目地址 github.com/CursorTouch/Windows-MCP
PyPI 安装 uvx windows-mcp
主要开发者 Jeomon(225 commits)
开源许可 MIT License
编程语言 Python(100%)
创建时间 2025年5月13日
社区渠道 Twitter/X Discord
依赖项目 UIAutomation PyAutoGUI

📝 总结

Windows-MCP 是 MCP 生态中一颗耀眼的明星。它解决了 AI Agent 与操作系统交互的核心难题,让 Claude、GPT-4 等大模型能够"看见"并"操控"Windows 桌面环境。与传统的自动化脚本或 RPA 工具相比,Windows-MCP 的优势在于:自然语言驱动模型无关工具丰富社区活跃

对于希望在 Windows 环境实现智能自动化的开发者来说,这是一个值得投入时间学习和使用的项目。但务必记住:始终在安全的虚拟机或沙箱环境中测试,不要在生产机器上冒险。

随着更多 MCP 客户端的出现和 AI 能力的增强,Windows-MCP 的应用场景只会越来越广。如果你是 Windows 用户且对 AI 自动化感兴趣,现在就是加入的最佳时机!

🔗 项目链接: GitHub 仓库 | PyPI 包 | 官方网站

测评时间:2026年3月14日 | 版本:v0.6.9 | 许可证:MIT

评论

此博客中的热门博文

OpenClaw 救援机器人建设与演进全记录 - 从单点故障到双实例自愈体系

Lossless Claw:无损上下文管理插件分析报告

[Hello-Agents] Day 2: 第一章 初识智能体