🪟

GitHub 项目测评

Windows-MCP

让 AI Agent 像人类一样操控 Windows 系统

⭐ 4,696

GitHub Stars

🍴 584

Forks

🐍 Python

主要语言

🔓 MIT

开源许可

📌 项目简介

Windows-MCP 是一个轻量级、开源的 MCP（Model Context Protocol）服务器，由 CursorTouch 组织开发维护。它充当 AI 大语言模型与 Windows 操作系统之间的桥梁，让 Claude、GPT-4、Gemini 等 AI Agent 能够直接操控你的 Windows 电脑——打开应用程序、点击按钮、输入文字、执行 PowerShell 命令、读取屏幕内容，甚至进行复杂的 UI 自动化测试。

项目于 2025 年 5 月首次发布，短短十个月内便收获了超过 4,600 颗 Stars，并在 Claude Desktop Extensions 目录中达到了 200万+ 用户。目前已被收录进官方 MCP Registry，并可通过 PyPI 直接安装。

与传统的 RPA（机器人流程自动化）工具不同，Windows-MCP 不依赖计算机视觉或特定模型。它利用 Windows 的原生辅助功能 API（Accessibility API），通过 UI Automation 与系统交互，这意味着任何 LLM 都可以使用它，无需专门的视觉模型支持。

🎯 核心功能详解

🛠️ MCP 工具集

Windows-MCP 提供了一套完整的工具集，让 AI Agent 能够像人类一样操作 Windows：

工具名称	功能描述	风险等级
`Click`	在指定坐标点击屏幕	高
`Type`	在元素中输入文本（可选清除现有内容）	高
`Scroll`	垂直或水平滚动窗口或特定区域	低
`Move`	移动鼠标指针或拖拽元素	低
`Shortcut`	执行键盘快捷键（Ctrl+C、Alt+Tab 等）	高
`Wait`	暂停执行指定时长	安全
`Snapshot`	捕获桌面状态、应用列表、交互元素及截图	安全
`App`	启动应用、调整窗口大小、切换应用	中
`Shell`	执行 PowerShell 命令	关键
`Scrape`	抓取网页内容	安全*
`Clipboard`	读取或设置剪贴板内容	中
`Process`	列出运行进程或终止进程	高
`Registry`	读写、删除、列出注册表项	关键

🌐 DOM 模式（浏览器自动化）

Snapshot 工具支持特殊的 use_dom=True 模式，专门用于浏览器自动化。此模式下，工具会过滤掉浏览器 UI 元素，仅返回网页内容（DOM 树），让 AI 能够更精准地理解和操作网页元素。同时支持 use_vision=True 参数来包含截图，以及 display=[0] 或 display=[0,1] 来指定特定显示器（多屏场景）。

⚡ 性能特点

实时交互延迟：典型操作间延迟为 0.2 至 0.9 秒，具体取决于活动应用程序数量、系统负载和 LLM 推理速度。这个性能对于大多数自动化任务来说已经足够流畅。

v0.6.0 版本改进：通过异步批处理分析数据，工具执行延迟降低了约 6 倍，服务器启动时间也大幅缩短。

🔧 安装方法

前置要求

Python 3.13+（推荐使用最新版本）
UV 包管理器（Astra 出品的现代 Python 包管理器）
# 方式一：pip 安装 pip install uv # 方式二：官方脚本安装（推荐） curl -LsSf https://astral.sh/uv/install.sh | sh
Windows 系统：支持 Windows 7、8、8.1、10、11
语言设置：建议使用英文系统，其他语言需禁用 App-Tool

📋 方式一：Claude Desktop 安装（推荐）

最常用的安装方式，仅需修改配置文件：

步骤 1：安装 Claude Desktop 和 MCPB CLI：

                         npm install -g @anthropic-ai/mcpb                     

步骤 2：编辑 Claude Desktop 配置文件（位置：%APPDATA%\Claude\claude_desktop_config.json），添加：

                         {   "mcpServers": {     "windows-mcp": {       "command": "uvx",       "args": ["windows-mcp"]     }   } }                     

步骤 3：重启 Claude Desktop，开始使用！

⚠️ MSIX 版本用户注意事项

如果你从 Microsoft Store 安装 Claude Desktop（MSIX 版本），配置文件路径不同，且需要使用 uv.exe 的完整路径：

                         {   "mcpServers": {     "windows-mcp": {       "command": "C:\\Users\\<user>\\.local\\bin\\uv.exe",       "args": [         "--directory",         "C:\\Users\\<user>\\AppData\\Local\\Packages\\Claude_...",         "run",         "windows-mcp"       ]     }   } }                     

🖥️ 方式二：其他 MCP 客户端

Windows-MCP 支持多种 MCP 客户端，配置方式类似：

客户端	配置文件位置	安装命令
Perplexity Desktop	Settings → Connectors → Add Connector	`uvx windows-mcp`
Gemini CLI	`%USERPROFILE%/.gemini/settings.json`	`npm install -g @google/gemini-cli`
Qwen Code	`%USERPROFILE%/.qwen/settings.json`	`npm install -g @qwen-code/qwen-code@latest`
Codex CLI	`%USERPROFILE%/.codex/config.toml`	`npm install -g @openai/codex`

🖥️ 运行模式

📍 本地模式（默认）

本地模式下，Windows-MCP 直接在你的 Windows 机器上运行，MCP 客户端直接连接。这是最常用的个人使用方式。

                         # 标准 stdio 模式（默认）
uvx windows-mcp

# SSE 模式（网络访问）
uvx windows-mcp --transport sse --host localhost --port 8000

# HTTP 流模式（推荐用于生产环境）
uvx windows-mcp --transport streamable-http --host localhost --port 8000                     

☁️ 远程模式（VM 支持）

通过 windowsmcp.io 云服务，Windows-MCP 支持连接到云端 Windows 虚拟机。适合 MCP 客户端在远程机器上运行，而需要在 Windows 环境执行操作的场景。

配置示例：

                         {   "mcpServers": {     "windows-mcp": {       "command": "uvx",       "args": ["windows-mcp"],       "env": {         "MODE": "remote",         "SANDBOX_ID": "your-sandbox-id",         "API_KEY": "your-api-key"       }     }   } }                     

🔌 传输协议对比

协议	命令	适用场景
`stdio`（默认）	`--transport stdio`	本地直连（Claude Desktop、Cursor 等）
`sse`	`--transport sse --host HOST --port PORT`	Server-Sent Events 网络访问
`streamable-http`	`--transport streamable-http`	HTTP 流式传输（生产环境推荐）

💡 使用案例

案例一：自动化办公任务

场景：每天需要从 Excel 表格中提取数据，填入 Web 表单，并发送邮件报告。

AI 指令示例："打开 Excel 文件 data.xlsx，读取 B 列的数据，然后在浏览器中打开 https://forms.example.com，将数据依次填入表单，最后打开 Outlook 发送完成通知邮件。"

Windows-MCP 会自动执行：App 打开 Excel → Snapshot 获取界面状态 → Shell 读取数据 → App 打开浏览器 → Scrape 获取表单元素 → Type 填写数据 → App 打开 Outlook → Type 编写邮件 → Shortcut 发送。

案例二：UI 自动化测试

场景：测试 Windows 桌面应用程序的用户界面流程。

AI 指令示例："启动 MyApp.exe，点击'新建项目'按钮，在对话框中输入项目名称'Test-001'，选择'高级设置'，确认创建，然后截图验证结果。"

传统的 UI 自动化测试需要编写复杂脚本，而 Windows-MCP 让 AI 通过自然语言描述就能完成整个测试流程，包括边界情况的探索。

案例三：跨应用数据同步

场景：将邮件客户端中的附件保存到特定文件夹，并在 Notion 中创建对应记录。

AI 指令示例："检查 Outlook 收件箱中今天的未读邮件，将所有 PDF 附件保存到 D:\Documents\Invoices\，然后打开浏览器登录 Notion，创建新页面记录这些发票信息。"

案例四：Windows-Use：基于 Windows-MCP 的 Agent

项目团队还发布了 Windows-Use（PyPI），一个基于 Windows-MCP 构建的完整 AI Agent。用户可以直接安装使用，无需自己配置 MCP 服务器，开箱即用。

                         pip install windows-use                     

⚠️ 安全注意事项

🚨 重要警告：Windows-MCP 拥有完整的系统访问权限！

Windows-MCP 不是沙箱环境。它直接在你的真实 Windows 系统上执行操作，这意味着：

所有操作都是真实执行，没有中间层或模拟
许多操作不可撤销（文件删除、数据覆盖等）
如果 AI 被恶意操控，可能造成严重损害

🛡️ 推荐的安全部署方式

环境类型	推荐度	说明
虚拟机（VM）	✅ 强烈推荐	使用 VMware、VirtualBox、Hyper-V，操作前创建快照
Windows Sandbox	✅ 推荐	Windows 10/11 Pro 内置沙箱，每次启动都是干净环境
专用测试机	⚠️ 可接受	无重要数据，可随时重装的独立机器
生产环境/主机	❌ 不推荐	有重要数据或连接敏感系统的机器

📊 遥测数据收集

Windows-MCP 默认收集匿名使用数据以改进项目。不收集：工具参数、工具输出、个人身份信息。收集：工具执行状态、执行时长、工具名称、客户端名称/版本、匿名会话 ID。

如需禁用遥测，在配置中添加环境变量：

                         "env": { "ANONYMIZED_TELEMETRY": "false" }                     

⚖️ 优缺点分析

✅ 优点

模型无关：不依赖特定 LLM 或视觉模型，任何支持 MCP 的 AI 都可使用
工具全面：15+ 工具覆盖鼠标、键盘、应用、Shell、剪贴板、注册表等操作
安装简单：支持 PyPI 直接安装（uvx windows-mcp），一键配置
多客户端支持：Claude Desktop、Perplexity、Gemini CLI、Qwen Code、Codex CLI 等
性能优秀：0.2-0.9 秒操作延迟，v0.6.0 后性能提升约 6 倍
活跃开发：频繁更新，最新版本 v0.6.9，社区活跃（4,696 Stars，584 Forks）
文档完善：详细的安装指南、安全文档、API 说明
云服务支持：通过 windowsmcp.io 支持 VM 远程模式

❌ 缺点与限制

仅限 Windows：不支持 macOS、Linux 等其他操作系统
安全风险高：直接操作系统，可能执行不可逆的破坏性操作
语言依赖：App-Tool 需要英文系统，其他语言需禁用此工具
不适合 IDE 编程：Type 工具不适合在 IDE 中编写代码（会一次性输入整段代码）
无法选择文本片段：由于依赖 Accessibility API，无法精确定位段落中的特定文字
不支持游戏：作者明确表示不能用于玩游戏
首次启动较慢：安装依赖需要时间，可能触发超时（需重启）

🎯 适用场景

✅ 推荐使用	❌ 不推荐使用
个人效率自动化（邮件、文档处理）桌面应用 QA 测试跨应用数据同步 Web 表单自动填写演示/培训环境自动化	生产服务器/关键基础设施敏感数据处理（金融、医疗）无备份的重要数据机器多人共享系统合规要求严格的环境

📦 版本更新

v0.6.9（最新版本，2026-03-13）

工具可发现性改进：为 App、PowerShell、Snapshot、Scrape、Clipboard、Process、Registry 添加关键词同义词，AI 客户端首次搜索即可找到正确工具
Scrape 采样：使用 MCP 采样在服务器端总结网页内容，减少调用方上下文中的 markdown 膨胀
Snapshot 快速截图：use_ui_tree=False 跳过耗时的可访问性树遍历，仅截图
App resize 改进：name 参数可直接指定窗口
多显示器支持：display=[0] 或 display=[0,1] 限制输出到特定屏幕

v0.6.0（性能里程碑）

性能优化：修复 PostHog 分析导致的延迟，工具执行速度提升约 6 倍
初始化改进：修复服务器启动过慢的问题
Bug 修复：解决应用切换时的"Thread Detach Error"

📊 项目信息

项目地址	github.com/CursorTouch/Windows-MCP
PyPI 安装	`uvx windows-mcp`
主要开发者	Jeomon（225 commits）
开源许可	MIT License
编程语言	Python（100%）
创建时间	2025年5月13日
社区渠道	Twitter/X Discord
依赖项目	UIAutomation PyAutoGUI

📝 总结

Windows-MCP 是 MCP 生态中一颗耀眼的明星。它解决了 AI Agent 与操作系统交互的核心难题，让 Claude、GPT-4 等大模型能够"看见"并"操控"Windows 桌面环境。与传统的自动化脚本或 RPA 工具相比，Windows-MCP 的优势在于：自然语言驱动、模型无关、工具丰富、社区活跃。

对于希望在 Windows 环境实现智能自动化的开发者来说，这是一个值得投入时间学习和使用的项目。但务必记住：始终在安全的虚拟机或沙箱环境中测试，不要在生产机器上冒险。

随着更多 MCP 客户端的出现和 AI 能力的增强，Windows-MCP 的应用场景只会越来越广。如果你是 Windows 用户且对 AI 自动化感兴趣，现在就是加入的最佳时机！

🔗 项目链接： GitHub 仓库 | PyPI 包 | 官方网站

测评时间：2026年3月14日 | 版本：v0.6.9 | 许可证：MIT

搜索此博客

虾米小站