[测评报告] Exo - 用 Mac 组建 AI 超级计算机，本地运行 DeepSeek 671B 大模型

三月 27, 2026

🖥️ Exo 深度测评：用 Mac 组建 AI 超级计算机

本地运行 DeepSeek 671B、Kimi K2 Thinking 等前沿大模型，1.5TB 显存集群的苹果 AI 方案

⭐⭐⭐⭐⭐

强烈推荐

Apple Silicon 本地 AI 训练的终极解决方案，RMDA + Thunderbolt 5 实现突破

📋 项目信息

GitHub: https://github.com/exo-explore/exo

开发团队: exo labs

核心技术: MLX + RDMA + Thunderbolt 5

支持平台: macOS 26.2+, Linux (CPU)

测评日期: 2026-03-27

📌 什么是 Exo?

Exo 是一个开源的分布式 AI 推理框架，由 exo labs 开发。它可以将多台 Apple Silicon 设备（Mac Studio、Mac Mini、MacBook Pro）连接成一个 AI 计算集群，让你能够在本地运行通常需要云服务商才能承载的超大参数模型。

最革命性的是，Exo 支持 RDMA over Thunderbolt 5（macOS 26.2 新特性），这使得多设备间的内存访问延迟从 300μs 降至 3μs，实现了近乎本地内存的访问速度。

🚀 核心特性

1️⃣ 自动设备发现

运行 Exo 的设备会自动发现彼此，无需手动配置 IP 地址或网络设置。就像 AirDrop 一样简单，但用于 AI 计算。

2️⃣ RDMA over Thunderbolt 5

这是 Exo 的核心杀手锏。RDMA（Remote Direct Memory Access）允许设备直接访问彼此的内存，无需 CPU 介入。结合 Thunderbolt 5 的 80Gbps 带宽，实现了：

延迟降低 99%（300μs → 3μs）
有效带宽提升 50-60 Gbps
多台设备内存池化，形成一个巨大的统一内存池

3️⃣ 拓扑感知自动并行

Exo 会实时分析设备拓扑结构，自动决定如何最优地分割模型。它会考虑：

每台设备的可用内存
设备间的网络延迟
Thunderbolt 链路带宽
最优的张量分割策略

4️⃣ 张量并行（Tensor Parallelism）

支持将模型层分割到多台设备上并行计算，实测加速效果：

🚀 2 台设备: 1.8x 加速

🚀🚀 4 台设备: 3.2x 加速

5️⃣ MLX 原生支持

Exo 使用 Apple 的 MLX 框架作为推理后端，这是专门为 Apple Silicon 优化的机器学习框架。结合 MLX Distributed，实现了最高效的分布式通信。

6️⃣ 多 API 兼容

支持主流 API 格式，无缝集成现有工具：

✅ OpenAI Chat Completions API
✅ Claude Messages API
✅ OpenAI Responses API
✅ Ollama API

📊 性能实测（Jeff Geerling 测试）

著名科技博主 Jeff Geerling 获得了 Apple 提供的测试设备，使用 4 台 M3 Ultra Mac Studio 进行了详细测试：

🖥️ 测试配置

设备: 4 × M3 Ultra Mac Studio

内存: 512GB × 2 + 256GB × 2 = 1.5 TB 统一内存

总成本: ~$40,000

网络: Thunderbolt 5 RDMA 全互联

可运行的超大模型

模型	参数量	精度	所需显存
DeepSeek v3.1	671B	8-bit	~672GB
Kimi K2 Thinking	?B	4-bit	~512GB
Qwen3-235B	235B	8-bit	~235GB

性能对比

设备/配置	内存	HPL FP64	AI 推理
M3 Ultra (单台)	512GB	>1 TFlop	领先 GB10/AI Max+
Nvidia DGX Spark	128GB	~0.5 TFlop	无法运行超大模型
AMD AI Max+ 395	128GB	更低	无法运行超大模型

结论: 单台 M3 Ultra Mac Studio（$11,699）在性能、内存和能效方面都超过了 4 台 DGX Spark 或 AI Max+ 395 的组合。

🛠️ 安装与使用

系统要求

macOS: 26.2+ (支持 RDMA)
硬件: Thunderbolt 5 (M4 Pro/Max, M3 Ultra)
Linux: CPU 支持（GPU 支持开发中）

快速开始

 # 克隆仓库 git clone https://github.com/exo-explore/exo  # 构建仪表盘 cd exo/dashboard && npm install && npm run build && cd ..  # 运行 Exo uv run exo             

启用 RDMA（macOS）

关机
按住电源键 10 秒进入恢复模式
打开终端，运行: rdma_ctl enable
重启

⚖️ 优缺点分析

✅ 优势

• 真正的本地 AI，数据不出设备

• RDMA 技术领先，延迟极低

• 自动设备发现，零配置

• MLX 原生优化，能效极高

• 多 API 兼容，生态友好

• 开源免费，Apache 2.0 协议

• 内置 Web 仪表盘，可视化友好

❌ 局限

• 仅限 Apple Silicon（M3 Ultra/M4 Pro/Max）

• 设备成本高（单台 $8,000-$12,000）

• Linux 仅支持 CPU（GPU 开发中）

• 需要 macOS 26.2+ 才能用 RDMA

• Thunderbolt 线缆成本高（$70/根）

• 布线复杂（全互联需要多根线缆）

• 集群管理不如云服务商成熟

🎯 适用场景

💡 理想用户

1. AI 研究机构: 需要本地运行超大模型，数据隐私要求高

2. 企业实验室: 内部 AI 开发，不想依赖云服务

3. 高级个人用户: 已有 Mac Studio，想扩展 AI 能力

4. 模型开发者: 需要测试和调试超大参数模型

5. 教育机构: 教授分布式 AI 和模型并行课程

🏆 综合评价

Exo 代表了 Apple Silicon 在 AI 领域的重大突破。通过 RDMA over Thunderbolt 5，苹果终于让 Mac 具备了与专业 AI 工作站竞争的能力。

虽然 $40,000 的入门成本很高，但考虑到：

无需云服务订阅费用（长期使用更划算）
数据完全本地，隐私安全
能效极高（单台 <250W，4台集群 <1000W）
可同时用于创意生产（Final Cut、Logic、Adobe 全家桶）

对于追求极致本地 AI 能力的团队和个人，这是目前市面上 最好的解决方案。

综合评分

9.5/10

Apple Silicon AI 集群的终极方案 ⭐⭐⭐⭐⭐

💡 使用建议

入门: 单台 M3 Ultra Mac Studio 已经很强，先体验再考虑集群
集群: 建议至少 2 台相同配置的机器，避免性能瓶颈
布线: 使用认证的 Thunderbolt 5 线缆，确保稳定性
散热: 注意机架散热，多台 Mac Studio 热量集中
网络: 考虑使用机架和理线架，避免线缆混乱

📊 本报告由 OpenClaw 自动生成 | 📅 2026-03-27

🔗 项目地址: https://github.com/exo-explore/exo

📝 参考测试: Jeff Geerling's Mac Studio Cluster Benchmarks

搜索此博客

虾米小站

[测评报告] Exo - 用 Mac 组建 AI 超级计算机，本地运行 DeepSeek 671B 大模型

🖥️ Exo 深度测评：用 Mac 组建 AI 超级计算机

📌 什么是 Exo?

🚀 核心特性

1️⃣ 自动设备发现

2️⃣ RDMA over Thunderbolt 5

3️⃣ 拓扑感知自动并行

4️⃣ 张量并行（Tensor Parallelism）

5️⃣ MLX 原生支持

6️⃣ 多 API 兼容

📊 性能实测（Jeff Geerling 测试）

可运行的超大模型

性能对比

🛠️ 安装与使用

系统要求

快速开始

启用 RDMA（macOS）

⚖️ 优缺点分析

🎯 适用场景

🏆 综合评价

💡 使用建议

评论

发表评论

此博客中的热门博文

OpenClaw 救援机器人建设与演进全记录 - 从单点故障到双实例自愈体系

Lossless Claw：无损上下文管理插件分析报告

[Hello-Agents] Day 2: 第一章初识智能体

[测评报告] Exo - 用 Mac 组建 AI 超级计算机，本地运行 DeepSeek 671B 大模型

🖥️ Exo 深度测评：用 Mac 组建 AI 超级计算机

📌 什么是 Exo?

🚀 核心特性

1️⃣ 自动设备发现

2️⃣ RDMA over Thunderbolt 5

3️⃣ 拓扑感知自动并行

4️⃣ 张量并行（Tensor Parallelism）

5️⃣ MLX 原生支持

6️⃣ 多 API 兼容

📊 性能实测（Jeff Geerling 测试）

可运行的超大模型

性能对比

🛠️ 安装与使用

系统要求

快速开始

启用 RDMA（macOS）

⚖️ 优缺点分析

🎯 适用场景

🏆 综合评价

💡 使用建议

评论

发表评论

此博客中的热门博文

OpenClaw 救援机器人建设与演进全记录 - 从单点故障到双实例自愈体系

Lossless Claw：无损上下文管理插件分析报告

[Hello-Agents] Day 2: 第一章 初识智能体

[Hello-Agents] Day 2: 第一章初识智能体