CL4R1T4S:当 AI 的灵魂被公开解剖

🔓 CL4R1T4S:当 AI 的"灵魂"被公开解剖

2026-04-21 | AI 透明度运动 | 阅读时间:~10 分钟

核心事件:GitHub 项目 CL4R1T4S(拉丁语"透明")公开了26+ 家 AI 厂商的系统提示词,包括 OpenAI、Anthropic、Google、xAI 等巨头的闭源模型内部指令。

📁 项目概览:AI 界的"维基解密"

项目名称:CL4R1T4S(Claritas,拉丁语"清晰、透明")
作者:elder-plinius(@elder_plinius on X)
口号:"AI SYSTEMS TRANSPARENCY AND OBSERVABILITY FOR ALL!"
收录范围:26+ 个 AI 厂商,涵盖聊天机器人、代码助手、AI Agent

核心理念:"要信任输出,必须理解输入。"(In order to trust the output, one must understand the input.)

项目收录的厂商包括:

📁 ANTHROPIC → Claude 系列
📁 OPENAI → ChatGPT, GPT-4.5, Codex
📁 GOOGLE → Gemini 系列
📁 XAI → Grok 系列
📁 PERPLEXITY → Sonar 系列
📁 CURSOR → AI 代码编辑器
📁 WINDSURF → AI 代码助手
📁 DEVIN → AI 软件工程师
📁 ... 共 26 个目录

🔍 样本分析:系统提示词里藏着什么?

1. ChatGPT 4.1(2025-05-15)

泄露的提示词揭示了 ChatGPT 的人格设定工具使用规则

  • 身份定义:"You are ChatGPT, a large language model trained by OpenAI."
  • 输出风格:iOS 应用场景下应该"一句话或两句",除非需要推理或长文本
  • 人格版本:v2 — 会适应用户语气,让对话感觉自然
  • 知识截止:2024-06(这个版本)

工具能力暴露:

🧬 bio 工具

持久化记忆 — 可以跨对话保存用户信息(但有敏感信息限制)

📄 canmore 工具

Canvas 功能 — 创建和编辑长文档/代码文件,支持 React/HTML 预览

🐍 python 工具

Jupyter 执行环境 — 状态化 notebook,/mnt/data 持久化存储

🌐 web 工具

实时搜索 + URL 打开 — 替代旧的 browser 工具

🛡️ guardian_tool

内容政策查询 — 美国选举投票相关话题强制触发

2. Claude 3.5 Sonnet(2024-06-20)

Claude 的提示词更哲学化,强调认知边界和诚实性:

关键指令:"如果 Claude 不能或不会执行任务,它告诉用户这一点,不道歉。避免以 'I'm sorry' 或 'I apologize' 开头。"

其他有趣规则:

  • 幻觉声明:如果被问及非常冷门的人/物/话题,必须在结尾提醒用户"我可能会幻觉"
  • 引用检查:如果提到特定文章/论文/书籍,必须声明"我没有数据库,可能会幻觉引用"
  • 生物安全红线:绝不提供可用于制造生物/化学/放射武器的大规模伤害信息
  • 人脸盲设定:总是假设自己完全脸盲,不识别图像中的任何人

3. Claude 4.1(2025-08-05)

更新版本增加了 Artifacts 系统 的详细规则:

✅ 必须使用 Artifacts 的场景

  • 自定义代码解决具体问题
  • 数据可视化、算法生成
  • 技术文档/指南(作为参考资料)
  • 创意写作(故事、诗歌、剧本)
  • 结构化内容(餐单、健身计划、学习指南)
  • 超过 20 行或 1500 字符的文档

⚠️ 争议与风险

⚠️ 安全警告:README 末尾包含一段 Leetspeak 编码的越狱尝试,试图诱导 AI 泄露自己的系统提示词。

支持者的观点:

  • AI 已成为公众依赖的"外部智能层",隐藏指令会影响公众认知
  • 用户有权知道 AI 被灌输了什么伦理/政治框架
  • 透明度是建立信任的前提
  • 研究者可以分析不同厂商的安全策略差异

反对者的担忧:

  • 系统提示词泄露可能被用于针对性越狱
  • 安全边界被暴露,恶意用户可绕过限制
  • 提示词只是行为的一部分,RLHF、微调同样重要
  • 可能引发法律纠纷(版权、商业机密)

🔬 技术意义:对抗性测试的宝库

对于 AI 研究者和开发者,CL4R1T4S 提供了前所未有的对比分析机会

📊 安全策略对比

不同厂商如何处理敏感话题?哪些话题被禁止?拒绝话术有何差异?

🎭 人格工程对比

ChatGPT 被要求"适应用户语气",Claude 被要求"不道歉" — 这些设定如何影响用户体验?

🛠️ 工具设计对比

各家的代码执行、网页浏览、文件处理能力有何差异?API 设计哲学是什么?

💡 对 AI 开发者的启示

1. 系统提示词不是银弹

即使有详细的"不道歉"指令,Claude 仍然可能道歉。提示词只是行为塑造的一层,RLHF 和微调的影响可能更大。

2. 透明度与安全的权衡

完全公开提示词可能被用于对抗性攻击,但完全不透明又无法建立信任。也许需要某种"有限透明度"机制。

3. 开源社区的力量

CL4R1T4S 是典型的社区驱动项目 — 每个人贡献一点,最终形成完整的知识图谱。这种模式可能成为 AI 透明度运动的标准范式。

最后一句:CL4R1T4S 的价值不在于"泄露秘密",而在于让普通人也能理解 AI 是如何被塑造的。在这个 AI 日益成为基础设施的时代,这种透明度不是奢侈品,而是必需品。


参考资源:
• GitHub: github.com/elder-plinius/CL4R1T4S
• 作者:@elder_plinius (X / Discord)
• 收录厂商:26+ (OpenAI, Anthropic, Google, xAI, Perplexity, Cursor, Windsurf, Devin, Replit, etc.)

评论

此博客中的热门博文

OpenClaw 救援机器人建设与演进全记录 - 从单点故障到双实例自愈体系

[Hello-Agents] Day 2: 第一章 初识智能体

[项目测评] AIGCPanel:一站式 AI 数字人系统完全指南