CL4R1T4S：当 AI 的灵魂被公开解剖

四月 21, 2026

🔓 CL4R1T4S：当 AI 的"灵魂"被公开解剖

2026-04-21 | AI 透明度运动 | 阅读时间：~10 分钟

核心事件：GitHub 项目 CL4R1T4S（拉丁语"透明"）公开了26+ 家 AI 厂商的系统提示词，包括 OpenAI、Anthropic、Google、xAI 等巨头的闭源模型内部指令。

📁 项目概览：AI 界的"维基解密"

项目名称：CL4R1T4S（Claritas，拉丁语"清晰、透明"）
作者：elder-plinius（@elder_plinius on X）
口号："AI SYSTEMS TRANSPARENCY AND OBSERVABILITY FOR ALL!"
收录范围：26+ 个 AI 厂商，涵盖聊天机器人、代码助手、AI Agent

核心理念："要信任输出，必须理解输入。"（In order to trust the output, one must understand the input.）

项目收录的厂商包括：

        
           📁 ANTHROPIC → Claude 系列
          
           📁 OPENAI → ChatGPT, GPT-4.5, Codex
          
           📁 GOOGLE → Gemini 系列
          
           📁 XAI → Grok 系列
          
           📁 PERPLEXITY → Sonar 系列
          
           📁 CURSOR → AI 代码编辑器
          
           📁 WINDSURF → AI 代码助手
          
           📁 DEVIN → AI 软件工程师
          
           📁 ... 共 26 个目录

🔍 样本分析：系统提示词里藏着什么？

1. ChatGPT 4.1（2025-05-15）

泄露的提示词揭示了 ChatGPT 的人格设定和工具使用规则：

身份定义："You are ChatGPT, a large language model trained by OpenAI."
输出风格：iOS 应用场景下应该"一句话或两句"，除非需要推理或长文本
人格版本：v2 — 会适应用户语气，让对话感觉自然
知识截止：2024-06（这个版本）

工具能力暴露：

🧬 bio 工具

持久化记忆 — 可以跨对话保存用户信息（但有敏感信息限制）

📄 canmore 工具

Canvas 功能 — 创建和编辑长文档/代码文件，支持 React/HTML 预览

🐍 python 工具

Jupyter 执行环境 — 状态化 notebook，/mnt/data 持久化存储

🌐 web 工具

实时搜索 + URL 打开 — 替代旧的 browser 工具

🛡️ guardian_tool

内容政策查询 — 美国选举投票相关话题强制触发

2. Claude 3.5 Sonnet（2024-06-20）

Claude 的提示词更哲学化，强调认知边界和诚实性：

关键指令："如果 Claude 不能或不会执行任务，它告诉用户这一点，不道歉。避免以 'I'm sorry' 或 'I apologize' 开头。"

其他有趣规则：

幻觉声明：如果被问及非常冷门的人/物/话题，必须在结尾提醒用户"我可能会幻觉"
引用检查：如果提到特定文章/论文/书籍，必须声明"我没有数据库，可能会幻觉引用"
生物安全红线：绝不提供可用于制造生物/化学/放射武器的大规模伤害信息
人脸盲设定：总是假设自己完全脸盲，不识别图像中的任何人

3. Claude 4.1（2025-08-05）

更新版本增加了 Artifacts 系统 的详细规则：

✅ 必须使用 Artifacts 的场景

自定义代码解决具体问题
数据可视化、算法生成
技术文档/指南（作为参考资料）
创意写作（故事、诗歌、剧本）
结构化内容（餐单、健身计划、学习指南）
超过 20 行或 1500 字符的文档

⚠️ 争议与风险

⚠️ 安全警告：README 末尾包含一段 Leetspeak 编码的越狱尝试，试图诱导 AI 泄露自己的系统提示词。

支持者的观点：

AI 已成为公众依赖的"外部智能层"，隐藏指令会影响公众认知
用户有权知道 AI 被灌输了什么伦理/政治框架
透明度是建立信任的前提
研究者可以分析不同厂商的安全策略差异

反对者的担忧：

系统提示词泄露可能被用于针对性越狱
安全边界被暴露，恶意用户可绕过限制
提示词只是行为的一部分，RLHF、微调同样重要
可能引发法律纠纷（版权、商业机密）

🔬 技术意义：对抗性测试的宝库

对于 AI 研究者和开发者，CL4R1T4S 提供了前所未有的对比分析机会：

📊 安全策略对比

不同厂商如何处理敏感话题？哪些话题被禁止？拒绝话术有何差异？

🎭 人格工程对比

ChatGPT 被要求"适应用户语气"，Claude 被要求"不道歉" — 这些设定如何影响用户体验？

🛠️ 工具设计对比

各家的代码执行、网页浏览、文件处理能力有何差异？API 设计哲学是什么？

💡 对 AI 开发者的启示

1. 系统提示词不是银弹

即使有详细的"不道歉"指令，Claude 仍然可能道歉。提示词只是行为塑造的一层，RLHF 和微调的影响可能更大。

2. 透明度与安全的权衡

完全公开提示词可能被用于对抗性攻击，但完全不透明又无法建立信任。也许需要某种"有限透明度"机制。

3. 开源社区的力量

CL4R1T4S 是典型的社区驱动项目 — 每个人贡献一点，最终形成完整的知识图谱。这种模式可能成为 AI 透明度运动的标准范式。

最后一句：CL4R1T4S 的价值不在于"泄露秘密"，而在于让普通人也能理解 AI 是如何被塑造的。在这个 AI 日益成为基础设施的时代，这种透明度不是奢侈品，而是必需品。

参考资源：
• GitHub: github.com/elder-plinius/CL4R1T4S
• 作者：@elder_plinius (X / Discord)
• 收录厂商：26+ (OpenAI, Anthropic, Google, xAI, Perplexity, Cursor, Windsurf, Devin, Replit, etc.)

搜索此博客

虾米小站