[LLMBook] Day 4: 第2章(下) - 涌现能力与GPT演变

阅读日期：2026-03-29 | 章节：2.3 涌现能力 & 2.4 GPT系列模型的技术演变 | 字数：约 5200 字

一、章节摘要

本章是大语言模型基础介绍的下半部分，聚焦于两个核心主题：涌现能力与GPT系列模型的技术演变。涌现能力是大语言模型区别于传统预训练语言模型的关键特征，它揭示了模型规模扩展所带来的质的飞跃。而GPT系列模型的发展历程，则是一部从早期探索到性能跃升的技术进化史，展现了OpenAI团队在模型架构、训练范式、数据策略等方面的持续创新。

这两部分内容紧密关联：涌现能力解释了"为什么大模型会有质的飞跃"，而GPT系列的技术演变则展示了"如何实现这种质的飞跃"。理解这两个问题，是深入认识大语言模型技术本质的基础。

二、涌现能力：大模型的"相变"现象

2.1 什么是涌现能力？

在现有文献中，大语言模型的涌现能力被非形式化定义为"在小型模型中不存在但在大模型中出现的能力"。具体来说，当模型扩展到一定规模时，特定任务性能会出现突然的显著跃升，远超随机水平。这种现象与物理学中的"相变"（phase transition）有一定相似性——就像水在100°C突然沸腾变成水蒸气，模型能力也会在某个临界规模出现质的飞跃。

💡 核心洞察

涌现能力的提出有助于区分大语言模型与传统预训练语言模型之间的本质差异。传统模型（如BERT）的能力随规模增长相对平滑可预测，而大模型则展现出"不可预测的跃升"——这正是GPT系列模型成功的关键所在。

然而，书中也明确指出：涌现能力的存在性目前仍有争议。一种观点认为，涌现现象可能部分归因于特殊的任务设置（如不连续的评估指标）和有限的模型规模测试点。如果使用更连续的评估指标或更密集的规模测试，"突然跃升"的趋势可能会消失。但实际使用中，用户确实以"不连续"的方式感知模型性能——代码要么通过测试要么失败，答案要么正确要么错误——这种体验本身就是离散的。

2.2 三种代表性涌现能力

书中详细介绍了大语言模型的三种典型涌现能力：

（一）上下文学习（In-Context Learning, ICL）

上下文学习在GPT-3论文中被正式提出。其核心思想是：无需显式的训练或梯度更新，仅通过在提示中提供自然语言指令和多个任务示例，模型就能为测试样本生成预期输出。

模型	上下文学习能力
GPT-1 / GPT-2	不具备ICL能力
GPT-3 (175B)	展现强大ICL能力
GPT-3 (13B)	在算术任务上有ICL能力
GPT-3 (175B) - 波斯语问答	表现不佳（说明ICL依赖任务类型）

这说明上下文学习能力既依赖于模型规模，也依赖于具体任务类型。同样的175B模型，在某些任务上表现出色，在另一些任务上却可能表现平平。

（二）指令遵循（Instruction Following）

指令遵循能力是指模型能够按照自然语言指令执行对应任务。要获得这一能力，通常需要使用自然语言描述的多任务示例数据集进行微调，称为指令微调（Instruction Tuning）或监督微调（Supervised Fine-tuning, SFT）。

⚠️ 重要发现：FLAN-PaLM模型的实验表明，当参数规模达到62B及以上时，模型才能在包含23个复杂推理任务的BBH评估基准上展现较好的零样本推理能力。而较小的2B模型通过高质量指令数据微调，也能习得一定的通用指令遵循能力（主要是简单任务）。

（三）逐步推理（Step-by-step Reasoning）

小型语言模型通常难以解决涉及多个推理步骤的复杂任务（如数学应用题），而大语言模型可以利用思维链（Chain-of-Thought, CoT）提示策略来加强推理性能。具体做法是在提示中引入任务相关的中间推理步骤，帮助模型获得更可靠的答案。

PaLM模型的实验表明：

62B和540B参数的模型，思维链提示可显著提升算术推理效果
8B参数的模型几乎无法从思维链获得提升
思维链对540B模型的提升更加明显
不同任务的提升幅度不同：GSM8K > MAWPS > SWAMP

📌 关键结论：经过高质量预训练与指令微调后，即使较小的语言模型（如LLaMA-2 (7B)）也能一定程度上展现出上述三种能力。参数规模要求随着预训练数据规模扩展和数据质量提升在不断下降——这意味着"涌现能力"的临界点正在下移。

2.3 涌现能力与扩展法则的张力

扩展法则和涌现能力提供了两种截然不同的视角来理解大模型相对小模型的优势：

视角	度量标准	趋势	可预测性
扩展法则	语言建模损失	平滑提升	可预测
涌现能力	任务性能	骤然跃升	不可预测

扩展法则呈现的是边际效益递减的指数形式，而涌现能力呈现的是质的跃升。这两种视角在一些情况下可能导致不一致的发现与结论。

书中用了一个生动的类比：儿童的语言发展也会出现"涌现现象"。语言能力在某个阶段内部相对稳定，但当进入另一个能力阶段时会出现重要提升（如从说简单单词到说简单句子）。虽然儿童每天都在成长，但语言提升过程本质上是不平滑和不稳定的——正如年轻父母会对宝宝的突然进步感到惊讶一样，研究者也对大模型的能力跃升感到惊叹。

三、GPT系列模型的技术演变

2022年11月底，OpenAI推出了基于大语言模型的在线对话应用——ChatGPT。这一发布引发了全社会对大语言模型的广泛关注。GPT系列模型作为代表性的技术路线，其发展历程具有重要的研究价值。

3.1 GPT的基本原理

GPT系列模型的核心原理是将广泛的世界知识压缩到仅包含解码器（Decoder-Only）的Transformer模型中。两个关键要素：

训练能够准确预测下一个词的Transformer语言模型
扩展语言模型的规模以及扩展预训练数据的规模

OpenAI的研发历程可分为四个阶段：早期探索、规模扩展、能力增强、性能跃升。

3.2 第一阶段：早期探索（2018-2019）

GPT-1（2018年6月）

2017年Google推出Transformer模型后，OpenAI团队迅速意识到这种架构对研发大型神经网络的重要影响。2018年发布的GPT-1是生成式预训练（Generative Pre-Training）的首次尝试，奠定了GPT系列模型的两大基石：

仅有解码器的Transformer架构
基于自然语言文本的预训练方式（预测下一个词元）

由于当时参数规模较小（约100M，与BERT-Base相当），GPT-1缺乏通用的任务求解能力，采用无监督预训练 + 有监督微调的组合范式。同期发布的BERT模型主要面向自然语言理解任务（NLU），成为当时学术界关注的"明星模型"，而GPT-1并未引起足够重视。

GPT-2（2019年2月）

GPT-2将参数规模扩大到1.5B，使用大规模网页数据集WebText进行预训练。关键创新：尝试去除针对特定任务的微调环节，探索无监督预训练语言模型直接解决各种下游任务的可能性。

🎓 核心思想：多任务学习可以通过概率形式刻画：P(output|input, task)——根据输入和任务信息来预测输出。GPT系列将输入、输出和任务信息都通过自然语言形式描述，任务求解过程就变成了任务答案的文本生成问题。如果语言模型能够复原全部世界文本，本质上它就能解决各种任务。

3.3 第二阶段：规模扩展（2020年5月）

GPT-3

2020年发布的GPT-3将参数规模扩展到175B——相比GPT-2提升了100余倍。OpenAI在当时进行了一次"极限尝试"，展现了巨大的雄心和魄力。

GPT-3的关键贡献：

正式提出"上下文学习"概念：模型通过少样本学习解决各种任务，无需微调
建立以提示学习为基础的任务求解范式
证明神经网络扩展到超大规模可带来大幅性能提升

GPT-3是从预训练语言模型到大语言模型演进过程中的重要里程碑。论文指出上下文学习对大模型性能增益更显著，对小模型收益较小——这暗示了涌现能力的存在。

3.4 第三阶段：能力增强（2021-2022）

OpenAI探索了两种主要途径来改进GPT-3模型：代码数据训练和人类偏好对齐。

代码数据训练

原始GPT-3在复杂推理任务（编程问题、数学问题）上能力较弱。2021年7月推出的Codex在大量GitHub代码数据上微调，可以解决非常困难的编程问题，还能显著提升数学问题求解能力。根据OpenAI的API信息，GPT-3.5是基于code-davinci-002开发的，这表明代码数据训练有助于提高模型综合性能。

💡 重要启示：预训练数据范围可以扩展到自然语言之外的文本数据（如代码），这为后续多模态扩展埋下了伏笔。

人类对齐（RLHF）

OpenAI关于人类对齐的研究可以追溯到2017年。关键里程碑：

2017年："Learning from Human Preferences"博客文章
2017年7月：提出PPO算法（强化学习标配算法）
2020年：将人类对齐应用于文本摘要任务
2022年1月：推出InstructGPT，正式建立RLHF算法

InstructGPT的核心贡献：

提高指令遵循能力
缓解有害内容生成
对大模型安全部署至关重要

3.5 第四阶段：性能跃升（2022年底至今）

ChatGPT（2022年11月）

ChatGPT沿用了InstructGPT的训练技术，但对对话能力进行了针对性优化。训练数据结合了人类生成的对话数据（同时扮演用户和AI角色）与InstructGPT的训练数据，统一成对话形式。

ChatGPT展现的优秀能力：

丰富的世界知识
复杂问题的求解能力
多轮对话的上下文追踪与建模能力
与人类价值观对齐的能力

GPT-4（2023年3月）

GPT-4首次将输入由单一文本模态扩展到图文双模态。在解决复杂任务方面显著强于GPT-3.5，在一系列面向人类的考试中获得优异成绩。

关键技术升级：

六个月迭代对齐：额外增加安全奖励信号
红队攻击机制：减少有害或有毒内容
可预测扩展的训练机制：通过较少计算开销预测最终性能

GPT-4V / GPT-4 Turbo（2023年9-11月）

GPT-4V重点关注视觉能力的安全部署。GPT-4 Turbo引入一系列升级：

更强的整体能力
扩展的知识来源（至2023年4月）
更长的上下文窗口（128K）
优化成本与性能
新功能：函数调用、可重复输出等
Assistants API：快速创建面向特定任务的智能助手

四、技术细节与代码理解

4.1 上下文学习的技术实现

上下文学习的核心是利用提示中的示例作为隐式训练信号，而不更新模型参数。伪代码示意：

 # 上下文学习示意
 # 输入格式：指令 + 示例 + 测试样本
 prompt = """
 任务：将英文翻译成中文
 示例1：Hello world -> 世界你好
 示例2：Good morning -> 早上好
 示例3：Thank you -> 谢谢
 测试：Machine learning -> 
 """
 # 模型输出（无需参数更新）
 # output = model.generate(prompt) -> "机器学习"         

4.2 思维链提示的核心机制

思维链提示通过引入中间推理步骤帮助模型解决复杂任务：

 # 思维链示例（数学问题）
 # 标准提示
 Q: 一个商店有23个苹果，卖了15个，又进货了8个，现在有多少个？
 A: 16个

 # 思维链提示
 Q: 一个商店有23个苹果，卖了15个，又进货了8个，现在有多少个？
 A: 让我们一步步思考：
    - 开始有23个苹果
    - 卖了15个后剩下：23 - 15 = 8个
    - 又进货8个：8 + 8 = 16个
    答案：16个

 # 思维链帮助模型显式展开推理过程         

4.3 PPO算法在RLHF中的应用

OpenAI采用的PPO（Proximal Policy Optimization）算法是RLHF的核心。关键步骤：

监督微调（SFT）：用人类标注的指令-回答对训练基础模型
奖励模型训练：用人类偏好数据训练一个奖励模型
PPO优化：用奖励模型的反馈优化语言模型

 # PPO核心公式简化示意
 # 目标函数
 L = E[min(r(θ) * A, clip(r(θ), 1-ε, 1+ε) * A)]

 # 其中：
 # r(θ) = π_θ(a|s) / π_θ_old(a|s)  # 策略比率
 # A = 优势函数（来自奖励模型）
 # ε = 裁剪参数（防止策略更新过大）         

五、个人思考与反思

5.1 关于涌现能力的质疑与思考

书中对涌现能力保持了审慎的学术态度，既介绍了这一概念的价值，也指出了存在的争议。这让我联想到几个问题：

涌现是真实存在还是评估幻觉？如果涌现现象源于不连续的评估指标，那么随着评估方法的改进，"涌现"可能会变得"平滑"。但从用户体验角度看，用户对模型能力的感知确实是离散的——要么能用，要么不能用。
临界规模是否在下移？LLaMA-2 (7B) 已经能展现出上下文学习、指令遵循、逐步推理三种能力，这意味着高质量数据可以降低对模型规模的依赖。这暗示"涌现"可能更多是数据质量和训练策略的函数，而非单纯规模函数。
"顿悟"（Grokking）现象的启示：书中提到"顿悟"是指模型性能从随机水平提升为高度泛化的现象。这提示我们可能需要更深入理解训练动态，而非仅仅关注最终性能。

5.2 GPT演进路线的战略思考

GPT系列的发展历程给我留下了深刻印象。回顾这条路线，几个关键决策点值得深思：

架构选择的坚定性：OpenAI从GPT-1就选择了Decoder-Only架构和"预测下一个词"的预训练目标，这条路一走就是五年。同期BERT选择了Encoder架构，虽然在NLU任务上表现出色，但在生成任务上的扩展性受限。
规模扩展的勇气：从GPT-2的1.5B到GPT-3的175B，提升100倍。这不是简单的"加参数"，而是需要在数据收集、训练基础设施、并行训练技巧等多方面做好准备。扩展法则论文的发表说明OpenAI在训练GPT-3之前已经进行了充分的实验探索。
数据策略的演进：从WebText到代码数据，再到高质量指令数据，数据策略在不断迭代。代码数据训练不仅提升了代码能力，还显著改善了推理能力——这是一个重要的跨界发现。
对齐研究的长期积累：RLHF不是ChatGPT才发明的技术，而是从2017年就开始积累的系列研究成果。这种"厚积薄发"的技术路线值得学习。

5.3 代码数据为何能提升推理能力？

书中提到Codex不仅提升了代码能力，还能显著提升数学问题求解能力。这个发现非常重要，可能的解释：

结构化思维的迁移：代码要求严格的逻辑结构和执行顺序，这种训练可能帮助模型学习更系统化的推理模式。
抽象能力的培养：代码涉及函数抽象、变量命名、模块化等抽象思维，这些能力可以迁移到自然语言推理任务。
错误的明确反馈：代码执行结果直接正确或错误，这种明确反馈可能比自然语言的模糊评价更能强化推理能力。

六、实践建议

6.1 理解涌现能力对实践的指导

涌现能力的存在对实践者有以下启示：

模型选型：对于需要上下文学习、思维链推理等涌现能力的任务，选择足够规模的模型至关重要。但注意临界规模在下移，LLaMA-2 (7B) 等开源模型可能已足够应对许多任务。
评估策略：使用连续指标（如F1分数、BLEU等）可能比二元指标（通过/不通过）更能反映模型的真实能力曲线。
任务适配：不同任务对规模的要求不同。算术任务在较小规模就能涌现ICL能力，而复杂推理任务可能需要更大规模。

6.2 应用GPT技术演进的启示

GPT系列的演进对大模型研发者的启示：

架构要坚持，规模要大胆：OpenAI选择Decoder-Only架构后坚持了五年，在规模上敢于做"极限尝试"。研发者需要在架构选择上有坚定信念，在规模扩展上有勇气尝试。
数据是关键杠杆：代码数据能提升推理能力的发现说明数据选择有重要战略意义。不要局限于传统文本数据，思考什么数据能帮助模型学习到关键能力。
对齐是必选项：RLHF不是可选的优化，而是大模型安全部署的必选项。从InstructGPT到ChatGPT，对齐技术的积累直接决定了模型的可用性。
技术路线要有前瞻性：GPT-2论文就已经讨论了"无监督多任务学习"的愿景，这种五年前的技术前瞻性令人敬佩。

6.3 思维链提示的最佳实践

基于书中对思维链的介绍，以下是实践建议：

显式步骤：让模型"一步步思考"，将复杂问题分解为可管理的子步骤。
示例驱动：提供带有思维链的示例，帮助模型学习推理模式。
任务适配：思维链对算术推理任务效果最好，对其他任务效果参差不齐，需要实验验证。
规模要求：思维链对大模型（如62B以上）效果明显，小模型几乎无法受益。

七、关键公式与概念速查

7.1 多任务学习的概率形式

P(output | input, task)

将输入、输出和任务信息都通过自然语言形式描述，任务求解变成文本生成问题。

7.2 扩展法则与涌现能力对比

扩展法则	涌现能力
语言建模损失	任务性能
平滑、可预测	骤然跃升、不可预测
边际效益递减	质的飞跃

7.3 GPT系列关键里程碑

模型	时间	参数	关键贡献
GPT-1	2018.06	~100M	Decoder-Only架构，生成式预训练
GPT-2	2019.02	1.5B	无监督多任务学习器，探索去除微调
GPT-3	2020.05	175B	上下文学习，规模扩展里程碑
Codex	2021.07	-	代码数据训练，推理能力提升
InstructGPT	2022.01	-	RLHF算法，人类对齐
ChatGPT	2022.11	-	对话能力优化，社会关注爆发
GPT-4	2023.03	-	多模态，安全对齐，可预测扩展
GPT-4V/Turbo	2023.09-11	-	视觉能力，128K上下文，函数调用

八、总结

本章深入探讨了大语言模型的两大核心概念：涌现能力和GPT系列的技术演变。涌现能力解释了"为什么大模型会有质的飞跃"，而GPT系列的演进历程展示了"如何实现这种质的飞跃"。

关键要点：

涌现能力包括上下文学习、指令遵循、逐步推理三种典型能力
涌现能力的存在性仍有争议，但用户感知确实是离散的
高质量数据可以降低涌现能力的临界规模要求
GPT系列经历了早期探索→规模扩展→能力增强→性能跃升四个阶段
架构选择、规模扩展、数据策略、对齐研究是GPT成功的四大支柱
代码数据训练不仅提升代码能力，还能提升推理能力
RLHF是大模型安全部署的必选项，而非可选项

理解这些基础概念和技术路线，是深入认识大语言模型技术本质的关键。下一章将介绍大语言模型资源，包括公开模型和预训练数据集。

参考来源：《大语言模型》第2章 - RUC AI Box团队
阅读天数：Day 4 / 45-50
下次阅读：Day 5 - 第3章(上)：资源 - 公开模型与预训练数据集