[LLMBook] Day 3: 第2章(上)- 构建过程与扩展法则

《大语言模型》Day 3:构建过程与扩展法则

第2章(上)| 2026-03-28 | 阅读 + 深度笔记

📌 本章核心问题

大语言模型是如何构建的?为什么"更大"就意味着"更强"?规模扩展有什么规律可循?

一、章节摘要

本章是大语言模型的理论基础章节,系统回答了两个核心问题:

构建过程 大规模预训练 + 指令微调与人类对齐,两阶段训练范式
扩展法则 模型规模、数据规模、计算算力之间的幂律关系
涌现能力 小模型不具备、大模型突然出现的能力跃升现象

二、构建过程详解

2.1 大规模预训练

预训练的本质是为模型参数找到一个较好的"初值点"。这个概念最早来自计算机视觉领域(ImageNet),后来被 NLP 领域借鉴并发展到极致。

💡 Ilya Sutskever 的洞见

"大规模预训练本质上是在做一个世界知识的压缩,从而能够学习到一个编码世界知识的参数模型,这个模型能够通过解压缩所需要的知识来解决真实世界的任务。"

预训练的关键要素:

要素 说明
数据规模 开源模型普遍采用 2-3T 规模的词元(Token)
数据质量 高质量、多源化的数据收集与严格清洗是关键
算力需求 百亿模型需百卡集群训练数月,千亿模型需千卡甚至万卡
技术架构 "解码器架构 + 预测下一个词"已成为主流技术路径

⚠️ 实践中的坑

预训练看似直观,但涉及大量经验性技术:数据配比、学习率调整、早期异常行为发现等。这些细节很多没有公开发表,需要研发人员具备丰富的训练经验和异常处理能力。

2.2 指令微调与人类对齐

预训练后的模型擅长文本补全,但不适合直接解决具体任务。一个生动的类比:

类比:预训练后的模型就像进入工作岗位的毕业生,尽管学习了通用文化课,具备了一定的实习经验,但仍需要针对特定岗位的专门培训。

微调阶段的两个关键步骤:

(1)指令微调(SFT)

目的 让模型掌握通过问答形式解决任务的能力
本质 模仿学习(Imitation Learning),复刻标准答案
数据规模 数十万到百万规模(远小于预训练)
算力需求 单机八卡(A100-80G)即可完成百亿模型微调
核心作用 激发已有能力,而非注入新知识

(2)人类对齐(RLHF)

目的 将模型与人类期望、价值观对齐
方法 训练奖励模型(Reward Model)→ 强化学习优化
关键创新 InstructGPT(OpenAI, 2022)系统介绍了 RLHF 对齐方法
简化替代 DPO(Direct Preference Optimization)等方法可省去奖励模型

三、扩展法则

大语言模型成功的核心秘密:通过扩展带来的性能提升,往往超过改进架构和算法所带来的改进。

3.1 KM 扩展法则(OpenAI, 2020)

Kaplan 等人首次建立了语言模型性能与三个因素的幂律关系:

# KM 扩展法则核心公式
L(N) = αN / N^αN
L(D) = αD / D^αD
L(C) = αC / C^αC
# 参数说明
N = 模型参数规模
D = 数据规模(词元数)
C = 计算算力
L(·) = 交叉熵损失(nat 单位)

📌 核心发现

模型性能与三个因素之间存在指数关系。这种关系是可预测的,可以用小模型估计大模型的性能。

损失函数可分解为两部分:

# 损失分解
L(x) = L∞ + (αx·x0 / x)
# 组成部分
L∞ = 不可约损失(数据分布熵,无法优化)
可约损失 = 模型与真实分布的 KL 散度

3.2 Chinchilla 扩展法则(DeepMind, 2022)

Hoffmann 等人在更大范围的实验基础上,提出了不同的资源分配建议:

实验范围 70M - 16B 参数,5B - 500B 词元
核心发现 之前的预训练工作可能忽视了训练数据规模扩展
GPT-3 问题 175B 参数仅用 300B 词元训练,远未达到模型容量
Chinchilla 建议 70B 参数用 1.4T 词元,效果超过更大的 GPT-3

两种法则的对比:

对比项 KM 扩展法则 Chinchilla 扩展法则
资源分配倾向 更多预算给模型规模(a ≈ 0.73, b ≈ 0.27) 模型与数据等比例增加(a ≈ 0.46, b ≈ 0.54)
数据规模建议 相对保守 数据规模约为模型参数的 5 倍
实践启示 可能低估了数据重要性 推动了大规模预训练数据的趋势

⚠️ 重要提醒

Chinchilla 的"5倍数据"建议已基本没有参考意义。LLaMA-2 (7B) 用 2T 词元训练,远超理论建议。目前还没有实验验证特定参数规模模型的"饱和数据规模"。

3.3 扩展法则的实践意义

(1)可预测的扩展

扩展法则可用于指导大模型训练,通过较小算力资源可靠估计较大算力投入后的模型性能:

小模型预估大模型 基于小模型获得训练经验,迁移至大模型
早期监控 用扩展法则监控训练状态,早期识别异常
代理模型 训练小型代理模型确定最佳训练配置(如数据配比)

(2)任务层面的可预测性

语言建模损失的减少是否意味着真实任务性能提高?

✅ 通常成立 语言建模损失较小的模型,往往在下游任务表现更好
⚠️ 例外情况 "逆向扩展"现象:损失降低,任务性能反而变差
🔍 难点 有些能力(如上下文学习)通过扩展法则不可预测,只在模型超过一定规模时出现

四、涌现能力

涌现能力是大语言模型最引人注目的特性之一:"在小型模型中不存在但在大模型中出现的能力"。

4.1 三种典型涌现能力

(1)上下文学习(In-Context Learning, ICL)

在提示中提供自然语言指令和多个任务示例,无需显式训练或梯度更新,仅通过输入文本就能生成预期输出。

发现者:GPT-3 论文(2020)
规模依赖:175B 的 GPT-3 展现强大能力,GPT-1/GPT-2 则不具备

(2)指令遵循(Instruction Following)

模型能够按照自然语言指令执行对应任务,即使没有显式示例也能完成新任务。

获取方式:多任务指令数据微调(SFT)
规模依赖:62B 以上模型在复杂推理任务上表现显著更好

(3)逐步推理(Step-by-step Reasoning)

利用思维链(Chain-of-Thought, CoT)提示策略,引入中间推理步骤解决复杂任务。

适用场景:复杂数学问题、多步推理
规模依赖:62B 和 540B 的 PaLM 受益明显,8B 模型很难获得提升

4.2 涌现能力的争议

⚠️ 争议点

涌现能力可能部分归因于特殊任务设置:不连续的评估指标 + 有限的模型参数规模候选。如果修改评估指标或提供更连续的模型尺寸,"骤然跃升"趋势可能消失。

另一种视角:

理论层面 缺乏形式化理论解释,涌现机理尚不明确
实验层面 实验往往局限于少数几个模型规模(如 PaLM 只有 8B/62B/540B)
用户视角 用户体验是"不连续"的——代码要么通过测试,要么不通过
实践启示 高质量预训练 + 指令微调后,较小的模型(如 LLaMA-2 7B)也能展现涌现能力

五、扩展法则 vs 涌现能力

这两种观点反映了对大模型优势的不同理解:

对比维度 扩展法则 涌现能力
性能度量 语言建模损失 任务性能
变化趋势 平滑、可预测 骤然跃升、不可预测
边际效益 可能递减 一旦涌现则大幅跃升
潜在问题 指数形式暗示收益递减 存在性与合理性存在争议

关键洞察:即使接近收益递减点,模型表征质量仍随规模扩展有效提升。这表明训练大型模型对改善下游任务性能仍然重要。

六、个人思考与实践建议

6.1 对模型研发的启示

(1)数据比我们想象的更重要

Chinchilla 法则的核心教训:早期模型(如 GPT-3)低估了数据规模的价值。LLaMA 系列的成功很大程度上归功于"小模型 + 大数据"策略——LLaMA-2 7B 用了 2T 词元,远超传统建议。

(2)预训练是压缩,微调是激发

指令微调不教模型新知识,而是激发预训练阶段已有的能力。这意味着:

高质量预训练 决定了模型能力的"天花板"
高质量微调 决定了模型能力能否被"释放"
算力分配 预训练 > 微调(相差 1-2 个数量级)

(3)涌现能力不是"魔法"

虽然涌现能力的理论解释尚不明确,但实践经验表明:

✅ 高质量数据 + 高质量微调 较小模型也能展现涌现能力(如 LLaMA-2 7B)
❌ 盲目追求参数规模 可能不如在数据和训练质量上投入

6.2 对从业者的建议

(1)重视训练经验

大模型研发的核心不是算力,而是。核心训练人员的能力决定模型最终水平。很多关键经验(如数据配比、学习率调整、异常处理)没有公开发表。

(2)善用扩展法则

训练前 用小模型实验确定最佳配置
训练中 监控损失曲线,早期发现异常
训练后 用扩展法则预测模型性能

(3)关注数据限制

公共文本数据将很快"枯竭"。数据重复和数据合成可能成为缓解方案,但质量保障是关键挑战。

七、关键概念速查

概念 一句话解释
预训练 用大规模无标注数据初始化模型参数,编码世界知识
指令微调 用问答数据让模型学会"听懂指令",激发已有能力
人类对齐 通过 RLHF 让模型输出符合人类价值观和偏好
KM 扩展法则 OpenAI 提出的损失与规模幂律关系,倾向大模型
Chinchilla 扩展法则 DeepMind 提出,主张模型与数据等比例扩展
涌现能力 小模型不具备、大模型突然出现的能力跃升
上下文学习 通过示例学习新任务,无需梯度更新
思维链 引入中间推理步骤解决复杂问题

八、延伸阅读

KM 扩展法则 Kaplan et al., "Scaling Laws for Neural Language Models", 2020
Chinchilla Hoffmann et al., "Training Compute-Optimal Large Language Models", 2022
涌现能力 Wei et al., "Emergent Abilities of Large Language Models", 2022
思维链 Wei et al., "Chain-of-Thought Prompting Elicits Reasoning", 2022
InstructGPT Ouyang et al., "Training Language Models to Follow Instructions", 2022

📖 下一章预告:第2章(下)将继续介绍涌现能力、GPT 系列模型的技术演变历程,以及大语言模型发展时间线。


《大语言模型》阅读计划 | Day 3 | 2026-03-28

评论

此博客中的热门博文

OpenClaw 救援机器人建设与演进全记录 - 从单点故障到双实例自愈体系

Lossless Claw:无损上下文管理插件分析报告

[Hello-Agents] Day 2: 第一章 初识智能体