《大语言模型》Day 3:构建过程与扩展法则 第2章(上)| 2026-03-28 | 阅读 + 深度笔记 📌 本章核心问题 大语言模型是如何构建的?为什么"更大"就意味着"更强"?规模扩展有什么规律可循? 一、章节摘要 本章是大语言模型的理论基础章节,系统回答了两个核心问题: | 构建过程 | 大规模预训练 + 指令微调与人类对齐,两阶段训练范式 | | 扩展法则 | 模型规模、数据规模、计算算力之间的幂律关系 | | 涌现能力 | 小模型不具备、大模型突然出现的能力跃升现象 | 二、构建过程详解 2.1 大规模预训练 预训练的本质是为模型参数找到一个较好的"初值点"。这个概念最早来自计算机视觉领域(ImageNet),后来被 NLP 领域借鉴并发展到极致。 💡 Ilya Sutskever 的洞见 "大规模预训练本质上是在做一个世界知识的压缩,从而能够学习到一个编码世界知识的参数模型,这个模型能够通过解压缩所需要的知识来解决真实世界的任务。" 预训练的关键要素: | 要素 | 说明 | | 数据规模 | 开源模型普遍采用 2-3T 规模的词元(Token) | | 数据质量 | 高质量、多源化的数据收集与严格清洗是关键 | | 算力需求 | 百亿模型需百卡集群训练数月,千亿模型需千卡甚至万卡 | | 技术架构 | "解码器架构 + 预测下一个词"已成为主流技术路径 | ⚠️ 实践中的坑 预训练看似直观,但涉及大量经验性技术:数据配比、学习率调整、早期异常行为发现等。这些细节很多没有公开发表,需要研发人员具备丰富的训练经验和异常处理能力。 2.2 指令微调与人类对齐 预训练后的模型擅长文本补全,但不适合直接解决具体任务。一个生动的类比: 类比:预训练后的模型就像进入工作岗位的毕业生,尽管学习了通用文化课,具备了一定的实习经验,但仍需要针对特定岗位的专门培训。 微调阶段的两个关键步骤: (1)指令微调(SFT) | 目的 | 让模型掌握通过问答形式解决任务的能力 | | 本质 | 模仿学习(Imitation Learning),复刻标准答案 | | 数据规模 | 数十万到百万规模(远小于预训练) | | 算力需求 | 单机八卡(A100-80G)即可完成百亿模型微调 | | 核心作用 | 激发已有能力,而非注入新知识 | (2)人类对齐(RLHF) | 目的 | 将模型与人类期望、价值观对齐 | | 方法 | 训练奖励模型(Reward Model)→ 强化学习优化 | | 关键创新 | InstructGPT(OpenAI, 2022)系统介绍了 RLHF 对齐方法 | | 简化替代 | DPO(Direct Preference Optimization)等方法可省去奖励模型 | 三、扩展法则 大语言模型成功的核心秘密:通过扩展带来的性能提升,往往超过改进架构和算法所带来的改进。 3.1 KM 扩展法则(OpenAI, 2020) Kaplan 等人首次建立了语言模型性能与三个因素的幂律关系: | # KM 扩展法则核心公式 | | L(N) = αN / N^αN | | L(D) = αD / D^αD | | L(C) = αC / C^αC | | # 参数说明 | | N = 模型参数规模 | | D = 数据规模(词元数) | | C = 计算算力 | | L(·) = 交叉熵损失(nat 单位) | | 📌 核心发现 模型性能与三个因素之间存在指数关系。这种关系是可预测的,可以用小模型估计大模型的性能。 损失函数可分解为两部分: | # 损失分解 | | L(x) = L∞ + (αx·x0 / x) | | # 组成部分 | | L∞ = 不可约损失(数据分布熵,无法优化) | | 可约损失 = 模型与真实分布的 KL 散度 | | 3.2 Chinchilla 扩展法则(DeepMind, 2022) Hoffmann 等人在更大范围的实验基础上,提出了不同的资源分配建议: | 实验范围 | 70M - 16B 参数,5B - 500B 词元 | | 核心发现 | 之前的预训练工作可能忽视了训练数据规模扩展 | | GPT-3 问题 | 175B 参数仅用 300B 词元训练,远未达到模型容量 | | Chinchilla 建议 | 70B 参数用 1.4T 词元,效果超过更大的 GPT-3 | 两种法则的对比: | 对比项 | KM 扩展法则 | Chinchilla 扩展法则 | | 资源分配倾向 | 更多预算给模型规模(a ≈ 0.73, b ≈ 0.27) | 模型与数据等比例增加(a ≈ 0.46, b ≈ 0.54) | | 数据规模建议 | 相对保守 | 数据规模约为模型参数的 5 倍 | | 实践启示 | 可能低估了数据重要性 | 推动了大规模预训练数据的趋势 | ⚠️ 重要提醒 Chinchilla 的"5倍数据"建议已基本没有参考意义。LLaMA-2 (7B) 用 2T 词元训练,远超理论建议。目前还没有实验验证特定参数规模模型的"饱和数据规模"。 3.3 扩展法则的实践意义 (1)可预测的扩展 扩展法则可用于指导大模型训练,通过较小算力资源可靠估计较大算力投入后的模型性能: | 小模型预估大模型 | 基于小模型获得训练经验,迁移至大模型 | | 早期监控 | 用扩展法则监控训练状态,早期识别异常 | | 代理模型 | 训练小型代理模型确定最佳训练配置(如数据配比) | (2)任务层面的可预测性 语言建模损失的减少是否意味着真实任务性能提高? | ✅ 通常成立 | 语言建模损失较小的模型,往往在下游任务表现更好 | | ⚠️ 例外情况 | "逆向扩展"现象:损失降低,任务性能反而变差 | | 🔍 难点 | 有些能力(如上下文学习)通过扩展法则不可预测,只在模型超过一定规模时出现 | 四、涌现能力 涌现能力是大语言模型最引人注目的特性之一:"在小型模型中不存在但在大模型中出现的能力"。 4.1 三种典型涌现能力 | (1)上下文学习(In-Context Learning, ICL) 在提示中提供自然语言指令和多个任务示例,无需显式训练或梯度更新,仅通过输入文本就能生成预期输出。 发现者:GPT-3 论文(2020) 规模依赖:175B 的 GPT-3 展现强大能力,GPT-1/GPT-2 则不具备 | | (2)指令遵循(Instruction Following) 模型能够按照自然语言指令执行对应任务,即使没有显式示例也能完成新任务。 获取方式:多任务指令数据微调(SFT) 规模依赖:62B 以上模型在复杂推理任务上表现显著更好 | | (3)逐步推理(Step-by-step Reasoning) 利用思维链(Chain-of-Thought, CoT)提示策略,引入中间推理步骤解决复杂任务。 适用场景:复杂数学问题、多步推理 规模依赖:62B 和 540B 的 PaLM 受益明显,8B 模型很难获得提升 | 4.2 涌现能力的争议 ⚠️ 争议点 涌现能力可能部分归因于特殊任务设置:不连续的评估指标 + 有限的模型参数规模候选。如果修改评估指标或提供更连续的模型尺寸,"骤然跃升"趋势可能消失。 另一种视角: | 理论层面 | 缺乏形式化理论解释,涌现机理尚不明确 | | 实验层面 | 实验往往局限于少数几个模型规模(如 PaLM 只有 8B/62B/540B) | | 用户视角 | 用户体验是"不连续"的——代码要么通过测试,要么不通过 | | 实践启示 | 高质量预训练 + 指令微调后,较小的模型(如 LLaMA-2 7B)也能展现涌现能力 | 五、扩展法则 vs 涌现能力 这两种观点反映了对大模型优势的不同理解: | 对比维度 | 扩展法则 | 涌现能力 | | 性能度量 | 语言建模损失 | 任务性能 | | 变化趋势 | 平滑、可预测 | 骤然跃升、不可预测 | | 边际效益 | 可能递减 | 一旦涌现则大幅跃升 | | 潜在问题 | 指数形式暗示收益递减 | 存在性与合理性存在争议 | 关键洞察:即使接近收益递减点,模型表征质量仍随规模扩展有效提升。这表明训练大型模型对改善下游任务性能仍然重要。 六、个人思考与实践建议 6.1 对模型研发的启示 (1)数据比我们想象的更重要 Chinchilla 法则的核心教训:早期模型(如 GPT-3)低估了数据规模的价值。LLaMA 系列的成功很大程度上归功于"小模型 + 大数据"策略——LLaMA-2 7B 用了 2T 词元,远超传统建议。 (2)预训练是压缩,微调是激发 指令微调不教模型新知识,而是激发预训练阶段已有的能力。这意味着: | 高质量预训练 | 决定了模型能力的"天花板" | | 高质量微调 | 决定了模型能力能否被"释放" | | 算力分配 | 预训练 > 微调(相差 1-2 个数量级) | (3)涌现能力不是"魔法" 虽然涌现能力的理论解释尚不明确,但实践经验表明: | ✅ 高质量数据 + 高质量微调 | 较小模型也能展现涌现能力(如 LLaMA-2 7B) | | ❌ 盲目追求参数规模 | 可能不如在数据和训练质量上投入 | 6.2 对从业者的建议 (1)重视训练经验 大模型研发的核心不是算力,而是人。核心训练人员的能力决定模型最终水平。很多关键经验(如数据配比、学习率调整、异常处理)没有公开发表。 (2)善用扩展法则 | 训练前 | 用小模型实验确定最佳配置 | | 训练中 | 监控损失曲线,早期发现异常 | | 训练后 | 用扩展法则预测模型性能 | (3)关注数据限制 公共文本数据将很快"枯竭"。数据重复和数据合成可能成为缓解方案,但质量保障是关键挑战。 七、关键概念速查 | 概念 | 一句话解释 | | 预训练 | 用大规模无标注数据初始化模型参数,编码世界知识 | | 指令微调 | 用问答数据让模型学会"听懂指令",激发已有能力 | | 人类对齐 | 通过 RLHF 让模型输出符合人类价值观和偏好 | | KM 扩展法则 | OpenAI 提出的损失与规模幂律关系,倾向大模型 | | Chinchilla 扩展法则 | DeepMind 提出,主张模型与数据等比例扩展 | | 涌现能力 | 小模型不具备、大模型突然出现的能力跃升 | | 上下文学习 | 通过示例学习新任务,无需梯度更新 | | 思维链 | 引入中间推理步骤解决复杂问题 | 八、延伸阅读 | KM 扩展法则 | Kaplan et al., "Scaling Laws for Neural Language Models", 2020 | | Chinchilla | Hoffmann et al., "Training Compute-Optimal Large Language Models", 2022 | | 涌现能力 | Wei et al., "Emergent Abilities of Large Language Models", 2022 | | 思维链 | Wei et al., "Chain-of-Thought Prompting Elicits Reasoning", 2022 | | InstructGPT | Ouyang et al., "Training Language Models to Follow Instructions", 2022 | 📖 下一章预告:第2章(下)将继续介绍涌现能力、GPT 系列模型的技术演变历程,以及大语言模型发展时间线。 《大语言模型》阅读计划 | Day 3 | 2026-03-28 |
评论
发表评论