GPT 模型

GPT 模型的训练是当今大语言模型的开端，其训练不是一蹴而就的，而是通过预训练、监督微调、强化学习三个递进阶段，将一个通用的语言模型逐步打造成能够理解指令、遵循规则、与人类价值观对齐的智能助手。这一范式被当作后来 LLM 的"标准训练流程"。

模型架构基础

在深入训练流程之前，需要理解两大主流架构的本质差异。GPT 系列采用 Decoder-only 架构，仅使用 Transformer 的解码器部分，配合因果注意力机制进行自回归训练——模型只能看到当前位置之前的 token，通过预测下一个 token 逐字生成文本。这种架构天然适合文本生成任务，能够保持上下文连贯性，从 GPT-3 到 GPT-4、Claude、LLaMA 都采用了这一设计。

BERT 系列则采用 Encoder-only 架构，使用双向注意力机制，模型能够同时看到上下文的所有 token。训练方式是掩码语言模型（MLM），随机遮盖部分 token 让模型预测，类似于"完形填空"。这种架构擅长理解类任务如文本分类、情感分析、问答匹配，但随着生成任务的重要性提升，GPT 架构已成为主流。值得注意的是，T5、BART 等模型采用 Encoder-Decoder 架构，结合了双向理解和生成能力，在机器翻译等序列到序列任务上仍有价值。

从工程实践看，Decoder-only 架构的优势不仅在于生成能力，更在于工程实现的简洁性——单一的前向传播路径，更容易进行大规模分布式训练和推理优化。这也是为什么现代大语言模型几乎都采用这一架构。

// 新增 GPT 模型的架构图讲解，KV cache

第一阶段：预训练

预训练的目标是让模型学会"如何说话"，即掌握语言的统计规律、世界知识和推理能力。这是模型能力的基础建设阶段，也是最消耗资源阶段。训练方法采用自监督学习，无需人工标注，直接从海量文本中学习预测下一个 token。

训练数据规模庞大，通常包含整个互联网的文本（网页、书籍、论文、代码），规模可达数十 TB。模型通过数万亿次的预测尝试，逐渐学会了语言规律（语法、语义）、常识知识（物理、历史、数学）和逻辑推理能力。GPT-3 使用了 3000+ 张 A100 GPU 运行数周，成本约 500 万美元，而 GPT-4 的训练成本估计在 5000 万到 1 亿美元之间。

数据工程是预训练成功的关键。原始数据需要经过严格清洗——去除低质量文本（广告、重复内容、乱码）、数据去重（防止模型"背答案"）、数据配比（平衡不同领域数据）。代码数据能提升模型的推理能力，论文数据增强专业知识，网页数据提供通识能力。实践中，一个常见的数据配比是代码占 10%、论文占 15%、网页占 75%，具体比例会根据目标任务调整。

当模型规模突破临界点（约 100 亿参数）后，会突然展现小模型不具备的能力，如零样本学习、链式推理等。这种现象被称为"涌现能力"，也是大语言模型区别于传统模型的核心特征。2025 年的技术趋势包括合成数据（使用 AI 生成高质量训练数据）、长上下文（上下文窗口从 4K 扩展到 1M+ token）、多模态预训练（从纯文本扩展到图像、视频、音频的联合训练）。

第二阶段：监督微调

监督微调（SFT）的目标是让模型学会"如何听话"，即理解人类指令、遵循任务要求、生成符合期望的输出格式。这是模型能力的"职业培训"阶段，将预训练获得的通用能力转化为实际任务能力。

训练方法采用监督学习，使用人工标注的高质量问答对进行训练。数据准备是关键环节——指令构造需要覆盖多样化任务（写作、编程、翻译、数学、问答），答案撰写由人类专家编写标准答案确保质量，数据规模通常为 1 万到 10 万条。与预训练的海量数据相比，SFT 数据量虽小但质量要求极高，一条高质量标注数据的价值远超一千条原始文本。

SFT 的核心作用是将"续写文本"能力转化为"回答问题"能力。预训练模型看到"今天天气"会继续生成"真不错"这样的续写，而经过 SFT 的模型能理解"今天天气怎么样"是一个需要回答的问题，并生成"今天天气晴朗，温度 25 度"这样的响应。此外，SFT 还让模型学习遵循格式要求（如 JSON 输出、代码块标记）、理解角色设定（如"你是一个专业的程序员助手"）、学习拒绝回答有害问题（如制造武器的方法）。

2024 年兴起的 DPO（Direct Preference Optimization，直接偏好优化）技术，通过比较"好答案"和"坏答案"直接优化模型，取代了部分复杂的 RLHF 流程，大幅降低训练成本。这已成为 2025 年的主流对齐方式。自动化标注也成为趋势——使用强模型（如 GPT-4）为弱模型生成训练数据，既降低成本又能保证质量。

第三阶段：强化学习

强化学习（RLHF）的目标是让模型学会"如何令人满意"，即对齐人类价值观、偏好和伦理标准。这是模型能力的"品格培养"阶段，也是让 ChatGPT 从"能用"到"好用"的关键。

预训练和 SFT 阶段的模型存在明显问题：可能生成有害内容（偏见、歧视或危险信息）、会一本正经地胡说八道（幻觉问题）、回答过于简略或偏离用户需求、无法理解人类的道德标准和社会规范。RLHF 通过让人类对模型输出进行评价，引导模型产生更符合人类期望的回复。

训练流程分为两个步骤。第一步是收集人类反馈训练奖励模型——让模型对同一问题生成多个不同回答（如 4 个），人类标注员对这些回答进行排序，然后训练一个"奖励模型"来模拟人类偏好。第二步是使用 PPO 算法（Proximal Policy Optimization）进行强化学习优化——奖励模型给 LLM 的输出打分，通过强化学习调整 LLM 参数使高奖励回答的出现概率增加，重复这一过程数千次逐步优化模型行为。

RLHF 对 ChatGPT 的成功至关重要。预训练模型只会"续写文本"，不会"回答问题"；SFT 让模型学会基本的对话格式；RLHF 让模型真正学会"对话艺术"——理解上下文、保持连贯、适时追问。更重要的是，RLHF 使模型学会拒绝不当请求（如"我无法回答这个问题"），减少了 80% 以上的有害输出，并引导模型提供详细、有用的回答。

2025 年的技术趋势包括合成数据反馈（使用强模型自动评价弱模型的输出，降低 90% 的人类标注成本）、多维度对齐（不仅对齐内容质量，还考虑安全性、公平性、透明度）、RLOF（Reinforcement Learning from AI Feedback，使用其他 AI 模型的反馈替代人类反馈）。

训练成本与挑战

大语言模型训练的成本结构需要认真考虑。算力成本方面，GPT-3 训练约 500 万美元，GPT-4 训练估计 5000 万到 1 亿美元，需要数千张 GPU 运行数月。数据成本方面，SFT 数据标注每小时 20 到 50 美元（专业标注员），RLHF 排序数据每条 0.5 到 2 美元，总数据成本达数十万到数百万美元。技术门槛同样不容忽视——需要大规模分布式训练框架（如 DeepSpeed、Megatron-LM）、复杂的超参数调优（学习率调度、批量大小、温度参数）、处理稳定性问题（训练崩溃、梯度爆炸）。

实践中常见的挑战包括灾难性遗忘（学习新任务时会忘记旧知识，解决方案是经验回放、弹性权重巩固）、奖励黑客（模型学会"欺骗"奖励模型输出看起来好但无意义的内容，解决方案是多样化奖励信号、定期重新训练奖励模型）、对齐税（对齐后模型性能可能下降，解决方案是迭代式对齐在保持能力的同时优化行为）、数据偏见（训练数据反映互联网的偏见和歧视，解决方案是数据清洗、公平性约束、偏见检测）。

工程实践

从工程角度，训练大语言模型需要系统性规划。模型架构选择时，Decoder-only 是当前主流，除非有明确的序列到序列任务需求（如机器翻译）才考虑 Encoder-Decoder。预训练阶段，数据质量比数量更重要——高质量的专业数据（论文、代码、教科书）的价值远超低质量的网页文本。建议从小规模实验开始（如 1B 参数模型），验证数据配比和训练流程，再扩展到大规模训练。

SFT 阶段，聚焦高质量指令数据。一个常见误区是认为 SFT 是教知识，实际上是教"怎么回答"——模型的知识来自预训练，SFT 只是教会它如何运用这些知识回答问题。数据标注时，要确保答案的多样性和准确性，避免模式坍塌（模型总是生成相似的回答）。DPO 是 2025 年的首选方案，相比传统 RLHF 更稳定、成本更低、效果接近。

RLHF 阶段，奖励模型的质量决定对齐效果。排序数据要覆盖多样化的场景（安全、帮助性、诚实性），标注员培训至关重要——不同标注员的标准差异会导致奖励模型困惑。训练时要注意 KL 散度约束，防止模型过度优化奖励函数而偏离原始语言模型。PPO 的实现复杂，可以考虑使用开源库如 TRL、Ray RLlib 加速开发。

训练基础设施方面，分布式训练是必备技能。数据并行适合大规模数据训练，模型并行适合超大模型，流水线并行能提高 GPU 利用率。混合精度训练（FP16/BF16）能显著加速，但需要处理数值稳定性问题。FlashAttention 等优化技巧通过优化内存访问模式，在不改变计算结果的前提下显著加速训练。

对于资源受限的团队，基于开源模型进行微调是更现实的选择。LLaMA、Mistral、Qwen 等开源模型提供了强大的基础能力，通过 SFT 和 DPO 进行领域适配，成本远低于从零训练。训练平台如 Hugging Face、Anyscale、Modal 提供了训练基础设施，降低了技术门槛。

DSL

数据结构

算法模型

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

Vite

TypeScript

Vue

浏览器

Flutter

语言基础

渲染基础

Shader

光栅化管线

光线追踪管线

模块系统

MySQL

分布式原理

语言基础

系统开发

数据结构

电源管理

进程管理

内存管理

文件管理

设备管理

网络实现

中断管理

系统调用

视图系统

硬件基础

总线协议

PCI

开发板

语言基础

机器学习

深度学习

GPT

大模型应用

加速计算接口

GPT 模型 ​

模型架构基础 ​

第一阶段：预训练 ​

第二阶段：监督微调 ​

第三阶段：强化学习 ​

训练成本与挑战 ​

工程实践 ​

GPT 模型

模型架构基础

第一阶段：预训练

第二阶段：监督微调

第三阶段：强化学习

训练成本与挑战

工程实践