大模型架构

模型架构基础

在深入训练流程之前，需要理解两大主流架构的本质差异。GPT 系列采用 Decoder-only 架构，仅使用 Transformer 的解码器部分，配合因果注意力机制进行自回归训练——模型只能看到当前位置之前的 token，通过预测下一个 token 逐字生成文本。这种架构天然适合文本生成任务，能够保持上下文连贯性，从 GPT-3 到 GPT-4、Claude、LLaMA 都采用了这一设计。

BERT 系列则采用 Encoder-only 架构，使用双向注意力机制，模型能够同时看到上下文的所有 token。训练方式是掩码语言模型（MLM），随机遮盖部分 token 让模型预测，类似于"完形填空"。这种架构擅长理解类任务如文本分类、情感分析、问答匹配，但随着生成任务的重要性提升，GPT 架构已成为主流。值得注意的是，T5、BART 等模型采用 Encoder-Decoder 架构，结合了双向理解和生成能力，在机器翻译等序列到序列任务上仍有价值。

从工程实践看，Decoder-only 架构的优势不仅在于生成能力，更在于工程实现的简洁性——单一的前向传播路径，更容易进行大规模分布式训练和推理优化。这也是为什么现代大语言模型几乎都采用这一架构。

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

Vite

TypeScript

Vue

浏览器

Flutter

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议基础

SQL

MySQL 架构与实现

NoSQL

运维与调优

分布式与扩展

特定主题深入

工程实践

QoS 总览

可观测性

性能优化

高可用与容错

分布式原理

共识算法

并发模型

微服务治理

负载均衡

云原生

K8s

语言基础

系统开发

数据结构

电源管理

进程管理

内存管理

文件管理

设备管理

驱动接口

网络实现

中断管理

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习

深度学习

大模型基础

大模型应用

主流引擎

设计实现

标准接口

算子

模型格式

集群

大模型架构 ​

模型架构基础 ​

大模型架构

模型架构基础