梯度下降法

梯度下降（Gradient Descent）是训练机器学习模型的核心优化算法。它的基本思想是：沿着损失函数梯度的负方向迭代更新参数，逐步找到使损失函数最小的参数值。它是计算机实践中无法一步求解多层神经网络的最值，而采用的逐步微调逼近的思想，模型的参数在逐步逼近损失函数最小值的过程中得以确定。

基本原理

对于参数向量 $θ$ ，梯度下降的更新规则为：

θ_{t + 1} = θ_{t} - η \nabla J (θ_{t})

其中：

$η$ 是学习率（learning rate），控制每次更新的步长
$\nabla J (θ_{t})$ 是损失函数在当前参数处的梯度
负号表示沿着梯度下降的方向（使损失减小）

三种变体

批量梯度下降（Batch GD）

θ_{t + 1} = θ_{t} - η \cdot \frac{1}{m} \sum_{i = 1}^{m} \nabla L (y_{i}, f (x_{i}; θ_{t}))

特点：每次使用全部 $m$ 个训练样本计算梯度
优点：梯度准确，收敛稳定，理论保证强
缺点：大数据集计算开销巨大，无法在线更新

随机梯度下降（SGD）

θ_{t + 1} = θ_{t} - η \cdot \nabla L (y_{i}, f (x_{i}; θ_{t}))

特点：每次仅使用一个随机样本
优点：更新速度快，可逃离浅层局部最优，支持在线学习
缺点：梯度噪声大，收敛路径震荡，需要精细调节学习率

小批量梯度下降（Mini-batch GD）

θ_{t + 1} = θ_{t} - η \cdot \frac{1}{b} \sum_{i \in B_{t}} \nabla L (y_{i}, f (x_{i}; θ_{t}))

其中 $B_{t}$ 是大小为 $b$ 的随机小批量（batch size 常取 32、64、128 等）。

特点：折中方案，深度学习的标准做法
优点：
- 平衡计算效率和收敛稳定性
- 充分利用 GPU 并行计算
- 噪声适中，有助于泛化
缺点：需要调节 batch size 超参数

现代优化器

为了加速收敛和提高训练稳定性，研究者提出了许多改进算法：

Momentum（动量法）

\begin{aligned} v_{t + 1} & = β v_{t} + η \nabla J (θ_{t}) \\ θ_{t + 1} & = θ_{t} - v_{t + 1} \end{aligned}

思想：引入速度（velocity）概念，积累历史梯度
优点：加速收敛，减少震荡，更容易越过小坑
典型参数： $β = 0.9$

AdaGrad（自适应梯度）

θ_{t + 1} = θ_{t} - \frac{η}{\sqrt{G_{t} + ϵ}} ⊙ \nabla J (θ_{t})

其中 $G_{t}$ 是历史梯度平方和。

思想：为每个参数自适应调整学习率
优点：稀疏特征学习效果好（如NLP）
缺点：学习率单调递减，可能过早停止

RMSProp

\begin{aligned} G_{t + 1} & = β G_{t} + (1 - β) (\nabla J (θ_{t}))^{2} \\ θ_{t + 1} & = θ_{t} - \frac{η}{\sqrt{G_{t + 1} + ϵ}} ⊙ \nabla J (θ_{t}) \end{aligned}

思想：改进 AdaGrad，使用指数加权移动平均
优点：避免学习率过快衰减，适合非平稳目标

Adam（Adaptive Moment Estimation）

\begin{aligned} m_{t + 1} & = β_{1} m_{t} + (1 - β_{1}) \nabla J (θ_{t}) \\ v_{t + 1} & = β_{2} v_{t} + (1 - β_{2}) (\nabla J (θ_{t}))^{2} \\ {\hat{m}}_{t + 1} & = \frac{m_{t + 1}}{1 - β_{1}^{t + 1}}, {\hat{v}}_{t + 1} = \frac{v_{t + 1}}{1 - β_{2}^{t + 1}} \\ θ_{t + 1} & = θ_{t} - \frac{η}{\sqrt{{\hat{v}}_{t + 1}} + ϵ} {\hat{m}}_{t + 1} \end{aligned}

思想：结合 Momentum 和 RMSProp
优点：
- 对学习率不敏感
- 收敛快速稳定
- 适用范围广
典型参数： $β_{1} = 0.9, β_{2} = 0.999, η = 0.001$
地位：深度学习最常用的优化器

AdamW

θ_{t + 1} = θ_{t} - η (\frac{{\hat{m}}_{t + 1}}{\sqrt{{\hat{v}}_{t + 1}} + ϵ} + λ θ_{t})

改进：修正了 Adam 中权重衰减的实现方式
优点：更好的泛化性能，推荐用于 Transformer 等大模型

学习率调度策略

固定学习率往往不是最优选择，常用调度策略包括：

Step Decay：每 N 个 epoch 降低学习率
$η_{t} = η_{0} \cdot γ^{⌊ t / N ⌋}$
Exponential Decay：指数衰减
$η_{t} = η_{0} \cdot e^{- λ t}$
Cosine Annealing：余弦退火
$η_{t} = η_{m i n} + \frac{1}{2} (η_{m a x} - η_{m i n}) (1 + \cos (\frac{t π}{T}))$
Warmup：前期逐渐增大学习率，避免初期不稳定
$η_{t} = η_{b a s e} \cdot min (1, \frac{t}{T_{w a r m u p}})$

实践建议

调试技巧

监控损失曲线
- 训练损失持续下降：模型正在学习
- 训练损失不降：学习率可能过大或过小，或模型容量不足
- 训练损失下降但验证损失上升：过拟合，需要正则化
检查梯度
- 梯度消失：考虑改变激活函数、使用 BatchNorm、残差连接
- 梯度爆炸：降低学习率、使用梯度裁剪、检查网络初始化
损失为 NaN
- 学习率过大
- 数值不稳定（如 log(0)）
- 梯度爆炸

超参数选择

超参数	典型范围	调整建议
学习率	1e-4 ~ 1e-2	最重要！建议用学习率查找器
Batch	16 ~ 512	显存允许的情况下尽量大
Optimizer	Adam / AdamW	首选 Adam，大模型用 AdamW
权重衰减	1e-5 ~ 1e-3	防止过拟合，从 1e-4 开始尝试
Dropout	0.1 ~ 0.5	过拟合时使用

常见陷阱

错误的损失函数选择
- 回归任务用交叉熵 ❌
- 多分类用 MSE ❌
- Softmax 后接 Sigmoid 交叉熵 ❌
数据预处理不当
- 回归任务目标值未归一化
- 分类任务标签编码错误
- 训练集和测试集归一化参数不一致
忽略类别不平衡
- 99% 准确率可能毫无意义
- 考虑使用加权损失或重采样

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

TypeScript

Web API

浏览器

React

Vue

工程化

Nodejs

SSR

架构

UI 平台

跨平台

Flutter

人机关系

安全

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议

SQL

sql 基础

MySQL

NoSQL

Milvus

存储引擎

集群

工程实践

代理

消息队列

分布式基础

共识算法

并发模型

微服务

缓存

健壮性

可观测性

QoS

可观测性

性能优化

高可用与容错

云原生

DevOps

质量控制

语言基础

系统开发

数据结构

电源管理

进程管理

中断管理

内存管理

文件管理

设备管理

驱动接口

网络实现

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习