Index | Diary 2024-06-06

概念

非线性函数映射后的 输入分布 拉回到均值为0 方差为1 的标准正态分布区间。梯度变大,解决*梯度消失*|*梯度爆炸*问题,收敛速度更快,加快训练速度

计算过程

  1. 计算均值

$$ \mu = \frac{1}{n} \sum_n{x_i} $$

  1. 计算方差

$$ \sigma2 = \frac1n\sum_n(x_i-\mu)2 $$

  1. 标准化:minus 均值 除以标准差

$$ \hat{x_i} = \frac{x_i-\mu}{\sqrt{\sigma^2-\epsilon}} $$

  1. 仿射变换

$$ \hat{x}_i^o=\gamma\hat{x}_i+\beta $$