非线性函数映射后的 输入分布 拉回到均值为0 方差为1 的标准正态分布区间。梯度变大,解决*梯度消失*|*梯度爆炸*问题,收敛速度更快,加快训练速度
- 提高鲁棒性 泛化能力: 对数据的变化和扰动不敏感,在未见过的数据上表现更好
- 计算均值
$$ \mu = \frac{1}{n} \sum_n{x_i} $$
- 计算方差
$$ \sigma2 = \frac1n\sum_n(x_i-\mu)2 $$
- 标准化:minus 均值 除以标准差
$$ \hat{x_i} = \frac{x_i-\mu}{\sqrt{\sigma^2-\epsilon}} $$
- 仿射变换
$$ \hat{x}_i^o=\gamma\hat{x}_i+\beta $$