Index | Diary 2024-06-06

输入尺寸 (batch_size, token_num, dim)

最后一个维度 归一化 nn.LayerNorm(dim)

每个位置的特征维度特征独立,每个位置曾归一化,减少特征间的耦合,减少特征间的内部协变量转移,缓解深度神经网络的梯度消失和梯度爆炸问题

概念

对单个样本的特征维度归一化,增强特征间的独立性,特征表示更稳定