输入尺寸 (batch_size, token_num, dim)
最后一个维度 归一化 nn.LayerNorm(dim)
每个位置的特征维度特征独立,每个位置曾归一化,减少特征间的耦合,减少特征间的内部协变量转移,缓解深度神经网络的梯度消失和梯度爆炸问题
对单个样本的特征维度归一化,增强特征间的独立性,特征表示更稳定
输入尺寸 (batch_size, token_num, dim)
最后一个维度 归一化 nn.LayerNorm(dim)
每个位置的特征维度特征独立,每个位置曾归一化,减少特征间的耦合,减少特征间的内部协变量转移,缓解深度神经网络的梯度消失和梯度爆炸问题
对单个样本的特征维度归一化,增强特征间的独立性,特征表示更稳定