防止梯度消失而不是爆炸,假设a = softmax(x), 函数对x求导得a(1-a), 如果a为最大值则a=1, 那么 a(1-1)=0 导致梯度消失。
防止梯度消失而不是爆炸,假设a = softmax(x), 函数对x求导得a(1-a), 如果a为最大值则a=1, 那么 a(1-1)=0 导致梯度消失。