Softmax求导推导

Softmax求导

之前也推导过Softmax求导过程,但是结论没记住,每次都要重新推,很麻烦,现做个记录。

Softmax公式

注意:在实际实现softmax时需将$x$减去$max(x)$,防止溢出。

交叉熵损失

给定标签$\boldsymbol y$和模型输出$\boldsymbol{\hat y}$,交叉熵损失函数定义为:

求导

使用链式法则求导

其中:

用向量表示: