Softmax求导推导 发表于 2017-12-30 | 分类于 机器学习 | | 阅读次数 Softmax求导之前也推导过Softmax求导过程,但是结论没记住,每次都要重新推,很麻烦,现做个记录。 Softmax公式注意:在实际实现softmax时需将$x$减去$max(x)$,防止溢出。 交叉熵损失给定标签$\boldsymbol y$和模型输出$\boldsymbol{\hat y}$,交叉熵损失函数定义为: 求导使用链式法则求导 其中: 用向量表示: