SoftMax 交叉熵和SoftMax 最大似然有什麼區別嗎？

1樓：鋁箱

區別就是乙個是soft label 乙個是hard label嘛。如果交叉熵裡面label是(0,1)這樣的，那就等價於最大似然了。

2樓：臉雲

Many authors use the term「cross-entropy" to identify specifically the negative log-likelihood of a Bernoulli or softmax distribution, but that is a misnormer. Any loss consisting of a negative log-likelihood is a cross entropy between the emprical distribution defined by the training set and the model.

3樓：

在分類問題中沒有區別。

考慮乙個k分類問題，物體存在被分入任何一類的概率。這可以用Multinoulli分布來表示，即表示在第類的權重（概率），Multinoulli分布其實就是Bernoulli分布從0-1分類拓展到多分類的結果。

現在假設有乙個訓練集，將其餵入神經網路後，得到的輸出應該是乙個權重（概率）矩陣，即在訓練的迭代過程中，計算交叉熵有然後考慮乙個batch的最大似然估計，有實際上在使用最大似然估計時常取負數，這樣一來就完全相同了。

SoftMax 交叉熵和SoftMax 最大似然有什麼區別嗎？

如何嚴格證明softmax分布的熵隨溫度係數的公升高而增大？

哪些場景下的分類問題不適用於交叉熵損失函式？

變分自編碼器的重建損失為什麼有人用交叉熵損失有人用平方差

其他用戶還看了：

SoftMax 交叉熵和SoftMax 最大似然有什麼區別嗎？

如何嚴格證明softmax分布的熵隨溫度係數的公升高而增大？

哪些場景下的分類問題不適用於交叉熵損失函式？

變分自編碼器的重建損失為什麼有人用交叉熵損失 有人用平方差

其他用戶還看了：

變分自編碼器的重建損失為什麼有人用交叉熵損失有人用平方差