SoftMax 交叉熵和SoftMax 最大似然有什麼區別嗎?

時間 2021-07-12 16:41:33

1樓:鋁箱

區別就是乙個是soft label 乙個是hard label嘛。如果交叉熵裡面label是(0,1)這樣的,那就等價於最大似然了。

2樓:臉雲

Many authors use the term「cross-entropy" to identify specifically the negative log-likelihood of a Bernoulli or softmax distribution, but that is a misnormer. Any loss consisting of a negative log-likelihood is a cross entropy between the emprical distribution defined by the training set and the model.

3樓:

在分類問題中沒有區別。

考慮乙個k分類問題,物體存在被分入任何一類的概率。這可以用Multinoulli分布來表示,即 表示在第 類的權重(概率),Multinoulli分布其實就是Bernoulli分布從0-1分類拓展到多分類的結果。

現在假設有乙個訓練集,將其餵入神經網路後,得到的輸出應該是乙個權重(概率)矩陣,即在訓練的迭代過程中,計算交叉熵有然後考慮乙個batch的最大似然估計,有 實際上在使用最大似然估計時常取負數,這樣一來就完全相同了。

如何嚴格證明softmax分布的熵隨溫度係數的公升高而增大?

胡一鳴 考慮具有 個能級的系統,其玻爾茲曼分布的配分函式 作為玻爾茲曼分布的歸一化係數 為 其中 是玻爾茲曼常數,是溫度,是能級。則熵可以寫為 容易驗證 其中 是不同能級出現的概率,也就是玻爾茲曼分布的分布列,也就是不同的值所對應的softmax的函式值。用熵對溫度求導 現在就來計算這個二階導數。等...

哪些場景下的分類問題不適用於交叉熵損失函式?

魯公尺諾 異常值檢測?或者叫out of domain distribution detection好像也行 本質上是二分類問題區別正常值和異常值但一般沒有標籤所以沒法直接用交叉熵分類得用一些間接的方法迂迴一下 女子車幹 以多分類問題來舉例,當你的目標使用one hot編碼,你某兩個樣本 A 和 B...

變分自編碼器的重建損失為什麼有人用交叉熵損失 有人用平方差

Taffy lll 一般來說,p x z 的選取和x的取值空間是密切相關的 如果x是二值影象,這個概率一般用伯努利分布,而伯努利分布的對數似然就是binary cross entropy,可以調各大DL庫里的BCE函式 如果x是彩色 灰度影象,這個概率取高斯分布,那麼高斯分布的對數似然就是平方差。 ...