認(rèn)為sigmoid輸出單元有兩個(gè)部分。首先,它使用一個(gè)線性層來(lái)計(jì)算 z = wTh + b (T是w的轉(zhuǎn)置)。其次,它使用sigmoid激活函數(shù)將z轉(zhuǎn)化為概率。
暫時(shí)忽略對(duì)x的依賴(lài)性,只討論如何用z的值來(lái)定義y的概率分布。sigmoid可以通過(guò)構(gòu)造一個(gè)非歸一化(和不為1)的概率分布P(y)‘ 來(lái)得到。
可以隨后除以一個(gè)合適的常數(shù)來(lái)得到有效的概率分布。
如果假定非歸一化的對(duì)數(shù)概率對(duì)y和z是線性的,可以對(duì)它取指數(shù)來(lái)得到非歸一化的概率。然后對(duì)它歸一化,可以發(fā)現(xiàn)這服從Bernoulli分布,該分布受z的sigmoid變換控制