neural network 筆記

一個模仿人體大腦神經信號處理的算法模型,理念很簡單,但是其中還是有些點會有點糾結。

1. gradian descent ?梯度下降。需要使用在連續可導的函數。對于梯度下降的理解,花了很多的時間,最后通過一篇博客中描述了,導數(一元函數求導,得到結果小于零則在這個方向上函數值是減小趨勢,否則是上升趨勢),偏導(多元在一個方向上求導),方向導數(多元在多個方向上求導),得到梯度就是多元在多個方向上求出哪個方向上有最大的變化率。

梯度即函數在某一點最大的方向導數,函數延梯度方向有最大的變化率。

既然理解了梯度,那么梯度下降會比較清晰。因為梯度代表函數最大的變化率,那么為了減小函數值,要采取負梯度方向,這樣函數值延方向下降最快,優化目標。

這篇blog的地址是:http://m.blog.csdn.net/article/details?id=50978864

2. error backpropagation BP。假設使用的是sigmoid unit。建立在gradian descent基礎之上。其目標就是要最小化training set中的累積誤差。那么gradian descent確實比較適合。

根據機器學習教材,bp又有標準和累積之分,標準bp是針對單個樣例不停迭代,中間可能出現抵消效果,但在訓練集非常大時效果比累積bp好。累積bp是直接針對累積誤差最小化,讀取整個訓練集以后對參數進行更新,更新頻率低。

bp容易overfitting,一般會有early stopping和regularization。early stopping很基本,就是驗證集,當驗證集誤差增大,則停止訓練。regularization則是在誤差中加入閾值平方和與一個0-1之間的參數乘積。

3. 局部最小和全局最小。如何跳出局部最小而得到全部最小。

根據機器學習教材,

(1)多組初始值初始化多個神經網絡,得倒的值很有可能有全局最小。????但是要多少組呢?會不會消耗資源很大?

(2)simulated annealing。以一定概率接受比當前解更差的結果,從而在某個點的到全局最小。但有可能跳出全局最小呢。

(3)隨機梯度下降。加入隨機因子,在局部最小時也不為零從而跳出。??

(4)遺傳算法。??

4. 節點,層,權值變大會造成overfitting。用cross validation限制overfitting。

5.怎么設定隱藏層的大???

一般三層,節點小于訓練集數-1,在連接權的2-10倍。?可能經驗中得到。

6. mark rbf網絡,art網絡,som網絡,elmam,boltzmann機

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容