人工神經網絡相比傳統的線性回歸和邏輯回歸，在模擬非線性模型上會有更好的效果，用于分類和回歸均可。

一、神經元（感知器）

圖片來自吳恩達機器學習入門

一個神經元包括幾個輸入結點（圖中的 $x_1$ ， $x_2$ ， $x_3$ 等）和一個輸出結點，每個輸入結點連接到輸出結點都要有一個權重（ $θ$ ，很多材料也用 $w$ 來表示），用來模擬輸入結點和輸出結點之間的連接強度。訓練一個神經元模型，就是持續調整連接強度，直到能擬合模型。

神經元模型里會在輸出結點對這幾個輸入結點進行加權求和（一般會有一個偏置因子 $x_0$ ，這個原因后面寫），然后得到一個結果 $h_θ(x)$ ，用 $h_θ(x)$ 的值來判斷所處的分類。

一般來說，為了擬合非線性模型，除了簡單的用加權求和以外，還應該套用一個函數在加權求和上，這個函數叫做激活函數。如果把輸入特征和權重都看作向量，那么求和就是兩個向量的內積 $θ_tx$ ，在這個外面再套用一個激活函數，輸出結果。

展開來看就是 $h_θ(x)=g(θ_0x_0+θ_1x_1+θ_2x_2+……)$
$g(x)$ 就是激活函數。

常見的激活函數種類

以下內容摘自https://zhuanlan.zhihu.com/p/29633019

sigmoid

優點：有較好的解釋性

缺點：
1.Sigmoid函數飽和使梯度消失。sigmoid神經元有一個不好的特性，就是當神經元的激活在接近0或1處時會飽和：在這些區域，梯度幾乎為0。
2.輸出不是零中心的，這一情況將影響梯度下降的運作，因為如果輸入神經元的數據總是正數，那么關于w的梯度在反向傳播的過程中，將會要么全部是正數，要么全部是負數，這樣梯度下降權重更新時出現z字型的下降。這樣收斂會變得異常的慢。（這也是為什么要一直保持為數據的0中心化）—–但這個問題比較小。
3.exp（）在深度神經網絡時候相比其他運算就比較慢

Tanh非線性函數

優點：
1.它的輸出是零中心的。因此，在實際操作中，tanh非線性函數比sigmoid非線性函數更受歡迎。

缺點：
1.和Sigmoid函數一樣，飽和使梯度消失。計算慢.

ReLU

優點：
1.ReLU對于隨機梯度下降的收斂有巨大的加速作用（ Krizhevsky 等的論文alexnet指出有6倍之多）。據稱這是由它的線性，非飽和的公式導致的；
2.注意：現在大部分的DNN用的激活函數就是ReLu

缺點：
1.當x是小于0的時候，那么從此所以流過這個神經元的梯度將都變成0；這個時候這個ReLU單元在訓練中將死亡（也就是參數無法更新），這也導致了數據多樣化的丟失（因為數據一旦使得梯度為0，也就說明這些數據已不起作用）。

Leaky ReLU

優點：
1.非飽和的公式;
2.Leaky ReLU是為解決“ReLU死亡”問題的嘗試

缺點：
1.有些研究者的論文指出這個激活函數表現很不錯，但是其效果并不是很穩定

Kaiming He等人在2015年發布的論文Delving Deep into Rectifiers中介紹了一種新方法PReLU，把負區間上的斜率當做每個神經元中的一個參數。然而該激活函數在在不同任務中均有益處的一致性并沒有特別清晰。

Maxout

Maxout是對ReLU和leaky ReLU的一般化歸納
優點：
1.擁有ReLU單元的所有優點（線性操作和不飽和），而沒有它的缺點（死亡的ReLU單元）

缺點：
1.每個神經元的參數數量增加了一倍，這就導致整體參數的數量激增。難訓練,容易過擬合

二、人工神經網絡

一些神經元組合在一起就是神經網絡（我是這么理解的），實際上人工神經網絡可以分為三層，輸入層，輸出層和隱藏層。

輸入層：最開始的一層，用來輸入樣本特征值。
輸出層：最后一層，用來輸出結果，判斷分類。
隱藏層：其他的層次都叫隱藏層，可以有多個層級。

以這幅圖為例，輸入層就是（偏置因子），，，，隱藏層是。輸出層則是最終得到的。計算方式如下圖（圖里可能沒有，但是公式里有）：

其中把看成矩陣，則下標按照線性代數定義，是行和列的坐標，而上標則代表了從第j層到第j+1層的權重值。（這里面的實際上和是一個意思，因為輸入層輸入的就是特征值，而代表的是第2層的第1個結點值）

不管是在輸入層-隱藏層，還是隱藏層-輸出層，只要是結點相連的地方都有一個權重。

每一層的結點僅和下一層的結點相連，叫做前饋神經網絡，同一層結點可以相連或某層結點可以連接到前面如何一層的結點的叫做遞歸神經網絡。

權重調整原理

通常來說，有監督學習都是試圖讓誤差最小，來衡量參數的變化，這里可以采用MSE來作為代價函數：
$E(θ) = \frac{1}{2}{\sum^{N}_{i=1}(y_i-\hat{y}_i})$
把2替換為n就是MSE的式子， $y$ 代表實際標簽值， $\hat{y_i}$ 代表根據給定權重算出來的y。

當 $\hat{y_i}$ 是線性函數的時候，該函數表示為一個凸函數，如果有兩個變量的話，就是一個三維碗狀函數，用梯度下降法可以求解最小值，梯度下降法的求解為：
$\theta_j \leftarrow \theta_j - \alpha{\frac{\partial E(θ)}{\partial \theta_j}}$
其中 $\alpha$ 是學習率，式子的意思就是對 $E(θ)$ 對每一個參數 $θ_j$ 求偏導數，乘以學習率之后，用 $θ_j$ 減掉這個值，得到這一次迭代的參數，輪番迭代之后得到局部最小值（凸優化中，局部最小就是全局最小），按照這個方法計算，權值會沿著使總體誤差項減小的方向增加。

但是實際上神經網絡大部分函數都不是線性的，因此 $E(θ)$ 也就不是凸函數，這樣的話使用梯度下降法就會出現局部最優的問題，從而得不到最優解，并且對于隱藏節點來說，
因此有一種反向傳播算法（back-propagation，BP）可以用來調整權重，從而得到最優解。

三、BP神經網絡

從名字就可以看出，BP神經網絡就是用了反向傳播算法得出參數的神經網絡，這個算法的每一次迭代包括兩個階段，前向階段和后向階段：
前向階段就是用前一次迭代的權值計算網絡中每一個結點的輸出值，先計算j層輸出，然后用j層計算j+1層。
后向階段則是從相反的方向更新權重，先更新j+1層，再更新j層。這種方法可以用j+1層的結點誤差來估算j層的結點誤差。

還是吳恩達老師的圖，圖中 $\delta^{(l)}_j$ 代表第l層，j結點的誤差，則 $\delta^{(4)}_j = a^{(4)}_j - y_j$
${\delta^{(3)}} = {(\Theta^{(3)})}^T\delta^{(4)}.*g'(z^{(3)})$
${\delta^{(2)}} = {(\Theta^{(2)})}^T\delta^{(3)}.*g'(z^{(2)})$
$……$

其中 $\Theta^{(3)}$ 代表的是第3層到第4層的權重矩陣， $\delta^{(4)}$ 代表第四層的誤差矩陣， $g$ 代表激活函數， $z = Θ^Tx$ ，也就是該層的結點值。圖中藍筆代表當激活函數是sigmoid的時候的計算公式。
上述式子的推導過程，看到一個筆記記的非常明白：https://zhuanlan.zhihu.com/p/58068618

反向傳播的計算方式如下：

首先明確這個步驟中的代價函數（圖中的 $J(Θ)$ 即為通常來說的 $E(Θ)$ ）。

1.設 $\Delta^{l}_{ij} = 0$ ，其中 $l$ 代表層數， $i$ 訓練集中的第i個樣本， $j$ 代表第i個樣本的第j個特征。
2.計算完前向傳播之后，會得到輸出層的值，用這個值和標簽值比較，得到輸出層的誤差。
3.用剛才提到的公式，依次求出 $δ^{(l-1)}、δ^{(l-2)}、……$
4.用公式 $\Delta^{l}_{ij} = \Delta^{l}_{ij} + a^{l}_jδ^{(l+1)}_{ij}$ 累加得到 $\Delta^{l}_{ij}$ 的值
5.計算梯度函數：