圖解神經(jīng)網(wǎng)絡(luò)之--2.0 線性單元(Linear Regression)

制作軟件幕布,可生成清晰的思維度導(dǎo)圖

了解幕布
注冊連接:幕布是一款結(jié)構(gòu)化思維生產(chǎn)力工具
如果大家喜歡的話麻煩從我的這個(gè)連接注冊,這樣我就可以使用高級會員功能了,,,謝謝啦


建議直接看思維導(dǎo)圖,如果圖片不清晰可點(diǎn)擊查看原圖(屏幕中間下方)。

查看原圖

文章列表

圖解神經(jīng)網(wǎng)絡(luò)之--1.0 感知器(Perceptron)
圖解神經(jīng)網(wǎng)絡(luò)之--2.0 線性單元(Linear Regression)


線性單元以及梯度下降

線性單元.png

下面是幕布標(biāo)簽內(nèi)容
線性單元的概念:在面對一個(gè)數(shù)據(jù)集不是線性可分的時(shí)候,使用感知器規(guī)則 可能無法進(jìn)行收斂,無法訓(xùn)練成一個(gè)感知器的問題時(shí),我們用一個(gè)可倒的線性函數(shù)來替換感知器的跳躍函數(shù),這樣的感知器就叫做線性單元,線性單元在面對線性不可分的數(shù)據(jù)集時(shí),會收斂到一個(gè)最佳的近似值上。
圖示:


輸出:更改激活函數(shù)之后線性單元返回的是一個(gè)實(shí)數(shù)值而不是0,1分類,因此線性單元用來解決的是回歸問題而不是分類問題。

線性模型:當(dāng)我們說模型時(shí),我們實(shí)際上在談?wù)摳鶕?jù)輸入X 預(yù)測輸出Y的算法

工資模型的表達(dá)式 輸入分別是影響工資的參數(shù) x1 - x4

更改為向量的形式

輸出Y 就是輸入x1-x4的線性組合。

線性單元的目標(biāo)函數(shù)和梯度下降優(yōu)化:目標(biāo)函數(shù)預(yù)測值和標(biāo)簽的近似程度 e是單個(gè)樣本的誤差。(一般用的是差的平方的二分之一,乘二分之一是為了之后求導(dǎo)好算)

整體誤差:

單個(gè)預(yù)測輸出:

整體誤差代入式(x和y都是已知的下式是關(guān)于w的函數(shù))

對于一個(gè)訓(xùn)練數(shù)據(jù)集來說,誤差越小就說明模型越好,由此可見,模型的訓(xùn)練,實(shí)際上就是求取到合適的w。則需要使用下面的優(yōu)化算法優(yōu)化我們的目標(biāo)函數(shù)(E(W))

批梯度下降(Batch Gradient Descent)優(yōu)化優(yōu)化的目的:通過梯度下降對得到的目標(biāo)函數(shù) (E(W))進(jìn)行優(yōu)化找到最合適的w

理論基礎(chǔ):連續(xù)函數(shù)最小值的點(diǎn),是其倒數(shù)為零的點(diǎn)。因?yàn)橛?jì)算機(jī)無法進(jìn)行求導(dǎo)操作,所以通過枚舉法一步一步的把極值點(diǎn)試出來。

梯度概念:梯度是一個(gè)向量,它指向函數(shù)值上升最快的方向。
方法:我們通過梯度的反方向去修改x的值,在找到極值點(diǎn)。

公式: 倒三角是梯度算子,f(x)是梯度,n是步長,也叫學(xué)習(xí)率。


目標(biāo)函數(shù)的梯度:

推倒過程推倒目的:

step1:提出常數(shù)

step2:拋開求和

step3:復(fù)合求導(dǎo)

step4:帶入上式

修改之后的線性單元的參數(shù)修改規(guī)則

隨機(jī)梯度下降算法(Stochastic Gradient Descent, SGD)概念:如果樣本數(shù)目非常大,那么采用批梯度下降計(jì)算量將會異常巨大,在SGD中,每次w的迭代只計(jì)算一個(gè)樣本,這樣更新效率就會大大提高

圖示:
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容