西西gogo高清大胆专业,大师兄影视大全免费观看电视剧 ,中文字幕人妻丝袜成熟乱九区

之所以叫盒飯版算法，是希望能在最短時間講一些沒那么正式的東西。

在機器學習里，我們通常用優化方法來計算模型的未知參數，隨機梯度下降方法（SGD）是其中一種優化方法。

下面這篇博客介紹了如何用SGD來獲得一個線性模型。
https://machinelearningmastery.com/implement-linear-regression-stochastic-gradient-descent-scratch-python/

我截取其中一段來講。這篇文章講的SGD只能算是標準型，如果想了解更專業的，可以參考R語言的工具包sgd：
https://github.com/airoldilab/sgd/blob/master/README.md

SGD 的兩個參數

SGD 有兩個參數（對標準型而言）：學習率（Learning Rate）和迭代次數（Epochs）。計算參數是一個比較費時的工作，有點像學英語，一天肯定學不會，每天只能學會一點，這個大概就是學習率。既然忘了，就得反復學，這就是迭代，有些人聰明，學一兩年就學會了，有些人差一點，像我學了幾十年，還沒有訓練出一個好的語言模型。

SGD之打鐵循環

上圖說，SGD有三個循環過程：1、把所有的迭代都循環一遍;2、每次迭代中把所有的訓練數據循環一遍;3、每次用到一條訓練數據時把所有的參數都更新一遍。

參數是怎么更新的呢？

參數更新依靠誤差。誤差從哪里來？今天想學100個單詞，結果只學會了50個，誤差就是沒學會的那50個，第二天想把沒學會的50個單詞學會，結果記下了10個，誤差縮小到40個，然后是第三天、第四天，運氣好的時候，10天記下100個單詞。像我把單詞記在大腦內存里，睡前總是忘了存盤，第二天一早發現大腦內存清空了，昨天記的單詞就都忘記了，偶爾我還是會存盤的，一年半載之后，還是會記住這100個單詞的。