On variance reduction in stochastic gradient descent and its asynchronous variants

1. Abstract

基于variancereduction(VR)的SGD算法,比SGD更好,不論是theoretically and empirically,但是異步版本沒(méi)有被研究。本文為很多VR算法提供了一個(gè)unifying framework,然后在這個(gè)框架中提出了一種異步算法,并證明了很快的收斂速度。對(duì)于通用的稀疏的機(jī)器學(xué)習(xí)問(wèn)題,能夠達(dá)到線性的加速。

2. Introduction

在強(qiáng)凸假設(shè)下,VR隨機(jī)算法比SGD的期望收斂速度更快,VR分析了problem structure,做了一些space-time的trade-off,能夠減少因?yàn)殡S機(jī)梯度帶來(lái)的varince。需要將同步的VR算法擴(kuò)展到異步的并行和分布式環(huán)境。

3. Related work:

3.1. Primal VR方法

  • SAG(Minimizing Finite Sums with the StochasticAverage Gradient)

  • SAGA(SAGA: A fast incremental gradient methodwith support for non-strongly convex composite objectives)

  • SVRG(Accelerating stochastic gradient descent using predictive variance reduction)

  • S2GD(Semi-Stochastic Gradient Descent Methods)

3.2. Dual VR方法

  • SDCA(Stochastic dual coordinate ascent methods for regularized loss)

  • Finito(Finito: A faster, permutable incremental gradientmethod for big data problems)

3.3. 分析Dual方法和VR隨機(jī)方法之間關(guān)系

  • New Optimization Methods for Machine Learning

3.4. VR的算法結(jié)構(gòu)

VR的算法結(jié)構(gòu)可以trace back to經(jīng)典的非隨機(jī)incremental梯度算法(Incremental gradient, subgradient, and proximal methods for convex optimization:A survey),但是現(xiàn)在被公認(rèn)的是,隨機(jī)性幫助取得更快的收斂

3.5. Proximal方法

  • A proximal stochastic gradient method with progressive variance reduction

3.6. 加速VR方法

  • Stochastic Proximal Gradient Descent with Acceleration Techniques

  • Accelerated mini-batch stochastic dual coordinate ascent)

3.7. 分析finite-sum問(wèn)題lower-bound

  • A lower bound for the optimization of finite sums

3.8. 異步SGD算法

并行variants

  • Hogwild!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent

分布式variants

  • Distributed delayed stochastic optimization

  • Distributed asynchronous incremental subgradient methods

3.9. Coordinate descent方法的并行和分布式variants

  • Asynchronous stochastic coordinate descent: Parallelism and convergence properties

  • An asynchronous parallel stochastic coordinate descent algorithm

  • An asynchronous parallel stochastic coordinate descent algorithm

  • Iteration complexity of randomized block-coordinate descent methods for minimizing a composite function

3.10. mini-batch

  • Mini-Batch Semi-Stochastic Gradient Descent in the Proximal Setting. 將S2GD擴(kuò)展到mini-batch上,因此允許并行運(yùn)行,但是需要更多的同步,只能允許小的batch

4. VR隨機(jī)算法的通用框架

4.1. 假設(shè)條件

  • L-Lipschitz條件
  • lamda-strongly凸函數(shù)(也可擴(kuò)展到smooth convex函數(shù))

4.2. 已有VR算法

x是參數(shù),alpha是額外的參數(shù),A是alpha的集合

  • SVRG每m輪iteration更新一次完整的A
  • SAGA每輪iteration更新A中的一個(gè)alpha
  • SAG也是每輪iteration更新一個(gè)alpha

4.3. 空間時(shí)間開(kāi)銷分析

  • m較大時(shí),SVRG的計(jì)算開(kāi)銷小,但是收斂速度慢
  • SAG和SAGA更頻繁地更新A,因此收斂速度更快,但是存儲(chǔ)開(kāi)銷大

4.4. 通用算法

HSAG:結(jié)合不同VR算法的調(diào)度策略

5. 異步VR算法

類似HogWild!,單機(jī)多核環(huán)境,稀疏機(jī)器學(xué)習(xí)問(wèn)題

6. 實(shí)驗(yàn)

  • l2-LR算法
  • 無(wú)鎖的SVRG對(duì)訓(xùn)練步長(zhǎng)(學(xué)習(xí)速度)和線程數(shù)的變化魯棒性更強(qiáng)

7. 總結(jié)

  • a common platform
  • an synchronous algorithm
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,362評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,577評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,486評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,852評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,600評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,944評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,944評(píng)論 3 447
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,108評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,652評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,385評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,616評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,111評(píng)論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,798評(píng)論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,205評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,537評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,334評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,570評(píng)論 2 379

推薦閱讀更多精彩內(nèi)容

  • 周末還是算休息吧,不強(qiáng)求了……………
    鶴書(shū)嗣音閱讀 199評(píng)論 0 0
  • 不說(shuō)假話,福珠和俊亨是我近年來(lái)看過(guò)最美好的一對(duì),離看要這劇已經(jīng)三個(gè)月左右了吧,還是久久不能忘懷。所以今天把劇照設(shè)成...
    天涯路人各不相干閱讀 834評(píng)論 0 0
  • 還記得二十年前,那部風(fēng)靡全國(guó)的電視劇《渴望》嗎? 記得那時(shí)候,電視還是一種稀罕物,沒(méi)有電視的人家,每天搬個(gè)小馬扎去...
    李在在閱讀 700評(píng)論 3 3