原貼 : http://blog.csdn.net/u010025211/article/details/50328071
深度學習方面的論文整理
轉載
2015年12月16日 15:08:20
寫在前面:
最近看文章毫無頭緒,文章一把抓亂看,看到下面這個博客來忍不住轉載過來,以便自己不用到處找論文。
以下是轉載部分
================================================================================
轉載來源:http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65
人閱讀的Deep Learning方向的paper整理
個人閱讀的Deep Learning方向的paper整理,分了幾部分吧,但有些部分是有交叉或者內容重疊,也不必糾結于這屬于DNN還是CNN之類,個人只是大致分了個類。目前只整理了部分,剩余部分還會持續更新。
一 RNN
1 Recurrent neural network based language model
RNN用在語言模型上的開山之作
2 Statistical Language Models Based on Neural Networks
Mikolov的博士論文,主要將他在RNN用在語言模型上的工作進行串聯
3 Extensions of Recurrent Neural Network Language Model
開山之作的延續,RNN網絡的一些改進,如通過類別信息去降低模型的參數
4 A guide to recurrent neural networks and backpropagation
RNN網絡的介紹以及優化算法,是了解RNN網絡的好文章
5 Training Recurrent Neural Networks
Ilya Sutskever的博士論文,RNN網絡的訓練一直是個難點,介紹RNN網絡的訓練優化方法
6 Strategies for Training Large Scale Neural Network Language Models
介紹訓練RNN網絡訓練語言模型的一些Trick
7 Recurrent Neural Networks for Language Understanding
RNN網絡語義理解方面的工作
8 Empirical Evaluation and Combination of Advanced Language Modeling Techniques
介紹一些語言模型聯合技術的一些經驗,其中有RNN語言模型與其他模型combinine的工作
9 Speech Recognition with Deep Recurrent Neural Networks
RNN網絡用在語音識別方面的工作
10 A Neural Probabilistic Language Model
不是RNN,Yoshua Bengio早期將神經網絡用于訓練語言模型的工作,也算是為后續的RNN用于語言模型鋪好了基礎。
11 On the diffculty of training Recurrent Neural Networks
介紹了RNN網絡訓練的難點,比如消失的梯度,以及提出的一些解決方法
12 Subword Language Modeling with Neural Networks
詞級的語言模型由于OOV問題對新詞不適應,而字符級的語言模型雖然能克服這種問題,但是模型訓練的復雜度要提升,
為了將兩種特性結合提出了子詞級的RNN語言模型訓練,文中還利用k-means對模型參數進行了壓縮處理。
13 Performance Analysis of Neural Networks in Combination with N-Gram Language Models
關于N-gram和神經網絡語言模型聯合模型的性能分析,從實驗的角度分析性能會提升
14 Recurrent Neural Network based Language Modeling in Meeting Recognition
利用RNN與N-gram結合,重估得分提升語音識別系統性能
二 DNN
1 A practical guide to training restricted Boltzmann machines
介紹RBM以及訓練RBM時的N多trick,如果要實現RBM算法,這篇文章必看
2 A fast learning algorithm for deep belief nets
Hinton的經典之作,Deep Learning的開山之作,算是Deep Learning爆發的起點
3 A Learning Algorithm for Boltzmann Machines
85年較老的介紹如何Boltzmann訓練算法
4 Greedy Layer-Wise Training of Deep Networks
可以看作Yoshua Bengio對06年Hinton工作的延續和總結,與06年的文章很具有互補性,是入門Deep Learning的必備文章
文章中也介紹了一些trick,如如何處理第一層節點為實值的情況等等
5 Large Scale Distributed Deep Networks
google的Jeffrey Dean小組工作,DistBelief框架的提出,主要介紹了google如何采用分布式以及模型切分處理深度網絡,加速其訓練效果。
6 Context Dependent Pretrained Deep Neural Networks fo Large Vocabulary Speech Recognition
微軟在語音上的成功應用,語音識別系統相對錯誤率降了20%多,算是Deep Learning在工業界第一個成功案例,其影響轟動一時。
7 Deep Belief Networks for phone recognition
Hinton小組將DNN用于語音上的早期工作,是微軟工作的基礎
8 Application Of Pretrained Deep Neural Networks To Large Vocabulary Speech Recognition
DNN在大詞匯量會話語音識別工作,里面有一些Voice Search和Youtube上的實驗報道
9 An Empirical Study of Learning Rates in Deep Neural Networks for Speech Recognition
google的DNN-HMM語音識別系統上學習率的一些調參經驗
10 Acoustic Modeling using Deep Belief Networks
Hinton小組早期在語音上的工作,主要是介紹如何將DNN運用于聲學模型訓練
11 Deep Neural Networks for Acoustic Modeling in Speech Recognition
微軟、google、IBM等幾家工業界巨頭對DNN在語音識別上的一些共同觀點
12 Deep Belief Networks Using Discriminative Features for Phone Recognition
Hinton小組和IBM的對于采用一些區分性特征訓練DNN網絡的工作,采用LDA降維到40維
13 A Comparison of Deep Neural Network Training Methods for Large Vocabulary Speech Recognition
DNN實驗方面的對比,比如采用不同的預訓練方式:區分性預訓練和DBN生成式預訓練方式對比,以及神經元非線性的改變
14 Asynchronous Stochastic Gradient Desent for DNN Training
中科院的文章,異步式的GPU并行訓練,思想基本跟DistBelief差不多,只不過硬件換成了GPU,模型沒有做切分
15 Improving Deep Neural Networks For LVCSR using Rectified Linear Units and Dropout
利用ReLU和Dropout技術提升DNN-HMM系統
16 Improving the speed of neural networks on CPUs
google加速神經網絡前向傳播速度的工作,如利用定點計算、SIMD技術等
17 Improved Bottleneck Features Using Pretrained Deep Neural Networks
微軟DNN-HMM系統的相關工作
18 Improved feature processing for Deep Neural Networks
利用特征處理技術提升DNN-HMM系統,具體的是對13維MFCC特征拼接9幀,進行LDA-MLLT變換,最后
也可加入SAT模塊得到處理過的40維特征,作為DNN-HMM系統
19 Improving neural networks by preventing co-adaptation of feature detectors
主要講了Dropout技術和其實驗比較結果分析,把Dropout看做模型平均化結果
20 Exploiting Sparseness in Deep Neural Networks fo Large Vocabulary Speech Recognition
采用soft regularization和convex constraint的手段使DNN模型更加的稀疏化,稀疏化的目的是
減小模型復雜度,提升計算速度和模型的泛化能力
21 Feature Learning in Deep Neural Networks Studies on Speech Recognition Tasks
主要從Feature Learning的角度討論DNN網絡,討論了為何DNN網絡deeper更佳,為什么DNN能學出更魯邦的特征等等。
22 Improving Neural Networks with Dropout
Hinton學生Nitish Srivastava的碩士論文,主要討論了Droput技術在神經網絡的作用。
23 Learning Features from Music Audio with Deep Belief Networks
DNN深度網絡在音樂分類的應用,特征為MFCC,類別為hiphop、blues等曲風類型
24 Low-Rank Matrix Factorization for Deep Neural Network Training with High-Dimensional Output Targets
IBM方面的工作,利用低秩矩陣分解的技術解決DNN分類層權重參數過多的問題
25 Multilingual Training of Deep Neural Networks
DNN多語言方面的應用,調優的時候只調分類層參數即可
26 A Cluster-Based Multiple Deep Neural Networks Method for Large Vocabulay Continuous Speech Recognition
利用類別信息分數據訓練,然后將所有數據訓練出的小模型信息整合進了貝葉斯框架,加速了整個訓練過程,但精度會損失,解碼
也會變慢
27 Restructuring of Deep Neural Network Acoustic Models with Singular Value
提出采用SVD技術對權重矩陣進行壓縮,減少模型的復雜度
28 Sparse Feature Learning for Deep Belief Networks
Marc’Aurelio Ranzato提出的一種unsupervised feature learning的方式,這種訓練的優勢在于低維特性和稀疏特性,
文中對比了RBM和PCA方法。
29 Training products of experts by minimizing contrastive
Hinton提出的PoE模型,文中討論了如何訓練PoE模型,RBM模型也是一種特殊的PoE模型,RBM的訓練也是從此演化而來,如果
要理解CD算法原理,這篇文章必讀。
30 Understanding How Deep Belief Networks Perform Acoustic Modelling
文中主要討論了DBN模型為什么在聲學模型訓練會取得較好系統性能的幾個方面,但是沒有理論上的支持.
31 Pipelined Back-Propagation for Context-Dependent Deep Neural Networks
采用多GPU技術pipelined方式并行訓練網絡,文中還提到了一些并行措施,如數據并行化、模型并行化
32 Recent Advances in Deep Learning for Speech Research at Microsoft
文章主要介紹了微軟在Deep Learning方面工作的進展,如回歸原始特征,多任務特征學習、DNN模型的自適應等等
32 Rectified Linear Units Improve Restricted Boltzmann Machines
介紹ReLU技術在RBM模型上的運用,即非線性層的替換。
33 Reducing the Dimensionality of Data with Neural Networks
Hinton發表在science上的文章,主要介紹了如何利用神經網絡進行非線性降維,文中對比了PCA線性降維技術
34 Data Normalization in the Learning of Restricted Boltzmann Machines
RBM訓練方面數據處理的小trick,對數據進行零均值化處理使RBM訓練更魯邦。
35 Connectionist Probability Estimators in HMM Speech Recognition
早期神經網絡運用于聲學模型訓練的方法,其實也是現在DNN-HMM工作的基礎
36 Deep Learning for Robust Feature Generation in Audio-Visual Emotion Recognition
Deep Learning在視聽系統情感分析的運用,文中提出了多種視覺信號與聽覺信號混合訓練模型
37 Improving Training Time of Deep Belief Networks Through Hybrid Pre-Training And Larger Batch Sizes
采用混合式的預訓練方式,即生成式預訓練和區分式預訓練相結合方式,文中還認為加大minbatch的尺寸可以增加數據并行化粒度
38 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient
提出訓練RBM的新算法PCD,與CD算法不同的是全程只有一條馬爾科夫鏈,參數更新時不用重啟一條新的馬爾科夫鏈,當然這么做的一個
假設前提是參數更新時,模型的改變不是很大,文中也提到了采用小的學習率。
39 Classification using Discriminative Restricted Boltzmann Machines
區分性DRBM的提出,相比于生成式模型RBM優化的是p(x,y)函數,區分性DRBM優化的是p(y|x)函數,而這里的y是標簽,文中還提出了混合版本。
40 Learning Multiple Layers of Features from Tiny Images
Hinton學生Alex Krizhevsky的碩士論文,主要是DNN工作的一些串聯
41 Making Deep Belief Networks Effective for Large Vocabulary Continuous Speech Recognition
討論如何有效訓練DNN,側重于如何并行訓練方面
42 Optimization Techniques to Improve Training Speed of Deep Neural Networks for Large Speech Tasks
IBM的Tara N. Sainath小組DNN工作上的一些技巧總結,側重于如何提升并行化力度技巧和減少模型參數,IBM主要利用對分類層做低秩矩陣分解。
而CNN雖然是DNN的演化版本,參數量相對較小,但是目前語音識別中最好的CNN效果跟參數量相近的DNN效果差不多。
43 Parallel Training of Neural Networks for Speech Recognition
神經網絡并行化訓練方面的工作,文中的工作主要分為兩部分:多線程多核的并行化和基于SIMD的GPU并行化。
44 Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
google在移動端語音識別實踐性的工作,特別是DNN和LM的優化,DNN的優化方面主要包括定點計算、SIMD加速、Batch lazy計算和frame skipping技術
語言模型方面也做一定的壓縮技巧。參考價值較大的實戰性文章。
45 Cross-Language Knowledge Transfer Using Multilingual Deep Neural Network with Shared Hidden Layers
DNN多語言的訓練,所有語言共享相同隱層特征,而分類層面向不同語言,這種訓練降低了3-5%左右,原因有點類似于transfer learning,
不同語言之間的知識是可以transfer借鑒的。
46 Improving Wideband Speech Recognition using Mixed-Bandwidth Training Data in CD-DNN-HMM
利用8-kHz和16-kHz做不同的頻帶的CD-DNN-HMM混合訓練,其中比較重要的是如何設計不同頻帶的filter-bank對準問題,
文中還有一些關于filter-bank的訓練技巧,如是否采用動態特征和靜態特征訓練。
47 Robust Visual Recognition Using Multilayer Generative Neural Networks
Hinton學生Yichuan Tang的碩士論文,DNN視覺識別方面工作的串聯
48 Deep Boltzmann Machines
DBM模型開篇文章。
49 On Rectified Linear Units for Speech Processing
ReLU在語音識別上的性能分析
三 CNN
1 Deep Convolutional Network Cascade for Facial Point Detection
CNN用在人臉關鍵點檢測工作
2 Applying Convolutional Neural Networks Concepts to Hybrid NN-HMM Model for Speech Recognition
CNN運用于語音識別系統
3 ImageNet Classification with Deep Convolutional Neural Networks
12年Hinton組在ImageNet競賽上的CNN算法,不過細節不多,里面介紹了網絡中使用的trick,特別是relu
4 Gradient-Based Learning Applied to Document Recognition
Yann LeCun的經典文章,CNN開山之作,要了解CNN必先讀這篇
5 A Theoretical Analysis of Feature Pooling in Visual Recognition
Pooling在視覺識別中的原理分析以及視覺識別中的比如HOG、SIFT一些類似手段總結
6 What is the Best Multi-Stage Architecture for Object Recognition
文中討論了在OR問題上怎么樣去設計多級結構以獲取較好的識別性能,談的更多地是模型架構上的問題,如通過怎么樣的結構
獲取特征的不變性,怎么樣去聯合層級的信息,做視覺的應該好好看看這篇文章
7 Deep Convolutional Neural Networks for LVCSR
CNN在LVCSR上實際運用
8 Learning Mid-Level Features For Recognition
這篇論文視覺的應該看下,對當前視覺識別框架的分析以及框架個部分的關聯,比如coding和pooling技術。
9 Convolutional Networks and Applications in Vision
卷積網絡在視覺應用的分析,做視覺的應該看看。文中認為分層的思想是視覺應用當中良好的內部表達。文中將卷積網絡拆分成
Filter Bank層、非線性層、pooling層進行分析。
10 Convolutional Neural Networks Applied to House Numbers Digit Classification
卷積網絡用在房屋數字分類的案例,文中采用了LP pooling技術,通過gaussian kernel產生增大stronger特征權重,抑制weaker特征權重的效應。
11 Visualizing and Understanding Convolutional Networks
卷積網絡特征可視化方面的工作,非常有意義的工作,通過Deconvnet的方式來可視化卷積網絡層的特征,借助于這些特征可以幫助我們調整模型。
12 Stochastic Pooling for Regularization of Deep Convolutional Neural Networks
提出隨機pooling技術,不同于max pooling和average pooling,pooling的形式是隨機化選擇的,
文章觀點認為隨機pooling技術類似于dropout一樣做了正則化作用,等價于輸入圖像通過加噪聲形成很多不同復制訓練樣本通過max pooling層,有效地防止過擬合
13 Adaptive Deconvolutional Networks for Mid and High Level Feature Learning
中層、高層特征無監督的學習方法,通過Deconvolution方式進行重構學習出圖像特征。
14 Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis
實踐性的卷積網絡方面工作,文中提到如何應對訓練數據較少情況的方法可以參考下。
15 Multi-column Deep Neural Networks for Image Classification
聯合多個深度網絡模型做平均化處理。
16 Differentiable Pooling for Hierarchical Feature Learning
一種基于高斯方法的Differentiable Pooling提出,閱讀這篇文章先要閱讀13文章,相比max pooling、average pooling在運用
Deconvolution方式進行重構會有一些優勢。
17 Notes on Convolutional Neural Networks
較為詳細的卷積神經網絡,包括梯度的計算等等。
18 Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition
非監督學習的算法PSD,在Sparse Coding框架的基礎上,加了通過非線性變換后的基接近Sparse Coding的稀疏基的限制。
優化目標函數的時候會先固定住一些參數,思想有點類似于坐標梯度下降算法。
19 Deep Neural Networks for Object Detection
google用基于DNN(實際是CNN)regression做Object Detection,先析出mask,然后再精確定位。
20 Multi-GPU Training of ConvNets
多GPU并行訓練卷積網絡的一些工程技巧
21 Flexible, High Performance Convolutional Neural Networks for Image Classification
CNN采用GPU訓練的實戰性文章,算是早期文章。
22 Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks
google街景數字圖片識別,用CNN析出特征后轉化為有序數字序列識別問題,傳統的OCR數字識別一般是要做分割,
而這里作為一個整體序列進行識別,文中還報道了提出模型在多種數據集下的識別率。訓練的框架也是采用google的DistBelief框架。
四 其他
1 An Introduction to Deep Learning
Deep Learning綜述性的短文,比較簡短,文中只是簡單地提到了一些常用Deep Learning模型
2 The Difficulty of Training Deep Architectures and the Effect of Unsupervised Pre-Training
文中主要討論了深度結構訓練的難點,從實驗數據的角度分析了預訓練的優勢,文中有一個有趣的觀點,討論預訓練的行為
類似于正則化權重矩陣。
3 Why Does Unsupervised Pre-training Help Deep Learning
文章討論了無監督學習會幫助Deep Learning的幾個方面,提出了Pre-training as a Regularizer的觀點,從實驗數據中分析,
并沒有理論的基礎,這也是Deep Learning的現階段最被人詬病的,沒有完整的理論體系支撐。
4 Learning Deep Architectures for AI
Yoshua Bengio在Deep Learning的綜述文章,想要大概了解Deep Learning領域可以先看看這篇,可以掃著看。
5 Representation Learning A Review and New Perspectives
Yoshua Bengio的在Representation Learning的綜述性文章。
6 On Optimization Methods for Deep Learning
文中討論了Deep Learning的幾種優化方式:SGD、L-BFGS、CG。實驗對別了幾種優化方式的優缺點。
7 Using Very Deep Autoencoders for Content-Based Image Retrieval
用Autoencoder的中間節點表征圖像全局特征,用于圖像搜索。
8 Deep Learning For Signal And Information Processing
2013年龍星機器學習鄧力的講課資料,主要側重于deep learning在語音方面,比較詳細。
9 On the Importance of Initialization and Momentum in Deep Learning
介紹初始化和Momentum技術在deep learning方面的重要性,更多的是在實驗分析上
10 Dropout Training as Adaptive Regularization
文章從原理上分析dropout技術,等價于自適應的正則化技術
11 Deep learning via Hessian-free optimization
目前大部分的Deep learning優化都是基于隨機梯度優化算法,本文提出了一種基于Hessian-free的二階優化算法。
12 Deep Stacking Networks For Information Retrival
DSN網絡用在信息檢索方面的工作
13 Deep Convex Net: A Scalable Architecture for Speech Pattern Classification
微軟方面為了克服DNN并行化訓練困難所設計出來的模型,在計算的scalability有很大優勢
14 Parallel Training of Deep Stacking Networks
DSN訓練并行化
15 Scalable CALABLE Stacking and Learning for Building Deep Architectures
DSN方面的關聯文章,相關的幾篇都可以聯合起來一起看