轉載請注明來源
該文章翻譯自:
CNNdroid: GPU-Accelerated Execution of Trained Deep Convolutional Neural Networks on Android
摘要
智能設備和可穿戴設備都將受益于深度學習算法(比如CNN)的準確性和可擴展性。然而,性能和能耗等現實的問題使得在移動端設備上這類密集計算的算法變得非常受限。我們開發了CNNdroid這個GPU加速庫,可以在Android設備上實現CNN網絡的訓練。通過實驗,CNNdroid在移動設備上實現了60倍速的提升,以及130倍速的節能。CNNdroid這個庫已經開源在Github上,可以從Github項目頁面
關鍵詞
Deep Learning, Deep Convolutional Neural Network (CNN), Mobile GPU, Performance Optimization, Low Energy Con- sumption, Open Source Software, Android, RenderScript
1.介紹
智能手機、可穿戴設備、微型機器人、物聯網等越來越多的移動平臺都在深度學習的領域找到了相應的應用方向(如圖1)。例如在移動設備上,語音識別和圖像識別等許多App都受益于機器學習的本地算法。如果允許將模型等數據直接放在客戶端,就可以避免和服務器的上下行數據交互而導致的網絡延遲等體驗的問題。CNN卷積網絡在預測的精確性和可擴展性上都取得了很先進的成果,然而像此類密集計算型的網絡結構必須依賴硬件級加速才可能在移動設備上得到廣泛的應用。
許多基于深度學習的硬件加速平臺都有相應的解決方案了,IBM也正在開發一種用于神經網絡的CMOS的芯片,用于在移動設備和物聯網設備上。與此同時,類似的解決方案依然處于早期的研發階段,也并沒有商用到現有的移動設備上。
和基于硬件的加速平臺不同的是,GPU已經大規模的商用到現在的移動設備上了,同時在軟件層面的編碼支持也做的非常完善了。利用GPU現成的并行計算能力去實現CNN神經網絡在移動端設備上的計算加速是完全可行的。
現存的GPU加速方案的深度學習CNN的開源庫有很多種,都是基于服務器和桌面平臺的[見附錄的6, 7, 8, 9, 10, 11, 12].然而,由于平臺架構的差異,簡單的把這些開源庫移植到移動端上,在某些Case下效果是欠佳的(見2.2節)。目前在移動端上,據我們所知,并沒有相應的帶有GPU加速的深度學習計算框架的開源庫,這些庫 [見附錄的13, 14, 15, 16]僅僅能夠利用移動設備的CPU多核計算能力,而這樣局限性很大。
如今,我們提供一個支持GPU加速的開源庫,稱為“CNNdroid”,可以在Android平臺用來通過訓練數據集的方式設計和優化CNN的網絡。以下是CNNdroid的幾個主要亮點。
- 支持幾乎所有的CNN的Layer Type(Section 3.1)
- 兼容Caffe[6]、Torch[7]、Theano[8]這些開源框架在PC平臺、服務器平臺上已經訓練好的模型(Section 3.2)
- 現有的Android App可以快速的加入這個庫,無需額外的軟件依賴(Section 3.3)
- 開發者可以指定最大的內存消耗(Section 3.4)
- CNN Layer的GPU和CPU加速均支持(Section 3.5)
- 自動的硬件條件檢測(Section 3.6)
- 在移動設備上超過60倍的性能提升以及減少130倍的能耗(Section 4)
背景知識以及相關介紹
2.1移動設備的GPU和桌面平臺的GPU的區別
現代圖形處理單元(GPU)不僅僅能做圖形計算,也能夠被用來做可編程的通用計算。臺式機的GPU長期以來都是可編程的,近期移動設備上的GPU也開放了通用計算的硬件級支持。但受限于GPU的尺寸和功耗,移動GPU和桌面GPU設備還是有很大的差異。
現代移動GPU的Shader Cores(SC)通常成為若干可編程并行計算單元。每個Shader Core都是由若干個ALU并行組成。比如,三星的Exynos 5433芯片是由ARM A53/A57 CPU和Mali T-760 GPU組成(見圖2)。T-760 GPU中的每一個SC都具有兩個VLIW格式的128位ALU。每個128位ALU能夠執行SIMD操作,即并行的兩個64位,四個32位或八個16位操作[17]。與桌面平臺GPU相比,移動設備的并行ALU架構在并行線程的有效執行中更多地依賴于軟件和編譯器,而不是動態硬件調度器。
更重要的是,在桌面GPU中廣泛應用的線程塊快速內存共享機制在移動GPU中并不可用,同時許多基于CUDA的桌面平臺的Library在移動GPU上也不可以用。
更不幸的是,在軟件層面這兩端的差異也是巨大的。比如Android提供的RenderScript[18]是一個用于并行計算的庫,但是并發線程的機制并不可用。另外,并行線程和并行線程使用的內存中的數據部分必須是一對一的關系。
2.2 CNNdroid 和桌面平臺相關庫的比較
在服務器和桌面端,已經有很多現成的基于GPU加速的并行計算框架可用于CNN網絡,諸如Caffe[6],Torch [7], Theano [8],Tensor- Flow [9], cuDNN [10], cuda-convnet [11],,and Velesnet [12],然而由于兩端的硬件和軟件的差異,這種加速和并行計算的方法并不能直接的被移植到移動設備上。比如說,Caffe[6]中的卷積操作被展開并轉換為矩陣乘法,這些操作對內存的要求比較高,這在移動設備上是不現實的。再舉一個例子,Theano [8]中的并行算法雖然與CNNdroid類似,但是在移動GPU中沒有使用SIMD單元(詳見Section 3.5)。
更不幸的是,桌面的計算庫利用桌面GPU和CUDA框架提供的線程管理功能,如快速共享內存和線程同步,這些在移動GPU和Android提供的RenderScript中均不可用。
2.3 CNNdroid和移動平臺相關庫的比較
在移動設備上,就目前所知的支持CNN深度學習的框架只有[13,14,15,16]。包括了Caffe Mobile[13]和Torch Mobile[14],均受限于多核的CPU計算能力,而只有CNNdroid支持CPU和GPU(詳見Section 3.5)。
另外,CNNdroid還兼容Caffe[6]、Torch[7]、和Theano[8]訓練出來的CNN模型,方便快速將模型部署到移動設備上(詳見Section 3.2)。
開發環境上,不需要安裝Android NDK,只需要安裝Android SDK即可。
3.CNNdroid庫
3.1 CNNLayer Types
CNNDroid庫支持幾乎大部分的CNN Layers,比如說卷積層,max/mean池化層,全鏈接層,ReLu(Rectified Linear Units)激活函數,LRN(Local Response Normalization)層,Softmax等。相關的描述和每一層的參數設置在開源庫中的文檔里有說明[1]。由于庫的開源特性,其它的層也可以隨時加入。
3.2 模型的準備
模型轉換腳本:圖3展示了如何將訓練好的模型部署到移動端
CNNdroid庫提供了一系列的腳本,可以把不同框架訓練的庫轉成CNNdroid格式的模型,目前已經支持Caffe[6],Torch[7],Theano[8],因此可以使用以上框架訓練模型然后轉為CNNdroid庫支持的格式,最終運行在Android移動設備上。當然你也可以模仿這些腳本寫出其它平臺的轉換腳本,CNNdroid使用MessagePack序列化和存儲模型中不同層的參數。具體的細節可以參考開源庫的說明文檔[1]。
NetFile:開發者需要準備一個名為NetFile.txt的文本文件,類似于Caffe的.prototxt配置文件,NetFile.txt文件用于配置已經訓練好的模型的層次,比如說,CNN Layer的各層的順序,卷積層中的Padding和Stride的值。圖4是一個該文件的樣例,更詳細的細節可以參考說明文檔[1]。
NetFile中也可以配置如下參數,allocated_ram:用于指定本框架可以分配的最大內存上線(見Section 3.4),execution_mode:用于指定是采用并行模式還是串行模式(見Section 3.5),auto_tuning:用于指定auto-tuning是否默認開啟(見Section 3.6)。
3.3模型的執行
一旦將訓練好的模型和相應的NetFile文件上傳到了移動設備后(圖3),這個模型可以被所在的Android App輕易的調用(圖5),具體的有如下幾個步驟:
第一步,在自己的App中依賴CNNdroid庫,CNNdroid庫只依賴Android SDK,而不需要安裝Android NDK的,也就是說,不依賴其他的第三方庫。
第二步,構造RenderScript和CNNdroid對象(圖5所示的Steps 2和3)。CNNdroid的構造函數需要提供NetFile文件作為輸入,并會自動的創建相應的網絡層次。
最后,compute函數負責利用訓練好的模型,計算傳入的單個圖像或者批量圖像并返回結果。
3.4 內存分配
我們將已經訓練好的CNN模型,上傳到手機的SD卡上,這些模型中包含了矩陣式的各層參數。在執行每一層前,在compute函數里(圖5,step5),相應層的矩陣參數被自動的從SD卡上加載內存里,這會導致大量的內存開銷。
為了減少這種內存開銷,CNNdroid采用的方法是:保持一部分的層長期駐留在內存中,而其他的層每次都會被創建和銷毀。該選擇過程開發者無需關心,在CNNdroid構造函數中自動完成(圖5,step3)。選擇器從最大的層開始,讓盡量多的層進入選擇器,直到達到NetFile中allocated_ram參數指定的內存上限。
注意:allocated_ram參數不宜設置的過大,比如說,Android 5.0在系統層就會限制每個App的內存上限為512MB。
3.5 加速的方法
在CNNdroid中,不同的層有不同的加速方法。比如數據并行的卷積層和需要大量密集計算的全連接層,就需要用到RenderScript的框架來實現移動端的GPU加速。
這兩層的大部分計算可以表示為點積。具體地來說,在卷積層中kernels與input frames進行卷積;而在全連接層中,計算可以表示為矩陣和向量的乘法。在移動設備上使用GPU的SIMD單元可以高效的進行點積的計算。因此,我們分離了大量的向量,并且使用基于RenderScript框架的預定義點積函數來完成運算。也就是說,我們在軟件層面體現了這種計算的并行性,而不像是基于CUDA的桌面計算框架庫那樣把這類問題交給GPU的硬件調度程序。
相對于卷積層和全連接層,其它層的密集型計算相對較少。因此,它們通過多線程并發在多核CPU上進行加速。比較特殊的是,由于ReLU層通常出現在卷積層或全連接層之后,所以把它嵌入到之前的層中,可以在將多個圖像傳輸時提高CNNdroid的性能。
除了上述并行計算的實現之外,CNNdroid還包括所有層的單線程順序執行的實現??梢酝ㄟ^配置NetFile中的execution_mode參數,指定執行將是順序模式還是并行模式(圖4)。
3.6 自動調整
為了能夠在移動設備上達到最好的性能,CNNdroid框架的GPU并行加速算法支持在每個GPU線程上執行自動配額,比如說調配該GPU線程的工作量以及SIMD ALUs的工作量。配額的參數調整決定了并行的粒度。
如果在NetFile(圖4)中打開了auto-tuning,那么auto-tuner就會在Android App首次啟動時執行。auto-tuner會記錄該移動設備上多個預定義的情景下CNN模型的運行時長,用于調整最佳的配額參數。因此,首次啟動App需要花費較長的時間。為了公平性以及更清晰的表述我們的實驗,在第4節中,我們將關掉auto-tuning。
4.實驗評估
我們在三星的Galaxy Note 4和HTC One M9進行了實驗。采用的模型是幾個標準的CNN網絡:LeNet network for MNIST dataset [21],Alex Krizhevsky’s network for CIFAR-10 (Alex’s CIFAR-10) [22], Alex Krizhevsky’s network for ImageNet 2012 dataset (AlexNet) [20].
基準CNN的層設置如圖6所示。當移植到CNNdroid格式時,我們還統計了文件大小和內存占用。具體的結果如圖7所示。
我們的實驗環境是將手機充滿電,同時進入飛行模式并且將屏幕亮度調為最低。以下的實驗中,并沒有每次都從SD卡加載配置和模型,因為在第一次運行時候就加載到內存中了。每次我們都會將16張圖片作為輸入傳給CNNdroid App,接下來測量輸出的準確性以及運行耗時和耗電量。
4.1準確度
為了測量CNNdroid的準確度,我們同時使用了CNNdroid和Caffe作對比實驗。結果顯示兩者的結果方差是10的-12次方,也就意味著CNNdroid的準確度和Caffe幾乎一樣。
4.2性能
圖8顯示了僅使用CPU的線性運行CNN的運行耗時以及使用GPU加速的運行耗時和加快的倍速。報告顯示的值是十次運行結果的平均值。
4.3能耗
我們使用“Qualcomm Trepn Profiler”應用程序[25]測量HTC One M9手機基于AlexNet網絡結構的每一幅圖像的功耗和能耗。
GPU加速執行時,消耗約523 mW功率和0.4 J能量,而僅僅使用CPU執行時消耗2338 mW功率和51.6 J能量。 因此,GPU加速執行消耗的電池消耗減少51.6÷0.4 = 129X。值得注意的是,我們的測量中有大約20%的波動。
5.結論
我們介紹了CNNdroid:一個在Android平臺上基于GPU加速CNN網絡的開源庫。經過實驗評估證明該庫可以提升60倍速,以及130倍的能耗節省。相關的代碼以及說明文檔都已經開源并發布在Github上[1]。
6. 相關引用
[1] CNNdroid open source GPU-accelerated library. https://github.com/ENCP/CNNdroid.
[2] Inchul Song, Hyun-Jun Kim, and Paul Barom Jeon. Deep learning for real-time robust facial expression recognition on a smartphone. In IEEE International Conference on Consumer Electronics, pages 564–567, Jan 2014.
[3] Yu-Hsin Chen, Tushar Krishna, Joel Emer, and Vivienne Sze. 14.5 eyeriss: an energy-e cient reconfigurable accelerator for deep convolutional neural networks. In IEEE International Solid-State Circuits Conference, pages 262–263, Jan 2016.
[4] Mohammad Motamedi, Philipp Gysel, Venkatesh Akella, and Soheil Ghiasi. Design space exploration of fpga-based deep convolutional neural networks. In Asia and South Pacific Design Automation Conference, pages 575–580, Jan 2016.
[5] Paul A Merolla, John V Arthur, Rodrigo Alvarez-Icaza, Andrew S Cassidy, Jun Sawada, Filipp Akopyan, Bryan L Jackson, Nabil Imam, Chen Guo, Yutaka Nakamura, Bernard Brezzo, Ivan Vo, Steven K Esser, Rathinakumar Appuswamy, Brian Taba, Arnon Amir, Myron D Flickner, William P Risk, Rajit Manohar, and Dharmendra S Modha. A million spiking-neuron integrated circuit with a scalable communication network and interface. Science, 345(6197):668–673, 2014.
[6] Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
[7] Torch. http://torch.ch/. Accessed 2016-08-01.
[8] James Bergstra, Olivier Breuleux, Fr ?ed ?eric Bastien,
Pascal Lamblin, Razvan Pascanu, Guillaume Desjardins, Joseph Turian, David Warde-Farley, and Yoshua Bengio. Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scientific Computing Conference, 2010.
[9] TensorFlow. https://www.tensorflow.org. Accessed 2016-08-01.
[10] Nvidia cuDNN. https://developer.nvidia.com/cudnn. Accessed 2016-08-01.
[11] cuda-convent. https://code.google.com/p/cuda-convnet/. Accessed 2016-08-01.
*[12] Velesnet. https://velesnet.ml/. Accessed 2016-08-01. *
[13] Caffe Android Library.
https://github.com/sh1r0/caffe-android-lib. Accessed 2016-08-01.
[14] Torch-7 for Android.
https://github.com/soumith/torch-android. Accessed 2016-08-01.
*[15] A convolutional neural network for the Android
phone. https://github.com/radiodee1/
awesome-cnn-android-python. Accessed 2016-08-01. *
[16] Facial attractiveness prediction on Android. https://github.com/eldog/fmobile. Accessed 2016-08-01.
*[17] ARM. Mali-T600 Series GPU OpenCL, Version 1.1.0,
Developer Guide. Accessed 2016-08-01. *
*[18] Android RenderScript Developers Guide.
http://developer.android.com/guide/topics/
renderscript/compute.html. Accessed 2016-08-01. *
*[19] Messagepack. http://msgpack.org/index.html. *
[20] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E.Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, 2012.
[21] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, Nov 1998.
[22] Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, University of Toronto, 2009.
[23] Trepn power profiler. https://developer.qualcomm.com/software/trepn-power-profiler.