1 手寫字體MNIST數(shù)據(jù)集介紹
當(dāng)我們開始學(xué)習(xí)編程的時(shí)候,第一件事往往是學(xué)習(xí)打印“Hello World”,機(jī)器學(xué)習(xí)(深度學(xué)習(xí))入門的MNIST就相當(dāng)于編程入門的“Hello World”。
MNIST是一個(gè)入門級(jí)的計(jì)算機(jī)視覺數(shù)據(jù)集,總共有70000張圖片,其中60000張圖片作為訓(xùn)練數(shù)據(jù),10000張圖片作為測(cè)試數(shù)據(jù)。(實(shí)際上,TensorFlow將60000張圖片的訓(xùn)練數(shù)據(jù)拆分成了兩部分,一部分是55000張的圖片訓(xùn)練數(shù)據(jù),另一部分是5000張的圖片驗(yàn)證數(shù)據(jù)。)MNIST數(shù)據(jù)集官方網(wǎng)址為:http://yann.lecun.com/exdb/mnist/ ,在MNIST數(shù)據(jù)集中的每一張圖片都代表了0-9中的一個(gè)數(shù)字,每張圖片的像素都是28x28,且數(shù)字都會(huì)出現(xiàn)在圖片的正中間。
我們把這個(gè)數(shù)組展開成一個(gè)一維數(shù)組,長(zhǎng)度是28x28=784,以方便TensorFlow將圖片的像素矩陣提供給神經(jīng)網(wǎng)絡(luò)的輸入層。這樣的話,訓(xùn)練集中的圖片就相當(dāng)于一個(gè)[60000,784]的張量,第一個(gè)維度數(shù)字用來(lái)索引圖片,第二個(gè)維度數(shù)字用來(lái)索引每張圖片中的像素點(diǎn)。在此張量里的每一個(gè)元素,都表示某張圖片里的某個(gè)像素的強(qiáng)度值,值介于0和1之間。
相對(duì)應(yīng)的MNIST數(shù)據(jù)集的標(biāo)簽是介于0到9的數(shù)字,用來(lái)描述給定圖片里表示的數(shù)字。使用one-hot編碼,一個(gè)one-hot向量除了某一位的數(shù)字是1以外其余各維度數(shù)字都是0。數(shù)字n將表示成一個(gè)只有在第n維度(從0開始)數(shù)字為1的10維向量。比如,標(biāo)簽3將表示成[0,0,0,1,0,0,0,0,0,0,0]。因此,訓(xùn)練集中的標(biāo)簽是一個(gè)[60000,10] 的張量。
2 Softmax回歸
MNIST的每一張圖片都表示一個(gè)數(shù)字,我們希望得到給定圖片代表每個(gè)數(shù)字的概率。比如,一張包含9的圖片,模型可能預(yù)測(cè)為數(shù)字9的概率是80%,預(yù)測(cè)為數(shù)字8的概率是10%(因?yàn)?和9都有上半部分的小圓),然后給予它代表其他數(shù)字的概率更小的值。
對(duì)于二分類問(wèn)題,可以使用Logistic回歸模型,多分類問(wèn)題可以使用Softmax回歸。Softmax回歸模型是Logistic回歸模型在多分類問(wèn)題上的推廣,在多分類問(wèn)題中,類標(biāo)簽 y 可以取兩個(gè)以上的值,Softmax模型可以求出不同標(biāo)簽值對(duì)應(yīng)的分配概率。對(duì)于MNIST手寫數(shù)字分類問(wèn)題,其目的是辨識(shí)10個(gè)不同的單個(gè)數(shù)字,所以可以使用Softmax回歸模型。
為了得到一張給定圖片屬于某個(gè)特定數(shù)字類的證據(jù)(evidence),我們對(duì)圖片像素值進(jìn)行加權(quán)求和。如果這個(gè)像素具有很強(qiáng)的證據(jù)說(shuō)明這張圖片不屬于該類,那么相應(yīng)的權(quán)值為負(fù)數(shù),相反如果這個(gè)像素?fù)碛杏欣淖C據(jù)支持這張圖片屬于這個(gè)類,那么權(quán)值是正數(shù)。
下面的圖片顯示了一個(gè)模型學(xué)習(xí)到的圖片上每個(gè)像素對(duì)于特定數(shù)字類的權(quán)值。紅色代表負(fù)數(shù)權(quán)值,藍(lán)色代表正數(shù)權(quán)值。
我們也需要加入一個(gè)額外的偏置量(bias),因?yàn)檩斎胪鶗?huì)帶有一些無(wú)關(guān)的干擾量。
相關(guān)的計(jì)算公式為:
這里的softmax可看成是一個(gè)激勵(lì)(activation)函數(shù),把我們定義的線性函數(shù)的輸出轉(zhuǎn)換成我們想要的樣式,也就是關(guān)于10個(gè)數(shù)字類的概率分布。因此,給定一張圖片,它對(duì)于每一個(gè)數(shù)字的吻合度可以被softmax函數(shù)轉(zhuǎn)換成為一個(gè)概率值。
假設(shè)預(yù)測(cè)模型的結(jié)果總共有A、B、C三類,一個(gè)樣本經(jīng)過(guò)權(quán)重和偏差的作用之后,得到的結(jié)果為[-1,2,3],那么對(duì)應(yīng)的softmax值為[exp(-1),exp(2),exp(3)]=[0.36788,7.38906,20.08554],總和為0.36788+7.38906+20.08554=27.84248,歸一化之后的結(jié)果為[0.36788/27.84248,7.38906/27.84248,20.08554/27.84248]=[0.013213,0.269429,0.717358],也就是該樣本屬于A、B、C類的概率分別為0.013213,0.269429,0.717358。
實(shí)際上,在計(jì)算過(guò)程中,為了防止出現(xiàn)數(shù)據(jù)溢出(+∞),在進(jìn)行softmax的時(shí)候,會(huì)在分母求和的時(shí)候加上一個(gè)很小的數(shù)字,比如10的-8次方。
3 代碼講解
關(guān)于Windows系統(tǒng)下安裝TensorFlow,參考鏈接:http://www.lxweimin.com/p/c3a4a0ff82a6。
# 1 導(dǎo)入相關(guān)包
from time import time # 計(jì)算訓(xùn)練模型總時(shí)間
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
# 2 加載mnist數(shù)據(jù)
start_time = time()
mnist = input_data.read_data_sets('MNIST_data/', one_hot=True)
# 3 定義模型參數(shù)(權(quán)重、偏差)及占位符
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# 4 計(jì)算y的預(yù)測(cè)值,定義y標(biāo)簽值的占位符
y_predict = tf.nn.softmax(tf.matmul(x, W) + b)
y_label = tf.placeholder(tf.float32, [None, 10])
# 5 定義交叉熵?fù)p失,選擇梯度下降優(yōu)化方法
cross_entropy = tf.reduce_mean(-tf.reduce_sum( y_label * tf.log(y_predict), axis=[1]))
train_step = tf.train.GradientDescentOptimizer(learning_rate=0.5).minimize(cross_entropy)
# 6 創(chuàng)建會(huì)話,初始化所有變量
init = tf.global_variables_initializer()
sess = tf.InteractiveSession()
sess.run(init)
# 7 用批數(shù)據(jù)循環(huán)訓(xùn)練模型1000次,評(píng)估模型
for _ in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_label: batch_ys})
correct_predict = tf.equal(tf.argmax(y_predict,1), tf.argmax(y_label, 1))
accuracy = tf.reduce_mean(tf.cast(correct_predict, dtype='float'))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_label: mnist.test.labels}))
print('模型訓(xùn)練總耗時(shí):%.4f' %(time() - start_time)+'秒')
sess.close()
第6步和第7步也可以合并為:
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
for _ in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_label: batch_ys})
correct_predict = tf.equal(tf.argmax(y_predict,1), tf.argmax(y_label, 1))
accuracy = tf.reduce_mean(tf.cast(correct_predict, dtype='float'))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_label: mnist.test.labels}))
print('模型訓(xùn)練總耗時(shí):%.4f' %(time() - start_time)+'秒')