一文學會用 Tensorflow 搭建神經網絡


cs224d-Day 6: 快速入門 Tensorflow

本文是學習這個視頻課程系列的筆記,課程鏈接是 youtube 上的,
講的很好,淺顯易懂,入門首選, 而且在github有代碼,
想看視頻的也可以去他的優酷里的頻道找。

Tensorflow 官網


神經網絡是一種數學模型,是存在于計算機的神經系統,由大量的神經元相連接并進行計算,在外界信息的基礎上,改變內部的結構,常用來對輸入和輸出間復雜的關系進行建模。

神經網絡由大量的節點和之間的聯系構成,負責傳遞信息和加工信息,神經元也可以通過訓練而被強化。

這個圖就是一個神經網絡系統,它由很多層構成。輸入層就是負責接收信息,比如說一只貓的圖片。輸出層就是計算機對這個輸入信息的認知,它是不是貓。隱藏層就是對輸入信息的加工處理。

神經網絡是如何被訓練的,首先它需要很多數據。比如他要判斷一張圖片是不是貓。就要輸入上千萬張的帶有標簽的貓貓狗狗的圖片,然后再訓練上千萬次。

神經網絡訓練的結果有對的也有錯的,如果是錯誤的結果,將被當做非常寶貴的經驗,那么是如何從經驗中學習的呢?就是對比正確答案和錯誤答案之間的區別,然后把這個區別反向的傳遞回去,對每個相應的神經元進行一點點的改變。那么下一次在訓練的時候就可以用已經改進一點點的神經元去得到稍微準確一點的結果。

神經網絡是如何訓練的呢?每個神經元都有屬于它的激活函數,用這些函數給計算機一個刺激行為。

在第一次給計算機看貓的圖片的時候,只有部分的神經元被激活,被激活的神經元所傳遞的信息是對輸出結果最有價值的信息。如果輸出的結果被判定為是狗,也就是說是錯誤的了,那么就會修改神經元,一些容易被激活的神經元會變得遲鈍,另外一些神經元會變得敏感。這樣一次次的訓練下去,所有神經元的參數都在被改變,它們變得對真正重要的信息更為敏感。

**Tensorflow **是谷歌開發的深度學習系統,用它可以很快速地入門神經網絡。

它可以做分類,也可以做擬合問題,就是要把這個模式給模擬出來。

這是一個基本的神經網絡的結構,有輸入層,隱藏層,和輸出層。
每一層點開都有它相應的內容,函數和功能。

那我們要做的就是要建立一個這樣的結構,然后把數據喂進去。
把數據放進去后它就可以自己運行,TensorFlow 翻譯過來就是向量在里面飛。

這個動圖的解釋就是,在輸入層輸入數據,然后數據飛到隱藏層飛到輸出層,用梯度下降處理,梯度下降會對幾個參數進行更新和完善,更新后的參數再次跑到隱藏層去學習,這樣一直循環直到結果收斂。

tensors_flowing.gif

今天一口氣把整個系列都學完了,先來一段完整的代碼,然后解釋重要的知識點!


1. 搭建神經網絡基本流程

定義添加神經層的函數

1.訓練的數據
2.定義節點準備接收數據
3.定義神經層:隱藏層和預測層
4.定義 loss 表達式
5.選擇 optimizer 使 loss 達到最小

然后對所有變量進行初始化,通過 sess.run optimizer,迭代 1000 次進行學習:

import tensorflow as tf
import numpy as np

# 添加層
def add_layer(inputs, in_size, out_size, activation_function=None):
   # add one more layer and return the output of this layer
   Weights = tf.Variable(tf.random_normal([in_size, out_size]))
   biases = tf.Variable(tf.zeros([1, out_size]) + 0.1)
   Wx_plus_b = tf.matmul(inputs, Weights) + biases
   if activation_function is None:
       outputs = Wx_plus_b
   else:
       outputs = activation_function(Wx_plus_b)
   return outputs

# 1.訓練的數據
# Make up some real data 
x_data = np.linspace(-1,1,300)[:, np.newaxis]
noise = np.random.normal(0, 0.05, x_data.shape)
y_data = np.square(x_data) - 0.5 + noise

# 2.定義節點準備接收數據
# define placeholder for inputs to network  
xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])

# 3.定義神經層:隱藏層和預測層
# add hidden layer 輸入值是 xs,在隱藏層有 10 個神經元   
l1 = add_layer(xs, 1, 10, activation_function=tf.nn.relu)
# add output layer 輸入值是隱藏層 l1,在預測層輸出 1 個結果
prediction = add_layer(l1, 10, 1, activation_function=None)

# 4.定義 loss 表達式
# the error between prediciton and real data    
loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction),
                    reduction_indices=[1]))

# 5.選擇 optimizer 使 loss 達到最小                   
# 這一行定義了用什么方式去減少 loss,學習率是 0.1       
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)


# important step 對所有變量進行初始化
init = tf.initialize_all_variables()
sess = tf.Session()
# 上面定義的都沒有運算,直到 sess.run 才會開始運算
sess.run(init)

# 迭代 1000 次學習,sess.run optimizer
for i in range(1000):
   # training train_step 和 loss 都是由 placeholder 定義的運算,所以這里要用 feed 傳入參數
   sess.run(train_step, feed_dict={xs: x_data, ys: y_data})
   if i % 50 == 0:
       # to see the step improvement
       print(sess.run(loss, feed_dict={xs: x_data, ys: y_data}))


2. 主要步驟的解釋:

  • 之前寫過一篇文章 TensorFlow 入門 講了 tensorflow 的安裝,這里使用時直接導入:
import tensorflow as tf
import numpy as np
  • 導入或者隨機定義訓練的數據 x 和 y:
x_data = np.random.rand(100).astype(np.float32)
y_data = x_data*0.1 + 0.3
  • 先定義出參數 Weights,biases,擬合公式 y,誤差公式 loss:
Weights = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
biases = tf.Variable(tf.zeros([1]))
y = Weights*x_data + biases
loss = tf.reduce_mean(tf.square(y-y_data))
  • 選擇 Gradient Descent 這個最基本的 Optimizer:
optimizer = tf.train.GradientDescentOptimizer(0.5)
  • 神經網絡的 key idea,就是讓 loss 達到最小:
train = optimizer.minimize(loss)
  • 前面是定義,在運行模型前先要初始化所有變量:
init = tf.initialize_all_variables()
  • 接下來把結構激活,sesseion像一個指針指向要處理的地方:
sess = tf.Session()
  • init 就被激活了,不要忘記激活:
sess.run(init) 
  • 訓練201步:
for step in range(201):
  • 要訓練 train,也就是 optimizer:
sess.run(train)
  • 每 20 步打印一下結果,sess.run 指向 Weights,biases 并被輸出:
if step % 20 == 0:
print(step, sess.run(Weights), sess.run(biases))

所以關鍵的就是 y,loss,optimizer 是如何定義的。


3. TensorFlow 基本概念及代碼:

TensorFlow 入門 也提到了幾個基本概念,這里是幾個常見的用法。

  • Session

矩陣乘法:tf.matmul

product = tf.matmul(matrix1, matrix2) # matrix multiply np.dot(m1, m2)

定義 Session,它是個對象,注意大寫:

sess = tf.Session()

result 要去 sess.run 那里取結果:

result = sess.run(product)
  • Variable

用 tf.Variable 定義變量,與python不同的是,必須先定義它是一個變量,它才是一個變量,初始值為0,還可以給它一個名字 counter:

state = tf.Variable(0, name='counter')

將 new_value 加載到 state 上,counter就被更新:

update = tf.assign(state, new_value)

如果有變量就一定要做初始化:

init = tf.initialize_all_variables() # must have if define variable
  • placeholder:

要給節點輸入數據時用 placeholder,在 TensorFlow 中用placeholder 來描述等待輸入的節點,只需要指定類型即可,然后在執行節點的時候用一個字典來“喂”這些節點。相當于先把變量 hold 住,然后每次從外部傳入data,注意 placeholder 和 feed_dict 是綁定用的。

這里簡單提一下 feed 機制, 給 feed 提供數據,作為 run()
調用的參數, feed 只在調用它的方法內有效, 方法結束, feed 就會消失。


import tensorflow as tf

input1 = tf.placeholder(tf.float32)
input2 = tf.placeholder(tf.float32)
ouput = tf.mul(input1, input2)

with tf.Session() as sess:
 print(sess.run(ouput, feed_dict={input1: [7.], input2: [2.]}))

4. 神經網絡基本概念

  • 激勵函數:

例如一個神經元對貓的眼睛敏感,那當它看到貓的眼睛的時候,就被激勵了,相應的參數就會被調優,它的貢獻就會越大。

下面是幾種常見的激活函數:
x軸表示傳遞過來的值,y軸表示它傳遞出去的值:

激勵函數在預測層,判斷哪些值要被送到預測結果那里:

TensorFlow 常用的 activation function

  • 添加神經層:

輸入參數有 inputs, in_size, out_size, 和 activation_function

import tensorflow as tf

def add_layer(inputs, in_size, out_size,  activation_function=None):

  Weights = tf.Variable(tf.random_normal([in_size, out_size]))
  biases = tf.Variable(tf.zeros([1, out_size]) + 0.1)
  Wx_plus_b = tf.matmul(inputs, Weights) + biases

  if activation_function is None:
    outputs = Wx_plus_b
  else:
    outputs = activation_function(Wx_plus_b)

return outputs
  • 分類問題的 loss 函數 cross_entropy :
# the error between prediction and real data
# loss 函數用 cross entropy
cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys * tf.log(prediction),
                                              reduction_indices=[1]))       # loss
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
  • overfitting:

下面第三個圖就是 overfitting,就是過度準確地擬合了歷史數據,而對新數據預測時就會有很大誤差:

Tensorflow 有一個很好的工具, 叫做dropout, 只需要給予它一個不被 drop 掉的百分比,就能很好地降低 overfitting。

dropout 是指在深度學習網絡的訓練過程中,按照一定的概率將一部分神經網絡單元暫時從網絡中丟棄,相當于從原始的網絡中找到一個更瘦的網絡,這篇博客中講的非常詳細

代碼實現就是在 add layer 函數里加上 dropout, keep_prob 就是保持多少不被 drop,在迭代時在 sess.run 中被 feed:

def add_layer(inputs, in_size, out_size, layer_name, activation_function=None, ):
    # add one more layer and return the output of this layer
    Weights = tf.Variable(tf.random_normal([in_size, out_size]))
    biases = tf.Variable(tf.zeros([1, out_size]) + 0.1, )
    Wx_plus_b = tf.matmul(inputs, Weights) + biases
    
    # here to dropout
    # 在 Wx_plus_b 上drop掉一定比例
    # keep_prob 保持多少不被drop,在迭代時在 sess.run 中 feed
    Wx_plus_b = tf.nn.dropout(Wx_plus_b, keep_prob)
    
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b, )
    tf.histogram_summary(layer_name + '/outputs', outputs)  
    return outputs

5. 可視化 Tensorboard

Tensorflow 自帶 tensorboard ,可以自動顯示我們所建造的神經網絡流程圖:

就是用 with tf.name_scope 定義各個框架,注意看代碼注釋中的區別:

import tensorflow as tf


def add_layer(inputs, in_size, out_size, activation_function=None):
    # add one more layer and return the output of this layer
    # 區別:大框架,定義層 layer,里面有 小部件
    with tf.name_scope('layer'):
        # 區別:小部件
        with tf.name_scope('weights'):
            Weights = tf.Variable(tf.random_normal([in_size, out_size]), name='W')
        with tf.name_scope('biases'):
            biases = tf.Variable(tf.zeros([1, out_size]) + 0.1, name='b')
        with tf.name_scope('Wx_plus_b'):
            Wx_plus_b = tf.add(tf.matmul(inputs, Weights), biases)
        if activation_function is None:
            outputs = Wx_plus_b
        else:
            outputs = activation_function(Wx_plus_b, )
        return outputs


# define placeholder for inputs to network
# 區別:大框架,里面有 inputs x,y
with tf.name_scope('inputs'):
    xs = tf.placeholder(tf.float32, [None, 1], name='x_input')
    ys = tf.placeholder(tf.float32, [None, 1], name='y_input')

# add hidden layer
l1 = add_layer(xs, 1, 10, activation_function=tf.nn.relu)
# add output layer
prediction = add_layer(l1, 10, 1, activation_function=None)

# the error between prediciton and real data
# 區別:定義框架 loss
with tf.name_scope('loss'):
    loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction),
                                        reduction_indices=[1]))

# 區別:定義框架 train
with tf.name_scope('train'):
    train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)

sess = tf.Session()

# 區別:sess.graph 把所有框架加載到一個文件中放到文件夾"logs/"里 
# 接著打開terminal,進入你存放的文件夾地址上一層,運行命令 tensorboard --logdir='logs/'
# 會返回一個地址,然后用瀏覽器打開這個地址,在 graph 標簽欄下打開
writer = tf.train.SummaryWriter("logs/", sess.graph)
# important step
sess.run(tf.initialize_all_variables())

運行完上面代碼后,打開 terminal,進入你存放的文件夾地址上一層,運行命令 tensorboard --logdir='logs/' 后會返回一個地址,然后用瀏覽器打開這個地址,點擊 graph 標簽欄下就可以看到流程圖了:


6. 保存和加載

訓練好了一個神經網絡后,可以保存起來下次使用時再次加載:

import tensorflow as tf
import numpy as np

## Save to file
# remember to define the same dtype and shape when restore
W = tf.Variable([[1,2,3],[3,4,5]], dtype=tf.float32, name='weights')
b = tf.Variable([[1,2,3]], dtype=tf.float32, name='biases')

init= tf.initialize_all_variables()

saver = tf.train.Saver()

# 用 saver 將所有的 variable 保存到定義的路徑
with tf.Session() as sess:
   sess.run(init)
   save_path = saver.save(sess, "my_net/save_net.ckpt")
   print("Save to path: ", save_path)


################################################

# restore variables
# redefine the same shape and same type for your variables
W = tf.Variable(np.arange(6).reshape((2, 3)), dtype=tf.float32, name="weights")
b = tf.Variable(np.arange(3).reshape((1, 3)), dtype=tf.float32, name="biases")

# not need init step

saver = tf.train.Saver()
# 用 saver 從路徑中將 save_net.ckpt 保存的 W 和 b restore 進來
with tf.Session() as sess:
    saver.restore(sess, "my_net/save_net.ckpt")
    print("weights:", sess.run(W))
    print("biases:", sess.run(b))

tensorflow 現在只能保存 variables,還不能保存整個神經網絡的框架,所以再使用的時候,需要重新定義框架,然后把 variables 放進去學習。


[cs224d]

Day 1. 深度學習與自然語言處理 主要概念一覽
Day 2. TensorFlow 入門
Day 3. word2vec 模型思想和代碼實現
Day 4. 怎樣做情感分析
Day 5. CS224d-Day 5: RNN快速入門
Day 6. 一文學會用 Tensorflow 搭建神經網絡
Day 7. 用深度神經網絡處理NER命名實體識別問題
Day 8. 用 RNN 訓練語言模型生成文本
Day 9. RNN與機器翻譯
Day 10. 用 Recursive Neural Networks 得到分析樹
Day 11. RNN的高級應用


ok, 搞定快速入門,明天寫用 RNN 做命名實體識別。

我是 不會停的蝸牛 Alice
85后全職主婦
喜歡人工智能,行動派
創造力,思考力,學習力提升修煉進行中
歡迎您的喜歡,關注和評論!


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,732評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,214評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,781評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,588評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,315評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,699評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,698評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,882評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,441評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,189評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,388評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,933評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,613評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,023評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,310評論 1 293
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,112評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,334評論 2 377

推薦閱讀更多精彩內容