pytorch實現mnist手寫數字識別（二)

訓練神經網絡

在上一部分中，我們建立的神經網絡不是那么好，它對我們的手寫數字一無所知。神經網絡的非線性激活函數工作方式類似于通用函數擬合。有一些函數，可以將您的輸入映射到輸出。例如，將手寫數字圖像分類的概率。神經網絡的強大之處，在于我們可以訓練它們以逼近該F函數。只要給定任何具有足夠數據和計算時間，就可以得到F函數，但這個函數可能非常復雜。

function_approx.png

起初，網絡是無知的，它不知道將輸入映射到輸出函數。我們將通過真實數據的示例來訓練網絡，然后調整網絡參數以使其接近此F函數。

為了找到這些參數，我們需要通過網絡預測實際輸出。為此，我們計算了損失函數（也稱為成本），這是對我們的預測誤差的度量。例如，均方損失函數通常用于回歸和二元分類問題：
$\large \ell = \frac{1}{2n}\sum_i^n{\left(y_i - \hat{y}_i\right)^2}$
其中 $n$ 是訓練示例的數量， $y_i$ 是真實的標簽， $\hat {y} _i$ 是預測的標簽。

通過相對于網絡參數，使這種損失最小化，我們可以找到損失最小且網絡能夠以高精度預測正確標簽的參數。我們使用梯度下降算法尋找最小值。梯度是損失函數的斜率，指向變化最快的方向。為了在最短的時間內達到最小，我們要遵循梯度（向下）。您可以認為這就像通過沿著最陡峭的坡道下山。

gradient_descent.png

反向傳播

對于單層網絡，梯度下降很容易實現。但是，對于像我們構建的那樣的更深層次的多層神經網絡來說，它要復雜得多。如此復雜，以至于研究人員花了大約30年的時間才弄清楚如何訓練多層網絡。

訓練多層網絡是通過反向傳播來完成的，反向傳播實際上只是微積分中鏈式法則的一種應用。如果將兩層網絡轉換為圖形表示，則最容易理解。

backprop_diagram.png

在網絡的前向傳播中，我們的數據和操作在這里從下到上。我們輸入 $x$ 經過權重為 $W_1$ 且偏置項為 $b_1$ 的線性變換 $L_1$ 。然后，經過sigmoig函數操作 $S$ 和另一個線性變換 $L_2$ 。最后，我們計算損失 $\ell$ 。我們使用損失函數來衡量網絡預測的準確程度。然后的目標是調整權重和偏差以使損失最小化。

為了訓練梯度下降的權重，我們通過網絡向后傳播得到梯度。每個操作在輸入和輸出之間都有一定的梯度。在反向傳播時，我們將輸入的梯度乘以操作的梯度。從數學上講，這實際上只是使用鏈式法則計算損失函數的梯度。
$\large \frac{\partial \ell}{\partial W_1} = \frac{\partial L_1}{\partial W_1} \frac{\partial S}{\partial L_1} \frac{\partial L_2}{\partial S} \frac{\partial \ell}{\partial L_2}$
注意：我在這里省略了一些向量微積分知識。我們使用具有一定學習率 $\alpha$ 的梯度更新權重。
$\large W^\prime_1 = W_1 - \alpha \frac{\partial \ell}{\partial W_1}$
設置學習率α，利用最小迭代次數使權重快速更新，以使得損失函數最小化。

損失函數

讓我們開始看看如何使用PyTorch計算損失函數。通過nn模塊，PyTorch提供了諸如交叉熵損失函數（nn.CrossEntropyLoss）。您通常會看到損失分配給 criterion。如上述所示，對于例如 MNIST 的分類問題，我們使用softmax函數預測類概率。對于softmax輸出，您想使用交叉熵作為損失函數。要實際計算誤差，先要定義標準 criterion，然后再傳遞網絡輸出和正確的標簽。

這里要特別注意的重要事項。查看the documentation for nn.CrossEntropyLoss的文檔。

此條件將nn.LogSoftmax（）和nn.NLLLoss（）組合在一個類中。

該輸入應包含每個類的分數。

這意味著我們需要將網絡的原始輸出傳遞到損失函數中，而不是softmax函數中。我們使用logits是因為softmax給您的概率通常非常接近零或一，但是浮點數不能準確地表示接近零或一。最好避免使用概率進行計算，因此我們使用對數概率。

import torch
from torch import nn
import torch.nn.functional as F
from torchvision import datasets, transforms

# Define a transform to normalize the data
transform = transforms.Compose([transforms.ToTensor(),
                                transforms.Normalize((0.5,), (0.5,)),
                              ])
# Download and load the training data
trainset = datasets.MNIST('~/.pytorch/MNIST_data/', download=True, train=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)

注意：如果還不了解nn.Sequential，請看上一次的內容。

# Build a feed-forward network
model = nn.Sequential(nn.Linear(784, 128),
                      nn.ReLU(),
                      nn.Linear(128, 64),
                      nn.ReLU(),
                      nn.Linear(64, 10))

# Define the loss
criterion = nn.CrossEntropyLoss()

# Get our data
images, labels = next(iter(trainloader))
# Flatten images
images = images.view(images.shape[0], -1)

# Forward pass, get our logits
logits = model(images)
# Calculate the loss with the logits and the labels
loss = criterion(logits, labels)

print(loss)

tensor(2.3010, grad_fn=<NllLossBackward>)

根據經驗，使用log-softmax（用nn.LogSoftmax或F.log_softmax函數）構建模型更為方便。然后，您可以通過取指數torch.exp(output)來獲得實際概率。對于log-softmax輸出，您要使用負對數似然損失nn.NLLLoss(文檔)。

練習：建立一個返回log-softmax作為輸出的模型，并使用負對數似然損失來計算損失。請注意，對于nn.LogSoftmax和F.log_softmax，您需要適當地設置dim關鍵字參數。 dim = 0計算各行的softmax，因此每一列的總和為1，而dim = 1計算各列的總和，因此每一行的總和為1。考慮一下輸出是什么，并適當選擇dim。

# TODO: Build a feed-forward network
model = nn.Sequential(nn.Linear(784,128),
                      nn.ReLU(),
                      nn.Linear(128,64),
                      nn.ReLU(),
                      nn.Linear(64,10),
                      nn.LogSoftmax(dim=1))

# TODO: Define the loss
criterion = nn.NLLLoss()

### Run this to check your work
# Get our data
images, labels = next(iter(trainloader))
# Flatten images
images = images.view(images.shape[0], -1)

# Forward pass, get our logits
logits = model(images)
# Calculate the loss with the logits and the labels
loss = criterion(logits, labels)

print(loss)

tensor(2.3090, grad_fn=<NllLossBackward>)

自動求梯度

現在我們知道了如何計算損失函數，如何使用它進行反向傳播？ Torch提供了一個autograd模塊，用于自動計算張量的梯度。我們可以使用它來計算所有參數相對于損失函數的梯度。 Autograd的工作方式是跟蹤張量上執行的操作，然后向后進行這些操作，并計算沿途的梯度。為了確保PyTorch跟蹤張量上的操作并計算梯度，你需要在張量上設置require_grad = True。你可以在創建時使用require_grad關鍵字來執行此操作，也可以隨時使用x.requires_grad_（True）來執行此操作。

你可以使用 torch.no_grad() 來關閉梯度的計算:

x = torch.zeros(1, requires_grad=True)
>>> with torch.no_grad():
...     y = x * 2
>>> y.requires_grad
False

另外，您可以使用torch.set_grad_enabled（True | False）來打開或關閉梯度。

使用z.backward（）針對某些變量z計算梯度。這會反向傳播創建z的操作。

x = torch.randn(2,2, requires_grad=True)
print(x)

tensor([[-0.7619, -0.9604],
        [-0.6987,  1.2588]], requires_grad=True)

y = x**2
print(y)

tensor([[0.5805, 0.9223],
        [0.4882, 1.5845]], grad_fn=<PowBackward0>)

在下面我們可以看到創建y的操作，即冪操作PowBackward0。

## grad_fn shows the function that generated this variable
print(y.grad_fn)

<PowBackward0 object at 0x000002AD868AD780>

autograd模塊會跟蹤這些操作，并且知道如何計算每個梯度。通過這種方式，它可以針對任何一個張量計算一系列操作的梯度。讓我們將張量y變為標量，即取均值。

z = y.mean()
print(z)

tensor(0.8938, grad_fn=<MeanBackward0>)

請檢查 x 與y 的梯度是否為空

print(x.grad)

None

要計算梯度，您需要在變量（例如z）上運行.backward方法。這將計算z相對于x的梯度
$\frac{\partial z}{\partial x} = \frac{\partial}{\partial x}\left[\frac{1}{n}\sum_i^n x_i^2\right] = \frac{x}{2}$

z.backward()
print(x.grad)
print(x/2)

tensor([[-0.3809, -0.4802],
        [-0.3493,  0.6294]])
tensor([[-0.3809, -0.4802],
        [-0.3493,  0.6294]], grad_fn=<DivBackward0>)

這些梯度計算對于神經網絡特別有用。對于訓練，我們需要相對于損失函數的梯度。使用PyTorch，我們通過網絡正向傳播數據以計算損失，然后反向傳播以計算相對于損失函數的梯度。一旦有了梯度，就可以進行梯度下降步驟。

損失與梯度

當我們使用PyTorch創建網絡時，所有參數都使用require_grad = True初始化。這意味著當我們計算損失并調用loss.backward（）時，將計算參數的梯度。這些梯度用于通過梯度下降來更新權重。在下面，您可以看到一個利用反向傳播通過計算梯度的例子。

# Build a feed-forward network
model = nn.Sequential(nn.Linear(784, 128),
                      nn.ReLU(),
                      nn.Linear(128, 64),
                      nn.ReLU(),
                      nn.Linear(64, 10),
                      nn.LogSoftmax(dim=1))

criterion = nn.NLLLoss()
images, labels = next(iter(trainloader))
images = images.view(images.shape[0], -1)

logits = model(images)
loss = criterion(logits, labels)

print('Before backward pass: \n', model[0].weight.grad)

loss.backward()

print('After backward pass: \n', model[0].weight.grad)

Before backward pass: 
 None
After backward pass: 
 tensor([[ 0.0002,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
        [ 0.0058,  0.0058,  0.0058,  ...,  0.0058,  0.0058,  0.0058],
        [-0.0002, -0.0002, -0.0002,  ..., -0.0002, -0.0002, -0.0002],
        ...,
        [ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
        [-0.0012, -0.0012, -0.0012,  ..., -0.0012, -0.0012, -0.0012],
        [ 0.0024,  0.0024,  0.0024,  ...,  0.0024,  0.0024,  0.0024]])

訓練神經網絡

我們需要開始進行最后一步訓練，這是一個優化器，我們將使用它使用梯度來更新權重。我們是從PyTorch的optim中獲得的。例如，我們可以將隨機梯度下降與optim.SGD一起使用。您可以在下面查看如何定義優化器。

from torch import optim

# Optimizers require the parameters to optimize and a learning rate
optimizer = optim.SGD(model.parameters(), lr=0.01)

現在我們知道了如何使用所有各個部分，現在該看看它們如何協同工作。在遍歷所有數據之前，我們只考慮一個學習步驟。 PyTorch的一般過程：

通過網絡進行正向傳播傳遞
使用網絡輸出來計算損失
使用loss.backward（）通過網絡進行反向傳播以計算梯度
使用優化器（隨機梯度下降算法）更新權重

下面，我將進行一個訓練步驟，并打印出權重和梯度，以便您查看其變化。請注意，我有一行代碼optimizer.zero_grad（）。當你使用相同的參數進行多次向后傳遞時，會導致梯度累積。這意味著你需要在每次訓練通過時將梯度歸零，否則你將保留先前訓練批次中的梯度。

print('Initial weights - ', model[0].weight)

images, labels = next(iter(trainloader))
images.resize_(64, 784)

# Clear the gradients, do this because gradients are accumulated
optimizer.zero_grad()

# Forward pass, then backward pass, then update weights
output = model(images)
loss = criterion(output, labels)
loss.backward()
print('Gradient -', model[0].weight.grad)

Initial weights -  Parameter containing:
tensor([[ 0.0310, -0.0118, -0.0347,  ..., -0.0017,  0.0066, -0.0122],
        [ 0.0007,  0.0074,  0.0232,  ..., -0.0357,  0.0227,  0.0052],
        [ 0.0121, -0.0286,  0.0265,  ...,  0.0174,  0.0127, -0.0132],
        ...,
        [ 0.0347,  0.0156,  0.0166,  ...,  0.0303, -0.0136,  0.0295],
        [-0.0146, -0.0036,  0.0253,  ..., -0.0104,  0.0069,  0.0213],
        [ 0.0028,  0.0031, -0.0184,  ..., -0.0025,  0.0256, -0.0037]],
       requires_grad=True)
Gradient - tensor([[ 0.0002,  0.0002,  0.0002,  ...,  0.0002,  0.0002,  0.0002],
        [-0.0004, -0.0004, -0.0004,  ..., -0.0004, -0.0004, -0.0004],
        [-0.0001, -0.0001, -0.0001,  ..., -0.0001, -0.0001, -0.0001],
        ...,
        [-0.0003, -0.0003, -0.0003,  ..., -0.0003, -0.0003, -0.0003],
        [-0.0002, -0.0002, -0.0002,  ..., -0.0002, -0.0002, -0.0002],
        [ 0.0013,  0.0013,  0.0013,  ...,  0.0013,  0.0013,  0.0013]])

# Take an update step and few the new weights
optimizer.step()
print('Updated weights - ', model[0].weight)

Updated weights -  Parameter containing:
tensor([[ 0.0310, -0.0118, -0.0347,  ..., -0.0017,  0.0066, -0.0122],
        [ 0.0007,  0.0074,  0.0232,  ..., -0.0357,  0.0227,  0.0052],
        [ 0.0121, -0.0286,  0.0265,  ...,  0.0174,  0.0127, -0.0132],
        ...,
        [ 0.0347,  0.0156,  0.0166,  ...,  0.0303, -0.0136,  0.0296],
        [-0.0146, -0.0035,  0.0253,  ..., -0.0104,  0.0069,  0.0213],
        [ 0.0028,  0.0031, -0.0184,  ..., -0.0025,  0.0256, -0.0037]],
       requires_grad=True)

真正訓練神經網絡

現在，我們將該算法放入循環中，以便可以遍歷所有圖像。遍歷整個數據集的過程稱為epoch。因此，在這里，我們將遍歷Trainloader，以獲取我們的訓練批次。對于每一批，我們將進行一次訓練，計算損失，進行反向傳播，并更新權重。

練習：我們利用神經網絡進行訓練。如果過程沒問題的化，則每個epoch的訓練損失都會減少。

## Your solution here

model = nn.Sequential(nn.Linear(784, 128),
                      nn.ReLU(),
                      nn.Linear(128, 64),
                      nn.ReLU(),
                      nn.Linear(64, 10),
                      nn.LogSoftmax(dim=1))

criterion = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.003)

epochs = 10
for e in range(epochs):
    running_loss = 0
    for images, labels in trainloader:
        # Flatten MNIST images into a 784 long vector
        images = images.view(images.shape[0], -1)
    
        # TODO: Training pass
        optimizer.zero_grad()
        
        output = model(images)
        loss = criterion(output, labels)
        loss.backward()
        optimizer.step() 
        
        running_loss += loss.item()
    else:
        print(f"Training loss: {running_loss/len(trainloader)}")

Training loss: 1.9486986867654552
Training loss: 0.8663170544831738
Training loss: 0.5123799103917852
Training loss: 0.4224105821108259
Training loss: 0.38050861858419266
Training loss: 0.3551620597651264
Training loss: 0.33704469087662725
Training loss: 0.3233772503859453
Training loss: 0.31237514997755034
Training loss: 0.3026550426952112

經過訓練的神經網絡，我們可以查看它的預測。

%matplotlib inline
import helper

images, labels = next(iter(trainloader))

img = images[0].view(1, 784)
# Turn off gradients to speed up this part
with torch.no_grad():
    logps = model(img)

# Output of the network are log-probabilities, need to take exponential for probabilities
ps = torch.exp(logps)
helper.view_classify(img.view(1, 28, 28), ps)

output_31_0.png

現在，我們的網絡非常出色。它可以準確預測我們圖像中的數字。

最后編輯于：2020.03.31 16:14:11

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,460評論 6贊 538
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,067評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,467評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,468評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,184評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,582評論 1贊 325
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,616評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,794評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,343評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,096評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,291評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,863評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,513評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,941評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,190評論 1贊 291
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,026評論 3贊 396
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,253評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

pytorch實現mnist手寫數字識別（二)

pytorch實現mnist手寫數字識別（二)

訓練神經網絡

反向傳播

損失函數

自動求梯度

損失與梯度

訓練神經網絡

真正訓練神經網絡

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

pytorch實現mnist手寫數字識別（二)

訓練神經網絡

反向傳播

損失函數

自動求梯度

損失與梯度

訓練神經網絡

真正訓練神經網絡

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频