.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.前言:
文章以Andrew Ng 的 deeplearning.ai 視頻課程為主線,記錄Programming Assignments 的實現過程。相對于斯坦福的CS231n課程,Andrew的視頻課程更加簡單易懂,適合深度學習的入門者系統學習!
本次作業主要針對網絡權重的初始化,對于不同的初始化方式可能最后對網絡的訓練結果產生不同的影響!
1.1 Dataset
首先我們看一下樣本的集合
train_X, train_Y, test_X, test_Y = load_dataset()
1.2 Neural Network model
我們定義了一個3層的神經網絡,對于weight的初始化方式有3種:Zeros initialization,Random initialization,He initialization,對于bias的初始化一般都置為0,,代碼如下:
def model(X, Y, learning_rate = 0.01, num_iterations = 15000, print_cost = True, initialization = "he"):
grads = {}
costs = []?
m = X.shape[1]?
layers_dims = [X.shape[0], 10, 5, 1]
if initialization == "zeros":
parameters = initialize_parameters_zeros(layers_dims)
elif initialization == "random":
parameters = initialize_parameters_random(layers_dims)
elif initialization == "he":
parameters = initialize_parameters_he(layers_dims)
for i in range(0, num_iterations):
a3, cache = forward_propagation(X, parameters)
cost = compute_loss(a3, Y)
grads = backward_propagation(X, Y, cache)
parameters = update_parameters(parameters, grads, learning_rate)
if print_cost and i % 1000 == 0:
print("Cost after iteration {}: {}".format(i, cost))
costs.append(cost)
plt.plot(costs)
plt.ylabel('cost')
plt.xlabel('iterations (per hundreds)')
plt.title("Learning rate =" + str(learning_rate))
plt.show()
return parameters
1.3 Zero Initialization
對于全0的weight初始化方式為:
def initialize_parameters_zeros(layers_dims):
L=len(layers_dims)
parameters={}
for i in range(1,L):
parameters["W"+str(i)]=np.zeros((layers_dims[i],layers_dims[i-1]))
parameters["b"+str(i)]=np.zeros((layers_dims[i],1))
return parameters
在全0初始化的情況下訓練結果如下:
parameters = model(train_X, train_Y, initialization = "zeros")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)
從訓練結果可以看出在全零初始化的情況下,權重不能進行有效的學習,因為梯度都是0,學不到東西,在這種情況下可見準確率也是最差的。
我們看一下這種情況下的decision boundary
plt.title("Model with Zeros initialization")
axes = plt.gca()
axes.set_xlim([-1.5,1.5])
axes.set_ylim([-1.5,1.5])
plot_decision_boundary(lambda x: predict_dec(parameters, x.T), train_X, train_Y)
可以看出對數據集并沒有好的擬合。
1.4 Random Initialization
我們再看一下隨機初始化的方式,在這種方式下將會產生均值為0的標準正態分布數據
def initialize_parameters_random(layers_dims):
np.random.seed(3) ? ? ? ? ? ? ?
parameters = {}
L = len(layers_dims) ? ? ? ? ??
for i in range(1, L):
parameters["W"+str(i)]=np.random.randn(layers_dims[i],layers_dims[i-1])*10
parameters["b"+str(i)]=np.zeros((layers_dims[i],1))
return parameters
訓練過程如下:
parameters = model(train_X, train_Y, initialization = "random")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)
在這種情況下準確率能達到86%,較好的擬合了數據,我們看一下形成的decision boundary
plt.title("Model with large random initialization")
axes = plt.gca()
axes.set_xlim([-1.5,1.5])
axes.set_ylim([-1.5,1.5])
plot_decision_boundary(lambda x: predict_dec(parameters, x.T), train_X, train_Y)
從decision boundary中我們也可以看出,隨機初始化較好的擬合了數據
1.5 He Initialization
He Initialization 是一種較新的初始化方式,類似于隨機初始化,但是差別在于在隨機初始化的基礎上乘以 sqrt(2/dimension of the previous layer),實現代碼如下:
def initialize_parameters_he(layers_dims):
np.random.seed(3)
parameters = {}
L = len(layers_dims) # integer representing the number of layers
for i in range(1, L):
parameters["W" + str(i)] = np.random.randn(layers_dims[i], layers_dims[i - 1]) * np.sqrt(2 / layers_dims[i - 1])
parameters["b" + str(i)] = np.zeros((layers_dims[i], 1))
return parameters
訓練結果如下:
parameters = model(train_X, train_Y, initialization = "he")
print ("On the train set:")
predictions_train = predict(train_X, train_Y, parameters)
print ("On the test set:")
predictions_test = predict(test_X, test_Y, parameters)
我們再看一下decision boundary的情況:
plt.title("Model with He initialization")
axes = plt.gca()
axes.set_xlim([-1.5,1.5])
axes.set_ylim([-1.5,1.5])
plot_decision_boundary(lambda x: predict_dec(parameters, x.T), train_X, train_Y)
在這種情況下能達到最高的準確率,數據擬合程度最好。
當然針對于不同的target,權重初始化的方式可能不同,不一定在所有的任務中He Initialization的方式都是完美的方式。
最后附上我作業的得分,表示我程序沒有問題,如果覺得我的文章對您有用,請隨意打賞,我將持續更新Deeplearning.ai的作業!