Building Input Functions with tf.contrib.learn
這個教程將指引你構建tf.contrib.learn的輸入函數(input functions).
Custom Input Pipelines with input_fn
用tf.contrib.learn訓練網絡時,可能會傳遞特征和目標數據到fit,evaluate,predict節點中,這里是上一節的示例:
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)
test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float32)
...
classifier.fit(x=training_set.data,
y=training_set.target,
steps=2000)
當要求的數據操作不是很多時,這樣做是可行的,但是如果有更過的特征,就會用到定制的輸入函數來抽象邏輯。
Anatomy of an input_fn
下面的代碼描述了輸入函數的基本框架:
def my_input_fn():
# Preprocess your data here...
# ...then return 1) a mapping of feature columns to Tensors with
# the corresponding feature data, and 2) a Tensor containing labels
return feature_cols, labels
輸入函數的主題包括了預處理輸入數據的邏輯,比如通過規范化來清洗數據。
輸入函數必須返回最終的特征數據和目標數據。
feature_cols是對應特征數據張量的鍵值對的字典。labels是目標值。
Converting Feature Data to Tensors
如果你的特征或目標詩句是pandas dataframe或numpy array,你需要先將它轉換為張量。
對于連續的數據,你可以用tf.constant來構建
feature_column_data = [1, 2.4, 0, 9.9, 3, 120]
feature_tensor = tf.constant(feature_column_data)
對于稀疏矩陣來說,你需呀轉換為sparseTensor,有三個參數:
- dense_shape,張量的形狀
- indices,張量中非0元素的下標
- values,一個一維的張量,在indices中的對應值
下面的代碼定義了一個3行5列的sparseTensor,index[0,1]為6,[2,4]為0.5.
sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],
values=[6, 0.5],
dense_shape=[3, 5])
它表示了這樣的數據:
[[0, 6, 0, 0, 0]
[0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.5]]
Passing input_fn Data to Your Model
在訓練時feed數據,你需要傳遞輸入函數到input_fn參數來構建fit節點:
classifier.fit(input_fn=my_input_fn, steps=2000)
注意,input_fn同時提供了特征和目標數據,代替了x參數和y參數。不能同時傳遞input_fn和x,y參數.
注意input_fn參數接收的是函數對象my_input_fn,而不是函數調用my_input_fn(),這意味著如果你按照下列代碼傳遞數據,將會導致TypeError.
classifier.fit(input_fn=my_input_fn(training_set), steps=2000)
當然你也可以使用warpper function,functools.parptial或者lambda來傳遞輸入函數。如下:
def my_input_function_training_set():
return my_input_function(training_set)
classifier.fit(input_fn=my_input_fn_training_set, steps=2000)
classifier.fit(input_fn=functools.partial(my_input_function,
data_set=training_set), steps=2000)
classifier.fit(input_fn=lambda: my_input_fn(training_set), steps=2000)
同樣地,你可以用相同的輸入函數來evaluate或predict。
這樣的做法增強了代碼的可維護性,無需捕捉x和y形成不同的變量(x_train, x_test, y_train, y_test)。