久久国产精品成人片免费,青柠影院免费观看电视剧高清免费,五月狠狠色丁香婷婷视频

自Google? 2013 年開(kāi)源word2vec算法程序以后，它的簡(jiǎn)單、高效、實(shí)用，很快引起業(yè)界眾人的關(guān)注和應(yīng)用，為搜索引擎、[廣告系統(tǒng)-谷歌的wide & deep learning][2]、[推薦系統(tǒng)][1]等互聯(lián)網(wǎng)服務(wù)提供新的基礎(chǔ)技術(shù)和思路。

何為Embedding？

開(kāi)篇之前首先需要明白一個(gè)概念何為Embedding？Embedding可以看作是數(shù)學(xué)上的一個(gè)空間映射(Mapping)：map( lambda y: f(x) )，該映射的特點(diǎn)是：?jiǎn)紊洌ㄔ跀?shù)學(xué)里，單射函數(shù)為一函數(shù)，其將不同的引數(shù)連接至不同的值上。更精確地說(shuō)，函數(shù)f被稱為是單射時(shí)，對(duì)每一值域內(nèi)的y，存在至多一個(gè)定義域內(nèi)的x使得f(x) = y。）、映射前后結(jié)構(gòu)不變，對(duì)應(yīng)到word embedding概念中可以理解為尋找一個(gè)函數(shù)或映射，生成新的空間上的表達(dá)，把單詞one-hot所表達(dá)的X空間信息映射到Y(jié)的多維空間向量。

接下來(lái)，將以模型的角度分解embedding映射函數(shù)及新空間內(nèi)表達(dá)的建模過(guò)程：

非監(jiān)督的“監(jiān)督學(xué)習(xí)”

從應(yīng)用角度，新空間內(nèi)映射函數(shù)的學(xué)習(xí)方法不需要大量的人工標(biāo)記樣本就可以得到質(zhì)量還不錯(cuò)的embedding向量，沒(méi)有具體的應(yīng)用任務(wù)導(dǎo)向，從這個(gè)角度可以看作非監(jiān)督的學(xué)習(xí)過(guò)程，而從建模角度，向量提取的建模過(guò)程是個(gè)分類模型，又可以看做是監(jiān)督學(xué)習(xí)，只是這個(gè)監(jiān)督?jīng)]有實(shí)際的監(jiān)督意義，當(dāng)然后來(lái)有的應(yīng)該將word2vec的前段表達(dá)方式喂給標(biāo)注的過(guò)文本，形成真正意義上的監(jiān)督學(xué)習(xí)，如Facebook的FastText。

2、一層隱層神經(jīng)網(wǎng)絡(luò)

帶有一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)有以下普遍特性：理論上給定足夠該隱層節(jié)點(diǎn)數(shù)，這個(gè)隱層可以近似擬合任意函數(shù)，本質(zhì)上，隱層是上一層的嵌入(Embedding)函數(shù)的近似表示，而且可以被用做lookup表（后面會(huì)介紹），word2vec也是基于該層去找到輸入word的嵌入向量表示，然后再建立下一層和當(dāng)前層的連接(connections)，來(lái)控制目標(biāo)函數(shù)的誤差。【進(jìn)一步抽象，如果從統(tǒng)計(jì)的角度，其實(shí)不同層之間的統(tǒng)計(jì)關(guān)系是一種遞歸的廣義線性關(guān)系（遞歸廣義線性模型），每一層通過(guò)線性組合對(duì)前一層進(jìn)行變換，然后以一些非線性連接函數(shù)(不同函數(shù)對(duì)應(yīng)output label不同的統(tǒng)計(jì)分布，比如softmax對(duì)應(yīng)多項(xiàng)目分布，sigmoid對(duì)應(yīng)二項(xiàng)分布等)得到非線性結(jié)果喂給下一層，參見(jiàn)圖rglm】

model_net.png

rglm.png

3、Embedding函數(shù)

從前面的定義，我們期望在隱層中找到一個(gè)/組嵌入函數(shù)W（這里采用lookup table的方式），使得![][3]具體的，假設(shè)指定固定的向量維度，W("籃球")=(0.2, -0.4, 0.7, ...),W("蘋(píng)果")=(0.0, 0.6, -0.1, ...)，W初始化時(shí)可以賦值給每個(gè)維度一個(gè)隨機(jī)數(shù)，并通過(guò)與output層連接建立學(xué)習(xí)模型/任務(wù)后得到有意義的向量。

4、建模

接下來(lái)來(lái)看看如何建立和訓(xùn)練模型。

數(shù)據(jù)準(zhǔn)備

為給模型準(zhǔn)備數(shù)據(jù)，我們首先需要定義或獲取n個(gè)樣本：![][4]

假如我們有一個(gè)句子“姚明的籃球打得很不錯(cuò)”。常規(guī)方式是首先由統(tǒng)計(jì)語(yǔ)言模型，由中間詞預(yù)測(cè)周圍詞（SKIP-GRAM），或由周圍詞預(yù)測(cè)中間詞（CBOW）等方式，然后以指定的窗口向前推進(jìn)，以SKIP-GRAM方式為例，假設(shè)推進(jìn)窗口為2，我們可以得到樣本對(duì)：("籃球","的"),("籃球","姚明"),("籃球","打得"),("籃球","很不錯(cuò)")，X skip至"打得"時(shí)，得到樣本對(duì) ：("打得","籃球"),("打得","的"),("打得","很不錯(cuò)")，以此類推...我們可以得到用于模型的訓(xùn)練樣本。

樣本表示

樣本拆解出來(lái)了，接下來(lái)如何用數(shù)值來(lái)表達(dá)這些樣本對(duì)呢？常用的辦法是將所有的訓(xùn)練數(shù)據(jù)，即“word”對(duì)抽取出唯一不重復(fù)的單詞來(lái)構(gòu)建詞典表（vocabulary），然后將樣本數(shù)據(jù)中的“word”表達(dá)成one-hot編碼，編碼時(shí)只對(duì)有值的位置上為1其他位置均為0，以上面例子為例，“姚明的籃球打得很不錯(cuò)”。基于這個(gè)句子可以構(gòu)建維度為5的詞典表：{"姚明":0,"":1,"的":2,"籃球":3,"打得":4,"很不錯(cuò)":5}，那么訓(xùn)練樣本("籃球","姚明")即可表達(dá)為([0,0,1,0,0],0)，看起來(lái)比較像常規(guī)的多分類數(shù)據(jù)了，這里為了好理解Y表示成了位置編號(hào)，后續(xù)在模型中仍以one-hot向量表達(dá)。

各層條件分布

神經(jīng)網(wǎng)絡(luò)基于這些訓(xùn)練樣本將會(huì)輸出一個(gè)概率分布，這個(gè)概率代表著我們的詞典中的每個(gè)詞是output word的可能性。更一般的，假設(shè)隱層有K個(gè)節(jié)點(diǎn)（即生成word對(duì)應(yīng)vector向量的維度），對(duì)每個(gè)樣本，我們需要做兩件事情：

給定隱層后預(yù)測(cè)output word的概率，即需要建個(gè)模型來(lái)估計(jì)![][5]

將觀測(cè)到的input word喂給隱層嵌入函數(shù)，得到隱層的概率分布，![][6]用連接函數(shù)表達(dá)即上面提到的（常見(jiàn)的一般會(huì)是K個(gè)關(guān)于x線性組合的方程組，后面會(huì)講到為何不用該方式）![][3]

接下來(lái)我們需要構(gòu)建整體的似然函數(shù)進(jìn)行優(yōu)化：

目標(biāo)函數(shù)

分別建立input層-隱層及隱層-output層的連接函數(shù)（RGLM），input層和隱層的函數(shù)上面已給出，如果假設(shè)p(y|w)為正態(tài)分布，則 log-likelihood loss便是(negative) L2 loss:![][7]，如果假設(shè)p(y|w)為多項(xiàng)分布，則likelihood loss便是softmax loss:![][8]從訓(xùn)練樣本可以看出，output層為多分類，即隱層-output可采用softmax loss.

為了準(zhǔn)確預(yù)測(cè)output word，該網(wǎng)絡(luò)需要根據(jù)上述損失函數(shù)學(xué)習(xí)參數(shù)矩陣W和R(output層)，實(shí)際上，對(duì)于我們來(lái)說(shuō)，整個(gè)學(xué)習(xí)任務(wù)是為了學(xué)習(xí)隱層的W函數(shù)，即隱層節(jié)點(diǎn)參數(shù)。當(dāng)然對(duì)于其他任務(wù)，比如神經(jīng)網(wǎng)絡(luò)推薦或Fasttext，網(wǎng)絡(luò)構(gòu)造過(guò)程類似，只是學(xué)習(xí)的任務(wù)是學(xué)習(xí)輸出層的參數(shù)和結(jié)構(gòu)。

模型訓(xùn)練

常規(guī)優(yōu)化方法會(huì)采用梯度下降和反向傳播，由上面的樣本定義，我們的訓(xùn)練樣本中input和output均以one-hot表示，向量極其稀疏（通常完整字典表會(huì)是幾十萬(wàn)維，假設(shè)200000），僅有一個(gè)位置的數(shù)值為1，其余均為0，如果input到隱層的嵌入函數(shù)采用常見(jiàn)方式的話，假設(shè)節(jié)點(diǎn)數(shù)即嵌入向量維度為200，則隱層參數(shù)矩陣每個(gè)樣本的迭代將會(huì)是1x200000的向量和200000x200矩陣的相乘，顯然會(huì)帶來(lái)巨大計(jì)算資源的消耗，其實(shí)每個(gè)樣本的隱層參數(shù)僅需要根據(jù)one-hot向量中數(shù)值為1的索引對(duì)應(yīng)的隱層參數(shù)參數(shù)矩陣的該索引行對(duì)應(yīng)的向量取出即可：

embedding.png

經(jīng)過(guò)抽象后我們可以得到上面定義的Embedding函數(shù)/參數(shù)矩陣：

embedding-abstract.png

這種方式其實(shí)聯(lián)系上面提到的lookup table就容易理解了，即模型中的隱層權(quán)重矩陣便成了一個(gè)”查找表“（lookup table），進(jìn)行矩陣計(jì)算時(shí)，只需要直接去查輸入的one-hot向量中提取非零位置的索引，在隱層的對(duì)應(yīng)行輸出就是每個(gè)輸入單詞的“嵌入詞向量”，該過(guò)程即完成了嵌入的動(dòng)作。

對(duì)于輸出層：

經(jīng)過(guò)隱層的嵌入計(jì)算，input word會(huì)被映射為1x200的dense向量，再喂給輸出層經(jīng)過(guò)softmax的分類器的計(jì)算，對(duì)隨機(jī)給定任意output word的嵌入向量計(jì)算其預(yù)測(cè)概率：![][8]，這樣基于同一input word，替換不同的beta（output word的嵌入向量）得到不同output word的預(yù)測(cè)概率。

至此，數(shù)據(jù)的表示及目標(biāo)損失函數(shù)的定義以及模型訓(xùn)練過(guò)程已拆解完畢。接下來(lái)，再看看訓(xùn)練性能提升和優(yōu)化的方法。

5、抽樣

基于上面的拆解，我們會(huì)發(fā)現(xiàn)其實(shí)訓(xùn)練過(guò)程涉及的參數(shù)數(shù)量會(huì)非常龐大，以上面的200000個(gè)單詞的字典表為例，隱層嵌入200維的詞向量，那么每次迭代的輸入-隱層權(quán)重矩陣和隱層-輸出層的權(quán)重矩陣都會(huì)有 200000 x 200 = 4000萬(wàn)個(gè)權(quán)重，在如此龐大的神經(jīng)網(wǎng)絡(luò)中進(jìn)行梯度下降是相當(dāng)慢的，而且需要大量的訓(xùn)練數(shù)據(jù)來(lái)調(diào)整這些權(quán)重并且避免過(guò)擬合。所以對(duì)性能的要求仍然很高，雖然上面已經(jīng)采用lookup table的方式簡(jiǎn)化了一些計(jì)算，針對(duì)這個(gè)問(wèn)題，Word2Vec的作者在論文提出了有效的方法，叫“negative sampling”，每個(gè)訓(xùn)練樣本的訓(xùn)練只會(huì)更新一小部分的模型權(quán)重，從而降低計(jì)算負(fù)擔(dān)，甚至是詞向量的質(zhì)量。基于對(duì)假設(shè)是，我們的數(shù)據(jù)中存在大量冗余和噪音，舉例：對(duì)于“的”這種常用高頻單詞，我們會(huì)發(fā)現(xiàn)一些問(wèn)題：當(dāng)我們得到成對(duì)的單詞訓(xùn)練樣本時(shí)，**("的", "籃球") *這樣的訓(xùn)練樣本并不會(huì)給我們提供關(guān)于“籃球”更多的語(yǔ)義信息，因?yàn)椤暗摹边@樣的噪音詞在大部分單詞的上下文中幾乎都會(huì)出現(xiàn)。由于在語(yǔ)料中“的”這樣的常用詞出現(xiàn)概率很大，因此我們將會(huì)有大量的（”的“，...）這樣的訓(xùn)練樣本，而這些樣本數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)了我們學(xué)習(xí)“的”這個(gè)詞向量所需的訓(xùn)練樣本數(shù)。所以在設(shè)計(jì)抽樣方法的時(shí)候可以對(duì)這樣的樣本直接排除在訓(xùn)練樣本之外，對(duì)于其他樣本對(duì)隨機(jī)抽取少量的負(fù)樣本進(jìn)行參數(shù)的更新，而不是對(duì)one-hot向量中所有200000個(gè)位置對(duì)樣本都進(jìn)行計(jì)算，從而大大提高訓(xùn)練效率。

上面敘述的有點(diǎn)繁雜，總結(jié)起來(lái)就是在對(duì)給定input word計(jì)算softmax時(shí)，不去更新所有詞表中word的輸出概率，而是從該樣本的output word之外隨機(jī)抽樣有限個(gè)（比如只抽樣5個(gè)word）作為負(fù)樣本計(jì)算其概率，進(jìn)一步進(jìn)行梯度和參數(shù)的更新。也就是說(shuō)通過(guò)負(fù)樣本抽樣對(duì)于每次訓(xùn)練只更新（5+1）個(gè)beta向量對(duì)應(yīng)的參數(shù)，也就是2006=1200個(gè)參數(shù)，這樣與4000萬(wàn)個(gè)相比，需要更新的參數(shù)占比僅為0.003%，效率提升可想而知。

6、基于tensorflow的實(shí)現(xiàn)

數(shù)據(jù)加載

import os

def load_w2c_textcn_dataset(path='./data/'):

"""

Returns

--------

word_list_all : a list

a list of string (word).\n

要求：中文語(yǔ)料需要先分詞

"""

print("Load or Download chinese text corpus Dataset> {}".format(path))

filename = 'wiki_cn.cut'

word_list_all=[]

with open(os.path.join(path, filename)) as f:

for line in f:

word_list=line.strip().split()

for idx, word in enumerate(word_list):

word_list[idx] = word_list[idx].decode('utf-8')

#print word_list[idx]

word_list_all.append(word_list[idx])

return word_list_all

words=load_w2c_textcn_dataset(path='./data/')

print len(words)

字典構(gòu)建

import collections

vocabulary_size = 200000

count = [['UNK', -1]]

count.extend(collections.Counter(words).most_common(vocabulary_size - 1))

dictionary = dict()

for word, _ in count:

dictionary[word] = len(dictionary)

data = list()

unk_count = 0

for word in words:

if word in dictionary:

index = dictionary[word]

else:

index = 0? # dictionary['UNK']

unk_count = unk_count + 1

data.append(index)

count[0][1] = unk_count

reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))

del words

batch數(shù)據(jù)生成器

data_index = 0

def generate_batch(batch_size, num_skips, skip_window):

global data_index

batch = np.ndarray(shape=(batch_size), dtype=np.int32)

labels = np.ndarray(shape=(batch_size, 1), dtype=np.int32)

span = 2 * skip_window + 1? # [ skip_window target skip_window ]

buf = collections.deque(maxlen=span)

for _ in xrange(span):

buf.append(data[data_index])

data_index = (data_index + 1) % len(data)

for i in xrange(batch_size // num_skips):

target = skip_window? # target label at the center of the buffer

targets_to_avoid = [ skip_window ]

for j in xrange(num_skips):

while target in targets_to_avoid:

target = random.randint(0, span - 1)

targets_to_avoid.append(target)

batch[i * num_skips + j] = buf[skip_window]

labels[i * num_skips + j, 0] = buf[target]

buf.append(data[data_index])

data_index = (data_index + 1) % len(data)

return batch, labels

模型構(gòu)建

import tensorflow as tf

import collections

import numpy as np

batch_size = 128

embedding_size = 128? # 生成向量維度.

skip_window = 2? ? ? # 左右窗口.

num_skips = 2? ? ? ? # 同一個(gè)keyword產(chǎn)生label的次數(shù).

num_sampled = 64? ? ? # 負(fù)樣本抽樣數(shù).

graph = tf.Graph()

with graph.as_default(), tf.device('/cpu:0'):

train_dataset = tf.placeholder(tf.int32, shape=[batch_size])

train_labels? = tf.placeholder(tf.int32, shape=[batch_size, 1])

embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))

softmax_weights = tf.Variable(

tf.truncated_normal([vocabulary_size, embedding_size], stddev=1.0/np.sqrt(embedding_size)))

softmax_biases = tf.Variable(tf.zeros([vocabulary_size]))

embed = tf.nn.embedding_lookup(embeddings, train_dataset)

loss = tf.reduce_mean(

tf.nn.sampled_softmax_loss(weights=softmax_weights, biases=softmax_biases, inputs=embed,

labels=train_labels, num_sampled=num_sampled, num_classes=vocabulary_size))

optimizer = tf.train.AdagradOptimizer(1.0).minimize(loss)

norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep_dims=True))

normalized_embeddings = embeddings / norm

模型訓(xùn)練

num_steps = 500001

import random

with tf.Session(graph=graph) as session:

tf.global_variables_initializer().run()

average_loss = 0

for step in range(num_steps):

batch_data, batch_labels = generate_batch(batch_size, num_skips, skip_window)

feed_dict = {train_dataset : batch_data, train_labels : batch_labels}

_, l = session.run([optimizer, loss], feed_dict=feed_dict)

average_loss += l

if step % 100000 == 0 and step > 0:

print('Average loss at step %d: %f' % (step, average_loss / 100000))

average_loss = 0

word2vec = normalized_embeddings.eval()

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Word Embedding原理及實(shí)現(xiàn)

Word Embedding原理及實(shí)現(xiàn)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Word Embedding原理及實(shí)現(xiàn)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频