上學(xué)期讀了有關(guān)word2vec的兩篇paper之后,不是很明白,這學(xué)期重新花時間再讀,并且根據(jù)這兩篇paper進行一個詞向量相關(guān)的實驗,選來選去,發(fā)現(xiàn)網(wǎng)上有大神就wiki中英文語料庫進行訓(xùn)練,鑒于渣渣水平,于是就選擇了訓(xùn)練使用詞向量來訓(xùn)練wiki中英文語料庫。
整個過程參考:“我愛自然語言處理”:www.52nlp.cn
準(zhǔn)備工作
為了訓(xùn)練語料庫,當(dāng)然需要去下載。英文wiki語料庫(11.9G)?中文wiki語料庫(1.2G)
然后就是準(zhǔn)備好編譯環(huán)境,語言選擇的是python,使用了gensim的庫,該庫是由Radim ?eh??ek博士基于google發(fā)布的C語言版本的word2vec編寫的Python庫。如何安裝該庫就不多說了。
處理流程
1、英文wiki訓(xùn)練
首先需要將xml的文件轉(zhuǎn)換成txt文件,主要通過process_wiki.py這個腳本來進行,在參考文考網(wǎng)頁中提出了注意“wiki = WikiCorpus(inp, lemmatize=False, dictionary={})"將lemmatize設(shè)置為False避免使用Pattern來講英文單詞詞干化處理,以免變得很慢,于是就華麗麗的接受。整個過程大概用了5個小時左右,共有差不多400W的articles。
執(zhí)行命令為:python3 process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text
生成了wiki.en.text,生成的效果如下:
接下來就是拿wiki.en.text的文本進行詞向量的調(diào)用處理,通過train_word2vec_model.py的腳本對該文件進行處理。
執(zhí)行的命令為:
python3 train_word2vec_model.py wiki.en.text wiki.en.text.model wiki.en.text.vector.?
同樣采取參考blog的方式,保存了vector方便debug。訓(xùn)練了大概8個小時左右,之后在ipython中對已經(jīng)訓(xùn)練好的model進行調(diào)試,調(diào)試如下:
在這里調(diào)試的時候并沒有遇到參考blog中說到得問題,這里具體原因是什么,還是需要討論。但是可以看出效果其實不怎么好,以后有機會會使用word2vec的C版本進行試驗。當(dāng)然,這里可以使用model的其他函數(shù)進行調(diào)試,具體可以看gensim的文檔進行查看。
2、中文wiki訓(xùn)練
同樣地和英文一樣,使用process_wiki.py 進行腳本處理,處理了10分鐘,執(zhí)行命令為:
python3 process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text
處理得到的效果如下:
咦,全是繁體字,那么由于某種原因,wiki中文版本都是繁體字的語料,而且可以看出有一些英文,還有一些其他字符,而且還需要對中文進行分詞,這些都是需要處理的部分。那么我們一步一步的來。
1)繁體轉(zhuǎn)簡體
繁體轉(zhuǎn)成簡體,通過blog得知了一種叫opencc的工具:OpenCC(github地址)
由于是OS X的系統(tǒng),參見安裝說明,但是發(fā)現(xiàn)并沒有安裝brew,于是又去安裝brew,興致沖沖的點進homebrew安裝,結(jié)果發(fā)現(xiàn)主頁無法進去,無奈又開始尋找解決方法,百度之。百度排名第一的英文界面貌似可以解決。
然而點進去,依然無法找到網(wǎng)頁,于是機智的我點了百度快照。
接下來就是一路安裝,完成OpenCC的安裝后。
執(zhí)行命令:opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json
2)分詞
中文不像英文一樣,天生自帶空格,于是就有了中文分詞,在python中中文分詞做的比較好的庫是jieba分詞庫jieba(github地址)
通過代碼庫的實例,于是寫了分詞腳本seperate_words.py.
執(zhí)行命令:python3 separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq?
得到了分好詞的文件
3)去除多余的其他字符
最后通過python中自帶的re庫,使用正則表達式將其他字符去除,代碼在remove_words.py
執(zhí)行命令:python3 separate_words.py?wiki.cn.text.jian.seq wiki.cn.text.jian.removed
之后就和英文分詞一樣,通過train_word2vec_model.py 進行處理
執(zhí)行命令:python3 train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector.
最后測試一下運行的效果:
----
代碼已經(jīng)進行了review,在python3的情況下,存在bytes和str不兼容的問題已經(jīng)解決了,另外將所有py文件全部放入一個文件中不同函數(shù),在main()函數(shù)中也已經(jīng)進行了各種處理的demo。由于gensim版本變化快,所以在載入model的時候可以參考最新gensim的api。