使用gensim訓練維基百科中文語料wordvec模型

由于最近在研究旅游評論的極性情感分析，想利用深度學習的方式來訓練一個情感分類模型，苦于沒有高質量的語料庫，訓練的模型準確率不高。于是決定自己基于維基百科語料訓練一個wordvec2 模型，為下一步的研究工作做準備。

1、語料的下載

下載地址,下載大小大概有1.5G，里面的內容以為xml格式保存。

2、數據的處理

1、去除原始的數據是包含了各種xml標簽，使用網上開源處理程序提取文本數據Wikipedia Extractor

#下載程序
git clone https://github.com/attardi/wikiextractor.git wikiextractor
#cd 到程序目錄
cd wikiextractor
#安裝程序
python setup.py install
#提取文章
python WikiExtractor.py -b 100M -o extracted /Users/yj/Desktop/學習/情感分析/wikiCorpus/wiki/zhwiki-latest-pages-articles.xml.bz2

說明 -b 后面參數為提取文件的大小，我這里設置為100M，不要設置太大不然后面的語料處理時間太長，-o extracted 后面為下載好的語料所在路徑，注意替換。
我的電腦跑了一個多小時。

num.png

跑完后就能看到處理好的語料

wikicorpus.png

2、將繁體轉為簡體
使用開源工具opencc將繁體抓我簡體,安裝命令

brew install opencc

使用opencc進行轉換,轉換命令如下

opencc -i wiki_00 -o zh_wiki_00 -c t2s.json

-i后面的參數為原始語料路徑，-o后面的參數為輸出路徑
通過轉換后格式如下

<doc id="5323477" url="https://zh.wikipedia.org/wiki?curid=5323477" title="海洋學">
海洋學  海洋學（）是研究海洋的自然現象、性質及其變化規律，以及開發****
</doc>

我們需要提取<doc>和</doc>之間的內容
3、去除一些特殊符號,如(和)、{、}、《，》等

                line = line.replace('(','')
                line = line.replace(')','')
                line = line.replace('{','')
                line = line.replace('}','')
                line = line.replace('[','')
                line = line.replace(']','')
                line = line.replace('《','')
                line = line.replace('》','')
                line = line.replace('「','')
                line = line.replace('」','')
                line = line.replace('『','')
                line = line.replace('』','')
                line = line.replace('“','')
                line = line.replace('”','')
                line = line.replace('（','')
                line = line.replace('）','')

3、使用jieba中文切詞工具進行切詞

經過處理后的數據如下面的格式

海洋學  海洋學（）是研究海洋的自然現象、性質及其變化規律，****

第一個詞為維基百科的詞條，后面的詞為該詞條的解釋。為了提高對詞條切詞的準確性，我們對整個詞條一空格為分隔符，提取詞條如上面的海洋學,使用jiaba動態添加詞典的方法jieba.add_word(海洋學),然后對后面的解釋進行切詞，切詞后寫入文件。格式如下：

文學 ， 在 最 廣泛 的 意義 上 ， 是 任何 單一 的 書面 作品***

每個詞語已空格為進行連接，對998616條維基百科進行切詞，并寫入文件并作為后面訓練word2vec的語料。

4、訓練`word2vec`模型

使用gensim訓練剛剛我們處理好的語料，并保存。

from gensim.models.word2vec import Word2Vec,LineSentence
import multiprocessing
 print('開始訓練')
    model = Word2Vec(LineSentence('./wikiCorpus_02.txt'),size=300,workers=multiprocessing.cpu_count())
    print('結束')
    model.init_sims(replace=True)
    model.save('./wiki_corpus_02_predict.model')

5、測試訓練好的模型

尋找和寶馬最相近的十個詞語

model =  Word2Vec.load('./wiki_corpus_02_predict.model')

    # 第一個詞的向量表示
    # print(model.wv.syn0[0])
    # 詞的矩陣
    # print(model.wv.index2word[0])

    # 1.
    print(model.most_similar('寶馬'))

得到結果如下：

[('歐寶', 0.7233036756515503), ('捷豹', 0.7231091260910034), ('BMW', 0.7167201638221741), ('雪鐵龍', 0.7163304090499878), ('標致', 0.711229681968689), ('沃爾沃', 0.7081398367881775), ('奧迪', 0.7074229717254639), ('保時捷', 0.697162926197052), ('超級跑車', 0.6864667534828186), ('大眾汽車', 0.6775105595588684)]

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,923評論 6贊 535
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,740評論 3贊 420
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 176,856評論 0贊 380
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,175評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,931評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,321評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,383評論 3贊 443
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,533評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,082評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,891評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,067評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,618評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,319評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,732評論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,987評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,794評論 3贊 394
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,076評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

使用gensim訓練維基百科中文語料wordvec模型

使用gensim訓練維基百科中文語料wordvec模型

1、語料的下載

2、數據的處理

3、使用jieba中文切詞工具進行切詞

4、訓練`word2vec`模型

5、測試訓練好的模型

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

使用gensim訓練維基百科中文語料wordvec模型

1、語料的下載

2、數據的處理

3、使用jieba中文切詞工具進行切詞

4、訓練word2vec模型

5、測試訓練好的模型

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

2、數據的處理

3、使用jieba中文切詞工具進行切詞

4、訓練`word2vec`模型

5、測試訓練好的模型