《啥是佩奇》小豬佩奇過大年?
↑↑↑↑↑↑↑↑↑↑↑↑上面是一個(gè)B站視頻鏈接,但是貌似沒啥用???↑↑↑↑↑↑↑↑↑↑↑↑↑
1、源數(shù)據(jù)獲取
B站彈幕有專門的API,只需要獲取到對(duì)應(yīng)的cid就行
彈幕
編寫爬蟲獲取彈幕,保存為csv文件
爬蟲
有意思的地方是,df.to_csv('peiqi.csv',encoding='utf_8')會(huì)亂碼。在程序中能夠正常輸出中文,但是導(dǎo)出到文件后使用excel打開時(shí)出現(xiàn)中文亂碼是因?yàn)閑xcel能夠正確識(shí)別用gb2312、gbk、gb18030或utf_8 with BOM (utf_8_sig)編碼的中文,如果是utf_8 no BOM(utf_8)編碼的中文文件,excel打開會(huì)亂碼。
彈幕CSV
總彈幕有1756條,但是API只顯示1000條,因此只爬取了1000條。只作練習(xí),不多糾結(jié),1000就1000吧
2、詞云展示
使用pandas讀取彈幕CSV文件,jieba分詞,最后用wordcloud 生成詞云matplotlib展示。
詞云
原圖片
背景圖片
詞云展示
peiqi
詞頻top50的分詞
“某些 上來” 什么鬼?“上來 說話我求” ??“說話我求 某些”???
證明stopwords很有必要?。?!
額,順便問一下,“硬核” 啥意思?