我爬取了汪峰146首歌詞,卻找不到他的夢想

夢想

最近在學scrapy框架,看了不少大神的代碼,還是感覺云里霧里,最好的學習就是實踐,于是就有了今天的題目。我爬取了汪峰老師的146首歌詞,并對他們進行分詞、統(tǒng)計詞頻,然后用工具進行了可視化。

整個項目分3塊:

  • 歌詞爬取與下載
  • 歌詞分詞、統(tǒng)計詞頻
  • 可視化處理

1.歌詞爬取

主要用scrapy框架進行,像素級參照了@LEONYao的文章我爬了咪蒙的278篇文章做詞頻統(tǒng)計
歌詞地址:https://mojim.com/cnh104044-A2.htm
上代碼

import scrapy
from bs4 import BeautifulSoup
from ali.items import AliItem
class wang(scrapy.Spider):
    name = 'wang'
    def start_requests(self):
        start_url=['https://mojim.com/cnh104044-A2.htm']
        for url in start_url:
            yield scrapy.Request(url=url,callback=self.parse_getlink)


    def parse_getlink(self,response):
        n=0
        #print response.url
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('div',id='inS'):
            for j in i.find_all('a'):
               url = j.get('href')
               url = 'https://mojim.com' + str(url)
               yield scrapy.Request(url=url, callback=self.parse)
               n+=1
        print n

    def parse(self,response):
        item = AliItem()
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('dd',id='fsZx3'):
            item['content'] = i.get_text()
            yield item 

2.詞頻統(tǒng)計

主要用jieba模塊和停用詞表,參照了@_CallMe靠譜叔 用jieba分詞提取關鍵詞做漂亮的詞云的代碼

詞頻.PNG

3.可視化

你的夢想是什么?
我找不到了ORZ

詞云中字體大小是根據(jù)詞頻的大小設置的,通過分析詞頻,我得到了個驚人的發(fā)現(xiàn),竟然沒有找到汪老師的夢想,本來打算洗洗睡的我,頓時垂死夢中驚坐起,發(fā)現(xiàn)有點對不起汪老師,于是我拿著放大鏡,翻著詞頻統(tǒng)計最后才在第35位找到了夢想兩個字,真是細思恐極啊~

推薦兩個小工具:
詞云工具 很多人介紹過的 tagul
圖云工具 也是一款神器shape collage

另外,詞頻的統(tǒng)計比較粗糙,沒有區(qū)分詞性,目前還沒找到好的解決辦法。哪位大神如果有好的辦法,望不吝賜教~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 人生苦短,我用Python && C#。 1.引言 最近初學Python,寫爬蟲上癮。爬了豆瓣練手,又爬了公司的論...
    圣杰閱讀 3,882評論 1 17
  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識圖譜 信息檢索 文本分類 常用技術: 詞級別...
    御風之星閱讀 9,296評論 1 25
  • 在本文中我會嘗試如何從0數(shù)據(jù)開始到獲取百萬頁面,進行用戶數(shù)據(jù)分析、建模,再數(shù)據(jù)信息化、可視化,生成用戶畫像分析用戶...
    hirainchen閱讀 25,396評論 121 690
  • 注:參考文檔 一、在線詞云圖工具# (1)、使用### 在正式使用jieba分詞之前,首先嘗試用在線分詞工具來將自...
    DearIreneLi閱讀 6,169評論 1 8
  • 去庫存,你們的花招多 八億農民都進城買房子,房地產(chǎn)商就發(fā)了,發(fā)了,發(fā)了。 更多的農民進城買房子,實現(xiàn)城鎮(zhèn)化就更快了...
    歐陽小川閱讀 230評論 0 2