今天遇到一個好玩的庫,用來解析新聞類網頁特別好用。基本上你不用分析網頁,不用標簽定位。
直接告訴腳本你想爬的url,goose就會將清理好的數據返回給你。
缺點是goose不支持python3,為此我特點裝了python2.7嘗試寫今天這篇文章。
goose項目https://github.com/grangier/python-goose
直接上代碼截圖
1、新聞標題
2、新聞發布網址域名
3、新聞關鍵詞
4、新聞摘要
5、新聞詳情
提醒大家下,代碼中
from goose.text import StopWordsChinese
大家還是去掉吧,要不然運行會慢很多。我加上這行代碼是為了增加對中文分詞更好的支持。
更多內容
爬蟲
【視頻】手把手教你抓美女~?
當爬蟲遭遇驗證碼,怎么辦
知易行難
用詞云圖解讀“于歡案”
【視頻】于歡案之網民的意見(1)?
【視頻】有了selenium,小白也可以自豪的說:“去TMD的抓包、cookie”
【視頻】快來get新技能--抓包+cookie,爬微博不再是夢
【視頻教程】用python批量抓取簡書用戶信息
爬豆瓣電影名的小案例(附視頻操作)
爬豆瓣電影名的小案例2(附視頻操作)
python代理爬蟲抓豆瓣電影數據(一)
python代理爬蟲抓豆瓣電影數據(二)
用Python抓取百度地圖里的店名,地址和聯系方式
Python大法好:貼吧爬蟲大法
文本分析
python居然有情感??真的嗎??
基于共現發現人物關系的python實現
用python計算兩文檔相似度
神奇的python
憐香惜玉,我用python幫助辦公室文秘
逆天的量化交易分析庫-tushare
開扒皮自己微信的秘密
8行代碼實現微信聊天機器人
使用Python登錄QQ郵箱發送QQ郵件
最后編輯于 :
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。