這里只介紹方法,代碼在鏈接內(nèi),代碼中都有詳細(xì)的注釋
-
發(fā)送郵件,這里選擇發(fā)送網(wǎng)頁郵件,其他郵件發(fā)送可以看廖雪峰老師的教程
- 郵件協(xié)議為SMTP,端口為25
- 需要模塊 email(構(gòu)造郵件) smtplib(發(fā)送郵件)
- 代碼傳送門
- 無具體注意事項
- xpath爬取豆瓣音樂
不利用框架,網(wǎng)頁解析可以用正則(re),lxml或者bs,正則爬蟲確實(shí)比較費(fèi)勁,需要仔細(xì)點(diǎn),其中l(wèi)xml解析快,語法也簡單,因此選用lxml
-
/ 從根節(jié)點(diǎn)開始掃描
// 從當(dāng)前節(jié)點(diǎn)開始向后掃描
/text() 獲取該節(jié)點(diǎn)的文本內(nèi)容
. 選擇當(dāng)前節(jié)點(diǎn)
.. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
選取豆瓣音樂的前250條(豆瓣圖書類似)
安裝xpth helper插件可以copy xpth,能檢查自己寫的對不對
需要模塊 lxml 一般都利用其中的etree.HTML
-
爬取豬八戒數(shù)據(jù)并切防止ip被封,并把數(shù)據(jù)存入excel中
-
模擬登錄知乎
-
分析朋友QQ空間狀態(tài)
- 需要用到的模塊selenium lxml wordcloud(詞云) matplotlib(生成詞云圖片) jieba分詞
- 需要注意利用webdriver選取ifame,否則出現(xiàn)可能找不到控件問題,具體代碼有注釋driver.switch_to.frame
- 需要的ttf字體傳送門
- 代碼傳送門
- 上述代碼是對指定的QQ好友空間內(nèi)容獲取,寫入文件,然后才用詞云進(jìn)行分析
- 詞云分析傳送門其實(shí)用不用結(jié)巴分詞都可以,詞云分析這里就簡單的展示了一下,沒有對數(shù)據(jù)進(jìn)行清洗
-
爬取指定人微博數(shù)據(jù)
- 需要的模塊 Selenium lxml
- 需要模擬登錄微博,然后再對指定人的微博頁進(jìn)行爬取數(shù)據(jù),不登錄微博只能爬取一頁數(shù)據(jù),貌似現(xiàn)在第一次在瀏覽器登錄微博后會有個手機(jī)驗證,此時模擬不是第一次在該瀏覽器登錄
- 爬取完后再通過之前的詞云分析代碼分析
- 代碼傳送門
-
根據(jù)輸入條件爬取相親網(wǎng)站上的美女并下載對應(yīng)美圖和記錄詳細(xì)信息
- 需要用到的模塊 Selenium
- 沒有下一頁,往下滑能一直加載,需要F12到network中查看,對應(yīng)有page屬性的其實(shí)
- 代碼傳送門
-
爬取前程無憂上的招聘信息