依然是使用requests
主要的問題是模擬登陸:
a.png
通過chrome開發(fā)者工具可以了解到,登陸的數(shù)據(jù)有這么一些,
但是根據(jù)我的觀察,有時(shí)候需要用到驗(yàn)證碼,所以,我的爬蟲一律包含驗(yàn)證碼,想要嘗試驗(yàn)證碼自動(dòng)識(shí)別的同學(xué),可以移步我另一篇文章簡(jiǎn)單驗(yàn)證碼識(shí)別,雖然那篇文章只講數(shù)字驗(yàn)證碼的識(shí)別,但是基本思想是一樣的。
言歸正傳,__xsrf這個(gè)數(shù)據(jù)在登陸網(wǎng)頁上可以找到,所以可以通過正則找出來。
登陸函數(shù)大概是這樣的:
Paste_Image.png
函數(shù)初次登陸,需要賬號(hào)和密碼,之后,程序會(huì)自動(dòng)記錄一個(gè)cookie文件,在當(dāng)前文件夾下,下次運(yùn)行程序就不需要再輸入密碼和賬號(hào)了,讀寫cookie文件的程序大概是這樣:
Paste_Image.png
下載源碼后,基本操作是:
先需要實(shí)例化:
from python_zhihu import ZhiHu
zh=ZhiHu()
下載某個(gè)問題下的高贊答案:
zh.get_text('填入網(wǎng)址')
下載某個(gè)問題下所有的圖片:
zh,get_img('url')