python 知乎爬蟲

依然是使用requests
主要的問題是模擬登陸:

a.png

通過chrome開發(fā)者工具可以了解到,登陸的數(shù)據(jù)有這么一些,
但是根據(jù)我的觀察,有時(shí)候需要用到驗(yàn)證碼,所以,我的爬蟲一律包含驗(yàn)證碼,想要嘗試驗(yàn)證碼自動(dòng)識(shí)別的同學(xué),可以移步我另一篇文章簡(jiǎn)單驗(yàn)證碼識(shí)別,雖然那篇文章只講數(shù)字驗(yàn)證碼的識(shí)別,但是基本思想是一樣的。
言歸正傳,__xsrf這個(gè)數(shù)據(jù)在登陸網(wǎng)頁上可以找到,所以可以通過正則找出來。

登陸函數(shù)大概是這樣的:

Paste_Image.png

函數(shù)初次登陸,需要賬號(hào)和密碼,之后,程序會(huì)自動(dòng)記錄一個(gè)cookie文件,在當(dāng)前文件夾下,下次運(yùn)行程序就不需要再輸入密碼和賬號(hào)了,讀寫cookie文件的程序大概是這樣:

Paste_Image.png

下載源碼后,基本操作是:
先需要實(shí)例化:
from python_zhihu import ZhiHu
zh=ZhiHu()
下載某個(gè)問題下的高贊答案:
zh.get_text('填入網(wǎng)址')
下載某個(gè)問題下所有的圖片:
zh,get_img('url')

源碼:https://github.com/ladingwu/python_zhihu

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 環(huán)境:python3.x外部依賴包:requestsgithub項(xiàng)目地址 主要的問題:模擬登陸: 知乎現(xiàn)在改用ht...
    拉丁吳閱讀 5,421評(píng)論 6 27
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,816評(píng)論 25 708
  • 會(huì)生活的人很多,有趣的靈魂少之又少。 電影講述的故事就是告訴我們,世界上真的有人和你一樣對(duì)生活充滿了樂趣,你所有的...
    秤心閱讀 416評(píng)論 0 0
  • 想不通的事情平常心去對(duì)待,傲慢與偏見學(xué)會(huì)調(diào)伏~你會(huì)發(fā)現(xiàn)每一天都是美好的 今天在跟朋友閑聊時(shí),好久不見的一個(gè)姑娘說:...
    白瑪拉姆閱讀 766評(píng)論 0 5
  • 文/李璇 做為一名工科研究僧,在每天被導(dǎo)師逼迫著要實(shí)驗(yàn)數(shù)據(jù)并且苦逼的做實(shí)驗(yàn)的情況下,我每天都堅(jiān)持給自己做一份早餐,...
    justjust閱讀 3,661評(píng)論 13 17