make plans as Bullet Journal
scrapy crawl zhihu.com:
login
header
post_data: {
username:
password:
captcha:
}
驗證碼模擬登陸解析
itemloader
解析question
解析answer
注意:問題url中,知乎現(xiàn)在有兩個版本,一個是 url 中只有 question_id,另一個版本是帶有answer和 answer_id 的url,這兩個版本均解析正常create table in mysql
沒完成:將 item 數(shù)據(jù)通過 pipeline 保存到 mysql 中
scrapy 是基于 twisted 的異步框架,所有使用 Request 時,必須指定一個回調函數(shù) callback,默認調用parse
如果Request函數(shù)中的回調函數(shù)沒有調用,可能的愿意就是被 scrapy 中默認的 Offsite Spider Middleware 過濾掉了,只需要加上 dont_filter=True 參數(shù)即可,或者將 allowed_domains 設置為空