目前該網(戳這里~~)采用較簡單的結構:
1,頁碼遞增
2,動態(tài)渲染個人頁面
好了,跟小編一起分析分析
頁面結構
不設置條件點擊搜索(這樣會出來全部數據,僅對該類站而言)
one
第一頁的URL:
http://www.cfw.cn/rencai/search/?keywords=&keyType=1&JobAreaID=&invite_posttimeg=&request_experience=&request_edu=&salaryg=&AreaName=&page=1
發(fā)現URL很長,其實存在不必要的參數,點擊下一頁
第二頁URL:
http://www.cfw.cn/rencai/Search?page=2&keytype=1
少了很多,刪掉“&keytype=1”刷新,發(fā)現網頁正常顯示,說明必須參數是page=num,
接下來就可以構造每一頁的URL了
http://www.cfw.cn/rencai/Search?page=num
按F12,檢查一份的簡歷鏈接地址
查看簡歷鏈接
點開此簡歷
簡歷內信息
http://www.cfw.cn/resumes/?ids=id
個人頁面內容加載方式
打開個人頁面,按F12,查看頁面源代碼如圖
個人的信息并不在頁面上,說明這不是一個靜態(tài)頁面,個人信息通過別的方式渲染進來,這就需要自己尋找了
找到一個好朋友~~,小編發(fā)現show_resume/這個請求里返回了這份簡歷的內容
好朋友
那就簡單啦,攜帶參數向請求地址發(fā)POST請求就獲得了信息,如下圖
請求方法
簡歷信息
返回的信息格式比較簡單,json.loads()一下 ?字典和正則表達式就可以提取了
福利:服務器性能較好,不封ip,不封賬號and so on,沒有煩人的反爬蟲限制著,那玩起來就舒服多啦
若查看個人基本信息不注冊即可,聯(lián)系方式需要開通服務
到此結束,小編要去洗澡了,趕快鞭策你的代碼吧,,哈哈哈哈