scrapy 之 中國服裝人才網簡歷

目前該網(戳這里~~)采用較簡單的結構:

1,頁碼遞增

2,動態(tài)渲染個人頁面

好了,跟小編一起分析分析

頁面結構

不設置條件點擊搜索(這樣會出來全部數據,僅對該類站而言)

one

第一頁的URL:

http://www.cfw.cn/rencai/search/?keywords=&keyType=1&JobAreaID=&invite_posttimeg=&request_experience=&request_edu=&salaryg=&AreaName=&page=1

發(fā)現URL很長,其實存在不必要的參數,點擊下一頁

第二頁URL:

http://www.cfw.cn/rencai/Search?page=2&keytype=1

少了很多,刪掉“&keytype=1”刷新,發(fā)現網頁正常顯示,說明必須參數是page=num,

接下來就可以構造每一頁的URL了

http://www.cfw.cn/rencai/Search?page=num

按F12,檢查一份的簡歷鏈接地址

查看簡歷鏈接

點開此簡歷

簡歷內信息

對比標簽href屬性,說明個人頁面的鏈接是

http://www.cfw.cn/resumes/?ids=id

個人頁面內容加載方式

打開個人頁面,按F12,查看頁面源代碼如圖

個人的信息并不在頁面上,說明這不是一個靜態(tài)頁面,個人信息通過別的方式渲染進來,這就需要自己尋找了

找到一個好朋友~~,小編發(fā)現show_resume/這個請求里返回了這份簡歷的內容

好朋友

那就簡單啦,攜帶參數向請求地址發(fā)POST請求就獲得了信息,如下圖

請求方法

簡歷信息

返回的信息格式比較簡單,json.loads()一下 ?字典和正則表達式就可以提取了

福利:服務器性能較好,不封ip,不封賬號and so on,沒有煩人的反爬蟲限制著,那玩起來就舒服多啦

若查看個人基本信息不注冊即可,聯(lián)系方式需要開通服務

到此結束,小編要去洗澡了,趕快鞭策你的代碼吧,,哈哈哈哈

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現,斷路器,智...
    卡卡羅2017閱讀 134,991評論 19 139
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,523評論 25 708
  • 把它留給浩瀚的海洋,留給山川河流,還是留給廣袤無際的天空? 它是想象的留存,擁抱的烙印,親吻的鐫刻! ...
    You_raise_me_up閱讀 302評論 0 0
  • 【cDay計劃】 HOW→每天通過一張照片和一段文字記錄自己的生活,或悲傷或歡樂,或抒情或感恩,總之將來的某一天看...
    向應昌閱讀 377評論 0 1