date: 2016-09-25 17:38:42
python
Requests介紹與安裝
- Windows環境下:pip install requests
- Linux環境下:sudo pip install requests
第三方庫安裝技巧
- 少使用easy_install因為只能安裝不能卸載
- 多用pip方式安裝
- 撞墻了怎么辦?請戳->第三方庫安裝技巧
將下載的后綴為whl的文件改為zip, 解壓文件,獲得requests文件,拷貝到C盤的python/lib文件夾中。
第一個網絡爬蟲
Requests獲取網頁源代碼
- 直接獲取源代碼
- 修改http頭獲取源代碼
爬取python吧首頁的源代碼
<pre>
import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text
</pre>
單線程爬蟲的基本原理:使用requests獲取網頁源代碼,再使用正則表達式匹配出感興趣的內容。
向網頁提取數據Get與Post
- Get是從服務器上獲取數據
- Post是向服務器傳送數據
- Get通過構造url中的參數來實現功能
分析目標網站
- 網站地址:https://www.crowdfunder.com/browse/deals
- 分析工具:Chrome-審核元素-Network
Requests表單提交功能
- 核心方法:Requests.post
- 核心步驟:構造表單-提交表單-獲取返回信息