爬蟲入門(二):單線程爬蟲

date: 2016-09-25 17:38:42

python

Requests介紹與安裝

  • Windows環境下:pip install requests
  • Linux環境下:sudo pip install requests

第三方庫安裝技巧

  • 少使用easy_install因為只能安裝不能卸載
  • 多用pip方式安裝
  • 撞墻了怎么辦?請戳->第三方庫安裝技巧

將下載的后綴為whl的文件改為zip, 解壓文件,獲得requests文件,拷貝到C盤的python/lib文件夾中。

第一個網絡爬蟲

Requests獲取網頁源代碼

  • 直接獲取源代碼
  • 修改http頭獲取源代碼

爬取python吧首頁的源代碼
<pre>
import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text
</pre>

單線程爬蟲的基本原理:使用requests獲取網頁源代碼,再使用正則表達式匹配出感興趣的內容。

向網頁提取數據Get與Post

  • Get是從服務器上獲取數據
  • Post是向服務器傳送數據
  • Get通過構造url中的參數來實現功能

分析目標網站

Requests表單提交功能

  • 核心方法:Requests.post
  • 核心步驟:構造表單-提交表單-獲取返回信息
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容