引用:https://germey.gitbooks.io/python3webspider/content/2.2-Web%E7%BD%91%E9%A1%B5%E5%9F%BA%E7%A1%80.html?
reference:https://germey.gitbooks.io/python3webspider/content/1.2.3-ChromeDriver%E7%9A%84%E5%AE%89%E8%A3%85.html
建立文件夾:mkdir python3
建立文件 vim python3.txt
? ? ? ? ? ? vim:只讀方式打開([O]), 直接編輯((E)), 恢復((R)), 退出((Q)), 中止((A)):
流程:抓取頁面、分析頁面、存儲數據
(1)請求庫的安裝:
1.爬取頁面:使用python3的第三方庫來請求http網頁內容,庫為:Requests、Selenium、Aiotttp 等;
? ? 安裝過程:pip3 install requests? 和 wheel? python3驗證:import requests? 不報錯;
2.Selenium 是一個自動化測試工具,利用它我們可以驅動瀏覽器執行特定的動作,如點擊、下拉等等操作,對于一些 JavaScript 渲染的頁
? 面來說,此種抓取方式非常有效;
? ? 安裝過程:pip install selenium? ? ? pthon3? import selenium? 不報錯就可以了;
? ? selenium與Chrome關聯:1.查找chrome號:如:版本 70.0.3538.77(正式版本) (64 位);進入網站下載對應版本的chromedriver;
? https://sites.google.com/a/chromium.org/chromedriver/downloads? (網站要翻墻的);在 Windows 下,建議直接將? ?
chromedriver.exe 文件拖到 Python 的 Scripts 目錄下:chromedriver? 就可以了 沒報錯。
? ? 隨后再在python程序中測試,執行如下 Python 代碼:出現空白chrome網頁
? ? ? from selenium import webdriver
? ? ? ? browser = webdriver.Chrome()
3.Aiohttp的安裝:合理安排時間做其他的事情
? 安裝:pip install aiohttp
? 另外官方還推薦安裝如下兩個庫,一個是字符編碼檢測庫 cchardet,另一個是加速 DNS 解析庫 aiodns,安裝命令如下:比如維護一個?
代理池,利用異步方式檢測大量代理的運行狀況,極大提高效率。
(2)解析庫的安裝
? ? 抓取下網頁代碼之后,下一步就是從網頁中提取信息,LXML、BeautifulSoup、PyQuery 等庫-使用的是LXML、BeautifulSoup、PyQuery
解析方法
安裝 pip3 install lxml? 測試:>>> import lxml
pip3 install beautifulsoup4? 測試:from bs4 import BeautifulSoup soup = BeautifulSoup('<p>Hello</p>', 'lxml') print
(soup.p.string)? 結果為:hello
? 安裝:pip3 install pyquery? 驗證:>>> import pyquery
? Tesserocr的安裝:識別二維碼:http://digi.bib.uni-mannheim.de/tesseract/? 之后安裝pip3Tesserocr : install tesserocr? ?
pillow
寫到這里真的就不想學了,感覺沒有時間了。想學的可以看著引用的用就是了,還是蠻詳細的。
我還是學生物的,忘記了老本行了都。感覺學的都不是很精確,但是總覺得還是懂一點點的。就這樣吧。。。