由于 JavaScript 動(dòng)態(tài)渲染的頁(yè)面不止 Ajax 這一種,有些網(wǎng)站獲取數(shù)據(jù)并不包含Ajax請(qǐng)求,有些網(wǎng)站是對(duì) Ajax 進(jìn)行加密處理;為了解決這寫問(wèn)題,我們可以直接使用模擬瀏覽器運(yùn)行的方式來(lái)實(shí)現(xiàn),這樣就可以做到在瀏覽器中看到是什么樣,抓取的源碼就是什么樣,也就可見(jiàn)即可抓。
Python提供了許多模擬瀏覽器運(yùn)行的庫(kù),如 Selenium、Splash、PyV8、Ghost 等;我們接下來(lái)以 Selenium為例,那么要使用的話我們就必須要做相應(yīng)的安裝,這里要注意一點(diǎn)的是由于我們操作的是 谷歌瀏覽器,因此再使用這個(gè)庫(kù)之前必須要先安裝好 谷歌瀏覽器以及操作瀏覽器的驅(qū)動(dòng)執(zhí)行文件。
一、操作前準(zhǔn)備
- 安裝谷歌瀏覽器
- 通過(guò)命令安裝庫(kù):pip install selenium
- 下載谷歌瀏覽器驅(qū)動(dòng)并配置環(huán)境變量 http://npm.taobao.org/mirrors/chromedriver/
二、基本操作
- 自動(dòng)打開(kāi)百度首頁(yè)并休眠幾秒鐘后自動(dòng)關(guān)閉
from selenium import webdriver
import time
driver = webdriver.Chrome() # 創(chuàng)建實(shí)例
driver.get("http://www.baidu.com") # 請(qǐng)求百度首頁(yè)
time.sleep(6) # 睡眠六秒
driver.quit() # 退出瀏覽器
執(zhí)行代碼后即可看到如下效果:
image.png
-
接下來(lái)我們以一下網(wǎng)頁(yè)操作為例子(代碼中有詳細(xì)的注釋),先看網(wǎng)頁(yè)效果:
image.png
操作代碼如下(注:操作的組件即屬性的話在源碼中查看):
from selenium import webdriver
import time
# driver = webdriver.Chrome() # 創(chuàng)建實(shí)例
# driver.get("http://www.baidu.com") # 請(qǐng)求百度首頁(yè)
# time.sleep(6) # 睡眠六秒
# driver.quit() # 退出瀏覽器
# browser = webdriver.Chrome()
# browser.get("https://3416230579.github.io/page/index.html")
# 操作一
#elemt = browser.find_element_by_id("element_id") #根據(jù) id 獲取對(duì)象
# elemt = browser.find_element_by_name("element_id") #根據(jù) name 獲取對(duì)象
# print(elemt.tag_name) #返回標(biāo)簽名
# print(elemt.text) #返回標(biāo)簽的值
# elemt.send_keys("哈哈哈")#給標(biāo)簽輸入值
# 操作二
# elemt = browser.find_element_by_link_text("find_element_by_link_text")
# print(elemt.tag_name) #返回標(biāo)簽名
# print(elemt.text) #返回標(biāo)簽的值
# elemt.click()#點(diǎn)擊
# 操作三
# 利用 css選擇器 獲取 class='highlight' 標(biāo)簽對(duì)象并自動(dòng)填值
# elemt = browser.find_element_by_css_selector(".highlight")
# elemt.send_keys("啦啦啦")
# # 利用 xpath 獲取 id='xpathname' 標(biāo)簽對(duì)象并自動(dòng)填值
# elemt = browser.find_element_by_xpath(r'//*[@id="xpathname"]')
# elemt.send_keys("我的 xpath")
# 操作四
# 獲取跳轉(zhuǎn)后頁(yè)面的源碼
# time.sleep(2)
# elemt = browser.find_element_by_link_text("find_element_by_link_text")
# elemt.click()
# browser.switch_to_window(browser.window_handles[1])
# print(browser.page_source)
# 操作五
# 操作彈出框
# time.sleep(2)
# elem = browser.find_element_by_tag_name("button")
# elem.click()
# time.sleep(2)
# browser.switch_to_alert().accept() # 切換到彈出框操作
# 操作六
# 跳轉(zhuǎn)和回退操作
# time.sleep(2)
# elem = browser.find_element_by_link_text("forward_back")
# elem.click() # 點(diǎn)擊跳轉(zhuǎn)
# time.sleep(1)
# browser.back() # 點(diǎn)擊回退
# time.sleep(2)
# browser.forward() # 調(diào)到上一次點(diǎn)擊
# time.sleep(1)
# browser.back() # 回退
# 操作七
# Cookies 的操作
# browser = webdriver.Chrome()
# browser.get("https://www.baidu.com")
# print(browser.get_cookies()) # 輸出全部的 cookie 的信息
# 添加一個(gè) cookie
# browser.add_cookie({"name":"luchangyin", "domian":"www.baidu.com","value":"肥牛沖天"})
# print(browser.get_cookies())
# browser.delete_all_cookies() # 全部刪除
# print(browser.get_cookies())
# 操作八
# 自動(dòng)打開(kāi)百度并根據(jù)關(guān)鍵字搜索相關(guān)的內(nèi)容
from selenium.webdriver.common.keys import Keys
browser = webdriver.Chrome()
browser.get("https://www.baidu.com")
elem = browser.find_element_by_id("kw")
elem.send_keys("python爬蟲(chóng)") # 輸入
time.sleep(2) # 休眠
elem.send_keys(Keys.RETURN) # 回車
time.sleep(3)
browser.quit() # 關(guān)閉
三、實(shí)戰(zhàn) - 登錄知乎并爬取信息
1)先看觀察登錄界面的標(biāo)簽規(guī)律:
image.png
2)導(dǎo)入我們所需要的所有包:
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
3)根據(jù)效果圖編寫登錄代碼:
# 聲明瀏覽器對(duì)象
browser = webdriver.Chrome()
browser.get("https://www.zhihu.com/signin")
def login_zhihu(browser):
try:
#獲取登錄用戶名
elem = browser.find_element_by_name("username")
elem.clear() # 清空
elem.send_keys("用戶名") # 自動(dòng)填值
elem.send_keys(Keys.RETURN)#回車
time.sleep(3)
#獲取登錄密碼
elem = browser.find_element_by_name("password")
elem.clear()
elem.send_keys("密碼")
elem.send_keys(Keys.RETURN)#回車
time.sleep(2)
print("開(kāi)始登陸...")
#Button SignFlow-submitButton Button--primary Button--blue
elem = browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue")
#elem = browser.find_element_by_xpath(r'//button[@class="Button SignFlow-submitButton Button--primary Button--blue"]')
elem.click()
print("開(kāi)始休眠...")
#顯示等待 選擇“首頁(yè)”選項(xiàng)
element = WebDriverWait(browser, 15).until(EC.title_contains(u'首頁(yè)'))
print("已選擇...")
except TimeoutException:
print("Time Out")
except NoSuchElementException:
print("No Element")
-
觀察登陸后的頁(yè)面:
image.png - 獲取代碼如下:
# url 去重
urls = set()
def get_information(browser):
print("開(kāi)始獲取信息。。。")
elems = browser.find_elements_by_css_selector(".ContentItem-title")
for elem in elems:
link_elem = elem.find_element_by_tag_name("a")
if link_elem.text in urls:
pass
else:
print(link_elem.text) # 標(biāo)題
print(link_elem.get_attribute("href")) # 鏈接
urls.add(link_elem.get_attribute("href"))
6)將進(jìn)度條自動(dòng)下拉到最底部實(shí)現(xiàn) js 的加載:
# 滾動(dòng)加載
def scroll_load(browser):
#利用 execute_script() 方法將進(jìn)度條下拉到最底部
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
browser.implicitly_wait(2) # 隱式等待
7)編寫主函數(shù)并調(diào)用:
# 主主函數(shù)
def main():
login_zhihu(browser) # 登錄函數(shù)
for i in range(3): #滾動(dòng)三次
get_information(browser) # 獲取標(biāo)題與鏈接
scroll_load(browser) # 滾動(dòng)
time.sleep(1) # 休眠
# 函數(shù)入口調(diào)用
if __name__ == '__main__':
main()
input("按任意鍵退出-> ")
browser.quit()
運(yùn)行結(jié)果如下:
image.png
8)當(dāng)使用有界面爬取少量頁(yè)面信息的方式還好,但是爬取很多頁(yè)面的話那可就不好了-太多彈出窗口頁(yè)面,值得注意的是: 從 Chrome 59 開(kāi)始已經(jīng)開(kāi)始支持 Headless 模式,即無(wú)界面模式,這樣爬取的時(shí)候就無(wú)需彈出瀏覽器界面了,接下來(lái)我們簡(jiǎn)單的去使用以下:
chrome_options = webdriver.ChromeOptions() # 獲取 ChromeOptions 對(duì)象
chrome_options.add_argument('--headless') # 添加 headless 參數(shù)
browser = webdriver.Chrome(chrome_options=chrome_options) # 初始化 Chrome 對(duì)象
browser.get(r"http://www.baidu.com/")
# 截屏
browser.get_screenshot_as_file("C:\\Users\\Administrator\\Desktop\\aaa\\daima\\lcy.jpg")
html = browser.page_source # 這里是源碼,接下來(lái)就可以使用 正則 或者 xpath 表達(dá)式解析了
print("成功提取源碼-> ", html)
執(zhí)行程序之后輸出源碼的同時(shí)在制定的地址中可以看到截取的圖片,效果如下:
image.png
經(jīng)過(guò)這次實(shí)戰(zhàn),我相信同學(xué)們對(duì) Selenium 有一定的了解了,接下來(lái)不妨去爬取一下 "騰訊視屏的評(píng)論" 練練手吧!嘿嘿,加油哦!