Selenium 的基本使用 - 登錄知乎并爬取信息

由于 JavaScript 動態(tài)渲染的頁面不止 Ajax 這一種,有些網(wǎng)站獲取數(shù)據(jù)并不包含Ajax請求,有些網(wǎng)站是對 Ajax 進(jìn)行加密處理;為了解決這寫問題,我們可以直接使用模擬瀏覽器運行的方式來實現(xiàn),這樣就可以做到在瀏覽器中看到是什么樣,抓取的源碼就是什么樣,也就可見即可抓。
Python提供了許多模擬瀏覽器運行的庫,如 Selenium、Splash、PyV8、Ghost 等;我們接下來以 Selenium為例,那么要使用的話我們就必須要做相應(yīng)的安裝,這里要注意一點的是由于我們操作的是 谷歌瀏覽器,因此再使用這個庫之前必須要先安裝好 谷歌瀏覽器以及操作瀏覽器的驅(qū)動執(zhí)行文件。
一、操作前準(zhǔn)備
  1. 安裝谷歌瀏覽器
  2. 通過命令安裝庫:pip install selenium
  3. 下載谷歌瀏覽器驅(qū)動并配置環(huán)境變量 http://npm.taobao.org/mirrors/chromedriver/
二、基本操作
  1. 自動打開百度首頁并休眠幾秒鐘后自動關(guān)閉
from selenium import webdriver
import time

driver = webdriver.Chrome() # 創(chuàng)建實例
driver.get("http://www.baidu.com") # 請求百度首頁
time.sleep(6)   # 睡眠六秒
driver.quit()   # 退出瀏覽器

執(zhí)行代碼后即可看到如下效果:


image.png
  1. 接下來我們以一下網(wǎng)頁操作為例子(代碼中有詳細(xì)的注釋),先看網(wǎng)頁效果:


    image.png

    操作代碼如下(注:操作的組件即屬性的話在源碼中查看):

from selenium import webdriver
import time

# driver = webdriver.Chrome()   # 創(chuàng)建實例
# driver.get("http://www.baidu.com") # 請求百度首頁
# time.sleep(6) # 睡眠六秒
# driver.quit() # 退出瀏覽器

# browser = webdriver.Chrome()
# browser.get("https://3416230579.github.io/page/index.html")

# 操作一
#elemt = browser.find_element_by_id("element_id") #根據(jù) id 獲取對象
# elemt = browser.find_element_by_name("element_id") #根據(jù) name 獲取對象

# print(elemt.tag_name) #返回標(biāo)簽名
# print(elemt.text) #返回標(biāo)簽的值

# elemt.send_keys("哈哈哈")#給標(biāo)簽輸入值


# 操作二
# elemt = browser.find_element_by_link_text("find_element_by_link_text")
# print(elemt.tag_name) #返回標(biāo)簽名
# print(elemt.text) #返回標(biāo)簽的值
# elemt.click()#點擊


# 操作三
# 利用 css選擇器 獲取 class='highlight' 標(biāo)簽對象并自動填值
# elemt = browser.find_element_by_css_selector(".highlight")
# elemt.send_keys("啦啦啦")

# # 利用 xpath 獲取 id='xpathname' 標(biāo)簽對象并自動填值
# elemt = browser.find_element_by_xpath(r'//*[@id="xpathname"]')
# elemt.send_keys("我的 xpath")


# 操作四
# 獲取跳轉(zhuǎn)后頁面的源碼
# time.sleep(2)
# elemt = browser.find_element_by_link_text("find_element_by_link_text")
# elemt.click()
# browser.switch_to_window(browser.window_handles[1])
# print(browser.page_source)


# 操作五
# 操作彈出框
# time.sleep(2)
# elem = browser.find_element_by_tag_name("button")
# elem.click()

# time.sleep(2)
# browser.switch_to_alert().accept()  # 切換到彈出框操作


# 操作六
# 跳轉(zhuǎn)和回退操作
# time.sleep(2)
# elem = browser.find_element_by_link_text("forward_back")
# elem.click()  # 點擊跳轉(zhuǎn)

# time.sleep(1)
# browser.back()  # 點擊回退  

# time.sleep(2)
# browser.forward()  # 調(diào)到上一次點擊
# time.sleep(1)
# browser.back()  # 回退


# 操作七
# Cookies 的操作
# browser = webdriver.Chrome()
# browser.get("https://www.baidu.com")
# print(browser.get_cookies()) # 輸出全部的 cookie 的信息
# 添加一個 cookie 
# browser.add_cookie({"name":"luchangyin", "domian":"www.baidu.com","value":"肥牛沖天"})
# print(browser.get_cookies())
# browser.delete_all_cookies()  # 全部刪除
# print(browser.get_cookies())


# 操作八
# 自動打開百度并根據(jù)關(guān)鍵字搜索相關(guān)的內(nèi)容
from selenium.webdriver.common.keys import Keys

browser = webdriver.Chrome()
browser.get("https://www.baidu.com")
elem = browser.find_element_by_id("kw")
elem.send_keys("python爬蟲")  # 輸入
time.sleep(2)  # 休眠
elem.send_keys(Keys.RETURN)  # 回車


time.sleep(3)
browser.quit() # 關(guān)閉


三、實戰(zhàn) - 登錄知乎并爬取信息

1)先看觀察登錄界面的標(biāo)簽規(guī)律:


image.png

2)導(dǎo)入我們所需要的所有包:

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException


3)根據(jù)效果圖編寫登錄代碼:

# 聲明瀏覽器對象
browser = webdriver.Chrome()
browser.get("https://www.zhihu.com/signin")

def login_zhihu(browser):
    try:
        #獲取登錄用戶名
        elem = browser.find_element_by_name("username")
        elem.clear()  # 清空
        elem.send_keys("用戶名")  # 自動填值
        elem.send_keys(Keys.RETURN)#回車

        time.sleep(3)

        #獲取登錄密碼
        elem = browser.find_element_by_name("password")
        elem.clear()
        elem.send_keys("密碼")
        elem.send_keys(Keys.RETURN)#回車

        time.sleep(2)

        print("開始登陸...")
        #Button SignFlow-submitButton Button--primary Button--blue
        elem = browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue")
        #elem = browser.find_element_by_xpath(r'//button[@class="Button SignFlow-submitButton Button--primary Button--blue"]')
        elem.click()

        print("開始休眠...")
        #顯示等待   選擇“首頁”選項
        element = WebDriverWait(browser, 15).until(EC.title_contains(u'首頁'))
        print("已選擇...")

    except TimeoutException:
        print("Time Out")
    except NoSuchElementException:
        print("No Element")


  1. 觀察登陸后的頁面:


    image.png
  2. 獲取代碼如下:
# url 去重
urls = set()

def get_information(browser):
    print("開始獲取信息。。。")
    elems = browser.find_elements_by_css_selector(".ContentItem-title")
    for elem in elems:
        link_elem = elem.find_element_by_tag_name("a")
        if link_elem.text in urls:
            pass
        else:
            print(link_elem.text)  # 標(biāo)題
            print(link_elem.get_attribute("href"))  # 鏈接
            urls.add(link_elem.get_attribute("href"))


6)將進(jìn)度條自動下拉到最底部實現(xiàn) js 的加載:

# 滾動加載
def scroll_load(browser):
    #利用 execute_script() 方法將進(jìn)度條下拉到最底部
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    browser.implicitly_wait(2)  # 隱式等待


7)編寫主函數(shù)并調(diào)用:

# 主主函數(shù)
def main():
    login_zhihu(browser)  # 登錄函數(shù)
    for i in range(3):  #滾動三次
        get_information(browser)  # 獲取標(biāo)題與鏈接
        scroll_load(browser)  # 滾動
        time.sleep(1)  # 休眠


# 函數(shù)入口調(diào)用
if __name__ == '__main__':
    main()

    input("按任意鍵退出-> ")
    browser.quit()

運行結(jié)果如下:


image.png

8)當(dāng)使用有界面爬取少量頁面信息的方式還好,但是爬取很多頁面的話那可就不好了-太多彈出窗口頁面,值得注意的是: 從 Chrome 59 開始已經(jīng)開始支持 Headless 模式,即無界面模式,這樣爬取的時候就無需彈出瀏覽器界面了,接下來我們簡單的去使用以下:

chrome_options = webdriver.ChromeOptions()  # 獲取 ChromeOptions 對象
chrome_options.add_argument('--headless')  # 添加 headless 參數(shù)
browser = webdriver.Chrome(chrome_options=chrome_options)  # 初始化 Chrome 對象
browser.get(r"http://www.baidu.com/")
# 截屏
browser.get_screenshot_as_file("C:\\Users\\Administrator\\Desktop\\aaa\\daima\\lcy.jpg")
html = browser.page_source  # 這里是源碼,接下來就可以使用 正則 或者 xpath 表達(dá)式解析了
print("成功提取源碼-> ", html)


執(zhí)行程序之后輸出源碼的同時在制定的地址中可以看到截取的圖片,效果如下:


image.png

經(jīng)過這次實戰(zhàn),我相信同學(xué)們對 Selenium 有一定的了解了,接下來不妨去爬取一下 "騰訊視屏的評論" 練練手吧!嘿嘿,加油哦!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,443評論 6 532
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,530評論 3 416
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,407評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,981評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,759評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,204評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,263評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,415評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,955評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,650評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,892評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,675評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,967評論 2 374

推薦閱讀更多精彩內(nèi)容