網絡爬蟲

我們已經從信息時代跨入了大數據時代,不管是養豬還是開網店,都是要基于信息和大數據的,嗯!


信息時代到大數據時代,信息量越來越大,互聯網在急速膨脹,我們可以獲取大量的信息,如何有效地收集、提取和利用信息成為了一個巨大的挑戰。

搜索引擎成為了我們檢索信息的入口,網絡爬蟲就是搜索引擎的重要組成部分。同時,網絡爬蟲也是我們從大數據中提取有價值信息的重要方式。

1、什么是爬蟲

按照一定規則,自動抓取網絡信息的機器人。搜索引擎需要收錄大量的網站網頁,并對網頁按照信息進行索引,這樣,用戶使用搜索引擎檢索的時候就能得到一個結果集。這些網頁就是通過 網絡爬蟲爬取的。爬蟲 爬取頁面,然后對頁面信息進行處理和索引,供搜索引擎使用,這種類型的爬蟲是通用型爬蟲。

通用型爬蟲之外還可以編寫聚焦型爬蟲,爬取指定主題的相關網頁,用來做主題相關的數據分析。爬蟲還可以抓取特定網站和應用的數據,分析網站和應用的情況等。

爬蟲是個機器人程序,需要模擬用戶的操作和訪問方式,在模擬的基礎上實現自動化的訪問。網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。通過指定url,直接返回給用戶所需要的數據, 而不需要一步步人工去操縱瀏覽器獲取。

2、通用型網絡爬蟲

搜索引擎的好壞很大程度上取決于爬蟲系統的工作結果,爬蟲收集網頁、提取信息、進行信息索引,SEO優化,也就是需要對主流搜索引擎的爬蟲友好,并且突出頁面關鍵字信息給爬蟲。


3、特定功能的爬蟲

對于特定類型的爬蟲,可以有很多用途,比如:各種類型的投票。。。;自動的搶票功能。。。;輿情監控;行業咨詢報告等

投票搶票在工作中如果不是特定類型的工作,是沒有太大用途的,但是行業咨詢報告,在決策中是很有用途的,不管是針對一個行業還是針對一個公司、一個應用,都可以進行數據分析,以便作出相應決策來應對。下面介紹使用的兩種開發方式,滿足不同場景的數據需求。

4、在框架(scrapy)中開發

一般我們需要開發的爬蟲屬于特定功能爬蟲,一般是用來收集數據,做數據分析的。Python處理HTTP請求、HTML、json、文本數據還是相當有優勢的,所以選擇使用 python 的爬蟲框架來開發爬蟲。

Scrapy 是為了爬取網站數據,提取結構性數據而編寫的應用框架,scrapy 用途廣泛,可以用于數據挖掘、監測和自動化測試等。

整體架構大致如下:


1、通過繼承 spider,實現 parse 方法,就可以實現網頁下載,如果 parse 里面返回 Request(可以制定 parse 方法)可以實現二級頁面的抓取和分析。

2、抓取網頁后,在parse 里面 可以通過 xpath 定位頁面元素,抓取頁面信息

3、通過item 存儲 需要獲取的數據對象,在parse 中根據頁面信息生成item

4、抓取頁面后進入 pipeline,處理 item,保存數據或者進行計算等

通過框架抓取頁面、分析頁面元素方便,可以高效地開發特定功能的爬蟲。

5、用 python requests 開發

有些情況,需要抓取和分析的頁面可以通過接口獲得,頁面比較有規律,這個時候沒必要用到爬蟲框架,使用 requests 就可以方便地完成數據抓取。Requests 是python 中的非轉基因 HTTP 庫,人類可以安全使用 ??。Requests 可以方便地實現接口調用、解析json數據、獲取信息,開發和運行迅速。


個人認為,爬蟲技術是一門非常有用的技術,這么技術建立在 xml、html語言結構、http協議,xpath 處理等基礎之上,通過學習爬蟲技術可以對相應的底層知識了解更深,再深入還有分布式爬蟲等技術。爬蟲等用途也比較廣泛,在工作和學習中有很大的幫助。

以上,是工作中遇到的問題和相關的思考、實踐,嗯,加油

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容

  • 1 前言 作為一名合格的數據分析師,其完整的技術知識體系必須貫穿數據獲取、數據存儲、數據提取、數據分析、數據挖掘、...
    whenif閱讀 18,102評論 45 523
  • 本內容為《用Python寫網絡爬蟲》書籍內容,有興趣的讀者可以購買本書,本章的代碼皆可在Python3中運行。為了...
    海人為記閱讀 2,262評論 0 5
  • 我控制不住自己不去想你,每時每刻,呼吸與想你同在。你已經成為我生活中很重要很重要的一部分了。
    阿東同學閱讀 138評論 0 0
  • 我確定,自己現在就是在寫日記,不是寫文章,咋了,難道不可以么? 現在很多標題黨,喜歡在文字上做手腳,我偏要反著來,...
    順崎自然閱讀 578評論 21 11
  • -1- 最近微博上流行一種游戲,給男朋友連續發三遍“我們分手吧”,然后曬出聊天截圖。 標準例子都是女生說要分手后,...
    黎飯飯閱讀 915評論 5 6