6個(gè)工具讓網(wǎng)頁(yè)抓取變得輕而易舉

姓名:孟永超? ? ?學(xué)號(hào):22011110013

轉(zhuǎn)自:https://blog.csdn.net/pypyai_/article/details/115349694?spm=1001.2014.3001.5501

【嵌牛導(dǎo)讀】

任何數(shù)據(jù)科學(xué)項(xiàng)目都離不開(kāi)數(shù)據(jù)。沒(méi)有數(shù)據(jù)就沒(méi)有“數(shù)據(jù)科學(xué)”。大多數(shù)數(shù)據(jù)科學(xué)項(xiàng)目中用于分析和構(gòu)建機(jī)器學(xué)習(xí)模型的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,但有時(shí)數(shù)據(jù)也來(lái)自是網(wǎng)絡(luò)。

你可以從某個(gè)網(wǎng)頁(yè)收集某種產(chǎn)品的數(shù)據(jù),或者從社交媒體中發(fā)現(xiàn)某種模式,也許是情感分析。不管您為什么收集數(shù)據(jù)或打算如何使用數(shù)據(jù),從Web收集數(shù)據(jù)(Web抓?。┒际且豁?xiàng)非常繁瑣的工作。您需要做一些繁瑣的工作事情才能達(dá)到目的。

Web抓取是您作為數(shù)據(jù)科學(xué)家需要掌握的重要技能之一。為了讓得到的結(jié)果準(zhǔn)確并有意義,您需要知道如何查找收集和清理數(shù)據(jù)。

【嵌牛鼻子】數(shù)據(jù)科學(xué)、收集數(shù)據(jù)、Web抓取

【嵌牛提問(wèn)】 什么是Web抓取?如何查找,收集和清理數(shù)據(jù)

【嵌牛正文】?

Web抓取一直是法律的灰色領(lǐng)域。在我們深入研究數(shù)據(jù)提取工具之前,我們需要確保您的活動(dòng)是完全合法的。2020年,美國(guó)法院將網(wǎng)上抓取公開(kāi)數(shù)據(jù)完全合法化。也就是說(shuō),如果任何人都可以在線找到數(shù)據(jù)(例如Wiki文章),則抓取網(wǎng)頁(yè)也是合法的。

但是,當(dāng)您這樣做時(shí),請(qǐng)確保:

1、您不會(huì)以侵犯版權(quán)的方式重復(fù)使用或重新發(fā)布數(shù)據(jù)。

2、您尊重您要抓取的網(wǎng)站的服務(wù)條款。

3、您有一個(gè)合理的抓取率。

4、您不要嘗試抓取網(wǎng)站的非共享內(nèi)容。

只要您沒(méi)有違反這些條款中的任何一項(xiàng),您的網(wǎng)絡(luò)抓取活動(dòng)就是合法的。

如果使用Python構(gòu)建數(shù)據(jù)科學(xué)項(xiàng)目,可能會(huì)用到BeatifulSoup收集數(shù)據(jù),然后用Pandas對(duì)其進(jìn)行分析。本文將為您提供6種不包含BeatifulSoup的Web抓取工具,您可以免費(fèi)使用它們來(lái)收集下一個(gè)項(xiàng)目所需的數(shù)據(jù)。

Commom Crawl

網(wǎng)址:https://commoncrawl.org/

Common Crawl的開(kāi)發(fā)者開(kāi)發(fā)此工具是因?yàn)樗麄兿嘈琶總€(gè)人都應(yīng)該有機(jī)會(huì)探索和分析他們周?chē)氖澜?,并發(fā)現(xiàn)其模式。他們堅(jiān)持他們的開(kāi)源信念,提供只有大公司和研究機(jī)構(gòu)才能免費(fèi)獲得的高質(zhì)量數(shù)據(jù)。

這意味著,如果您是一名大學(xué)生,正在探索數(shù)據(jù)科學(xué)領(lǐng)域,或者是一位研究人員正在尋找下一個(gè)感興趣的主題,或者只是一個(gè)喜歡揭示模式并尋找趨勢(shì)的好奇者,則可以使用此工具而無(wú)需擔(dān)心費(fèi)用或任何其他復(fù)雜的財(cái)務(wù)問(wèn)題。

Common Crawl提供原始網(wǎng)頁(yè)數(shù)據(jù)和和用于文本提取的開(kāi)放數(shù)據(jù)集。為方便教育工作者教授數(shù)據(jù)分析,它還提供不用編碼的使用案例和資源。

Crawly

網(wǎng)址:http://crawly.diffbot.com/

Crawly是另一個(gè)令人令人贊嘆的抓取工具,特別是如果您只需要從網(wǎng)站中提取基本數(shù)據(jù),或者希望以CSV格式提取數(shù)據(jù),缺不想編寫(xiě)任何代碼就對(duì)其進(jìn)行分析的時(shí)候。

您所需要做的就是輸入一個(gè)URL,發(fā)送提取數(shù)據(jù)的電子郵件地址,所需的數(shù)據(jù)格式(在CSV或JSON之間選擇)。然后立即馬上,已抓取的數(shù)據(jù)就在您的郵件收件箱里了。您可以使用JSON格式,然后使用Pandas和Matplotlib或任何其他編程語(yǔ)言在Python中分析數(shù)據(jù)。

如果您不是程序員,或者只是剛開(kāi)始使用數(shù)據(jù)科學(xué)和Web抓取技術(shù),Crawly是完美的選擇,但它有其局限性。它只能提取一組有限的HTML標(biāo)簽,包括,Title,Author,Image URL,和Publisher。

ContentGrabber

網(wǎng)址:https://contentgrabber.com/Manual/understandingtheconcept.htm

Content Grabber是我最喜歡的Web抓取工具之一,因?yàn)樗浅l`活。如果您只想抓取網(wǎng)頁(yè)而又不想指定任何其他參數(shù),則可以使用其簡(jiǎn)單的GUI進(jìn)行操作。但Content Grabber也可以讓您完全控制參數(shù)選擇。

Content Grabber的優(yōu)點(diǎn)之一是您可以安排它自動(dòng)從Web上抓取信息。眾所周知,大多數(shù)網(wǎng)頁(yè)都會(huì)定期更新,因此定期提取內(nèi)容可能會(huì)非常有用。

它還為提取的數(shù)據(jù)提供了多種格式,從CSV,JSON到SQL Server或MySQL。

Webhose.io

網(wǎng)址:https://webhose.io/

Webhose.io是一個(gè)網(wǎng)絡(luò)抓取工具,可讓您從任何在線資源中提取企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)。Webhose.io收集的數(shù)據(jù)是結(jié)構(gòu)化的,干凈的包含了情感和實(shí)體識(shí)別,并且可以以XML,RSS和JSON等不同格式使用。

Webhose.io的數(shù)據(jù)覆蓋所有公共網(wǎng)站。此外,它提供了許多過(guò)濾器來(lái)優(yōu)化提取的數(shù)據(jù),因此只需較少的清理工作及可直接進(jìn)入分析階段。

Webhose.io的免費(fèi)版本每月提供1000個(gè)HTTP請(qǐng)求。付費(fèi)計(jì)劃提供了更多抓取請(qǐng)求。Webhose.io具有對(duì)提取數(shù)據(jù)的強(qiáng)大支持,并提供圖像分析和地理定位以及長(zhǎng)達(dá)10年的存檔歷史數(shù)據(jù)等諸多功能。

ParseHub

網(wǎng)址:https://www.parsehub.com/

ParseHub是一個(gè)強(qiáng)大的Web抓取工具,任何人都可以免費(fèi)使用。只需單擊一下按鈕,即可提供可靠,準(zhǔn)確的數(shù)據(jù)提取。您還可以設(shè)定抓取時(shí)間以便及時(shí)更新數(shù)據(jù)。

ParseHub的優(yōu)勢(shì)之一是它可以輕松處理復(fù)雜的網(wǎng)頁(yè)。您甚至可以指示它搜索表單,菜單,登錄網(wǎng)站,甚至單擊圖像或地圖獲取更多數(shù)據(jù)。

您還可以為ParseHub提供各種鏈接和一些關(guān)鍵字,它可以在幾秒鐘內(nèi)提取相關(guān)信息。最后,您可以使用REST API以JSON或CSV格式下載提取的數(shù)據(jù)進(jìn)行分析。您也可以將收集的數(shù)據(jù)導(dǎo)出為Google表格或Tableau。

Scrapingbee

網(wǎng)址:https://bit.ly/2P8gRAA

我們介紹的最后一個(gè)抓取工具是Scrapingbee。Scrapingbee提供了一種用于Web抓取的API,該API甚至可以處理最復(fù)雜的Javascript頁(yè)面并將其轉(zhuǎn)換為原始HTML供您使用。此外,它具有專(zhuān)用的API,可用于使用Google搜索進(jìn)行網(wǎng)頁(yè)抓取。

Scrapingbee可以通過(guò)以下三種方式之一使用:

常規(guī)Web爬網(wǎng),例如,提取股票價(jià)格或客戶(hù)評(píng)論。

搜索引擎結(jié)果頁(yè)通常用于SEO或關(guān)鍵字監(jiān)視。

增長(zhǎng)黑客,包括提取聯(lián)系信息或社交媒體信息。

Scrapingbee提供了一個(gè)免費(fèi)計(jì)劃,其中包括1000次額度和可無(wú)限使用的付費(fèi)計(jì)劃。

最后

在數(shù)據(jù)科學(xué)項(xiàng)目工作流程中,為項(xiàng)目收集數(shù)據(jù)可能是最有趣,最乏味的步驟。這項(xiàng)任務(wù)可能會(huì)非常耗時(shí),并且,如果您在公司甚至是自由職業(yè)者中工作,您都知道時(shí)間就是金錢(qián),這總是意味著,如果有一種更有效的方法來(lái)做某事,則最好使用它。

好消息是,網(wǎng)頁(yè)抓取不必過(guò)于繁瑣。您不需要執(zhí)行它,甚至不需要花費(fèi)很多時(shí)間手動(dòng)執(zhí)行它。使用正確的工具可以幫助您節(jié)省大量時(shí)間,金錢(qián)和精力。而且,這些工具對(duì)于分析人員或編碼背景不足的人員可能是有益的。

當(dāng)您想選擇一種用于抓取網(wǎng)絡(luò)的工具時(shí),需要考慮下列因素,比如API集成和大規(guī)模抓取的可擴(kuò)展性。本文為您提供了一些可用于不同數(shù)據(jù)收集機(jī)制的工具。使用一下這些工具,然后確定下一個(gè)數(shù)據(jù)收集項(xiàng)目中采取哪個(gè)事半功倍的方法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,546評(píng)論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,570評(píng)論 3 418
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事?!?“怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 176,505評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,017評(píng)論 1 313
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,786評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,219評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,287評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,438評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,971評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,796評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,995評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,540評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,230評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,662評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,918評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,697評(píng)論 3 392
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,991評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容