6個(gè)工具讓網(wǎng)頁(yè)抓取變得輕而易舉

姓名：孟永超? ? ?學(xué)號(hào)：22011110013

轉(zhuǎn)自：https://blog.csdn.net/pypyai_/article/details/115349694?spm=1001.2014.3001.5501

【嵌牛導(dǎo)讀】

任何數(shù)據(jù)科學(xué)項(xiàng)目都離不開(kāi)數(shù)據(jù)。沒(méi)有數(shù)據(jù)就沒(méi)有“數(shù)據(jù)科學(xué)”。大多數(shù)數(shù)據(jù)科學(xué)項(xiàng)目中用于分析和構(gòu)建機(jī)器學(xué)習(xí)模型的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中，但有時(shí)數(shù)據(jù)也來(lái)自是網(wǎng)絡(luò)。

你可以從某個(gè)網(wǎng)頁(yè)收集某種產(chǎn)品的數(shù)據(jù)，或者從社交媒體中發(fā)現(xiàn)某種模式，也許是情感分析。不管您為什么收集數(shù)據(jù)或打算如何使用數(shù)據(jù)，從Web收集數(shù)據(jù)（Web抓?。┒际且豁?xiàng)非常繁瑣的工作。您需要做一些繁瑣的工作事情才能達(dá)到目的。

Web抓取是您作為數(shù)據(jù)科學(xué)家需要掌握的重要技能之一。為了讓得到的結(jié)果準(zhǔn)確并有意義，您需要知道如何查找，收集和清理數(shù)據(jù)。

【嵌牛鼻子】數(shù)據(jù)科學(xué)、收集數(shù)據(jù)、Web抓取

【嵌牛提問(wèn)】什么是Web抓取？如何查找，收集和清理數(shù)據(jù)？

【嵌牛正文】?

Web抓取一直是法律的灰色領(lǐng)域。在我們深入研究數(shù)據(jù)提取工具之前，我們需要確保您的活動(dòng)是完全合法的。2020年，美國(guó)法院將網(wǎng)上抓取公開(kāi)數(shù)據(jù)完全合法化。也就是說(shuō)，如果任何人都可以在線找到數(shù)據(jù)（例如Wiki文章），則抓取網(wǎng)頁(yè)也是合法的。

但是，當(dāng)您這樣做時(shí)，請(qǐng)確保：

1、您不會(huì)以侵犯版權(quán)的方式重復(fù)使用或重新發(fā)布數(shù)據(jù)。

2、您尊重您要抓取的網(wǎng)站的服務(wù)條款。

3、您有一個(gè)合理的抓取率。

4、您不要嘗試抓取網(wǎng)站的非共享內(nèi)容。

只要您沒(méi)有違反這些條款中的任何一項(xiàng)，您的網(wǎng)絡(luò)抓取活動(dòng)就是合法的。

如果使用Python構(gòu)建數(shù)據(jù)科學(xué)項(xiàng)目，可能會(huì)用到BeatifulSoup收集數(shù)據(jù)，然后用Pandas對(duì)其進(jìn)行分析。本文將為您提供6種不包含BeatifulSoup的Web抓取工具，您可以免費(fèi)使用它們來(lái)收集下一個(gè)項(xiàng)目所需的數(shù)據(jù)。

Commom Crawl

網(wǎng)址：https://commoncrawl.org/

Common Crawl的開(kāi)發(fā)者開(kāi)發(fā)此工具是因?yàn)樗麄兿嘈琶總€(gè)人都應(yīng)該有機(jī)會(huì)探索和分析他們周?chē)氖澜?，并發(fā)現(xiàn)其模式。他們堅(jiān)持他們的開(kāi)源信念，提供只有大公司和研究機(jī)構(gòu)才能免費(fèi)獲得的高質(zhì)量數(shù)據(jù)。

這意味著，如果您是一名大學(xué)生，正在探索數(shù)據(jù)科學(xué)領(lǐng)域，或者是一位研究人員正在尋找下一個(gè)感興趣的主題，或者只是一個(gè)喜歡揭示模式并尋找趨勢(shì)的好奇者，則可以使用此工具而無(wú)需擔(dān)心費(fèi)用或任何其他復(fù)雜的財(cái)務(wù)問(wèn)題。

Common Crawl提供原始網(wǎng)頁(yè)數(shù)據(jù)和和用于文本提取的開(kāi)放數(shù)據(jù)集。為方便教育工作者教授數(shù)據(jù)分析，它還提供不用編碼的使用案例和資源。

Crawly

網(wǎng)址：http://crawly.diffbot.com/

Crawly是另一個(gè)令人令人贊嘆的抓取工具，特別是如果您只需要從網(wǎng)站中提取基本數(shù)據(jù)，或者希望以CSV格式提取數(shù)據(jù)，缺不想編寫(xiě)任何代碼就對(duì)其進(jìn)行分析的時(shí)候。

您所需要做的就是輸入一個(gè)URL，發(fā)送提取數(shù)據(jù)的電子郵件地址，所需的數(shù)據(jù)格式（在CSV或JSON之間選擇）。然后立即馬上，已抓取的數(shù)據(jù)就在您的郵件收件箱里了。您可以使用JSON格式，然后使用Pandas和Matplotlib或任何其他編程語(yǔ)言在Python中分析數(shù)據(jù)。

如果您不是程序員，或者只是剛開(kāi)始使用數(shù)據(jù)科學(xué)和Web抓取技術(shù)，Crawly是完美的選擇，但它有其局限性。它只能提取一組有限的HTML標(biāo)簽，包括，Title，Author，Image URL，和Publisher。

ContentGrabber

網(wǎng)址：https://contentgrabber.com/Manual/understandingtheconcept.htm

Content Grabber是我最喜歡的Web抓取工具之一，因?yàn)樗浅ｌ`活。如果您只想抓取網(wǎng)頁(yè)而又不想指定任何其他參數(shù)，則可以使用其簡(jiǎn)單的GUI進(jìn)行操作。但Content Grabber也可以讓您完全控制參數(shù)選擇。

Content Grabber的優(yōu)點(diǎn)之一是您可以安排它自動(dòng)從Web上抓取信息。眾所周知，大多數(shù)網(wǎng)頁(yè)都會(huì)定期更新，因此定期提取內(nèi)容可能會(huì)非常有用。

它還為提取的數(shù)據(jù)提供了多種格式，從CSV，JSON到SQL Server或MySQL。

Webhose.io

網(wǎng)址：https://webhose.io/

Webhose.io是一個(gè)網(wǎng)絡(luò)抓取工具，可讓您從任何在線資源中提取企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)。Webhose.io收集的數(shù)據(jù)是結(jié)構(gòu)化的，干凈的包含了情感和實(shí)體識(shí)別，并且可以以XML，RSS和JSON等不同格式使用。

Webhose.io的數(shù)據(jù)覆蓋所有公共網(wǎng)站。此外，它提供了許多過(guò)濾器來(lái)優(yōu)化提取的數(shù)據(jù)，因此只需較少的清理工作及可直接進(jìn)入分析階段。

Webhose.io的免費(fèi)版本每月提供1000個(gè)HTTP請(qǐng)求。付費(fèi)計(jì)劃提供了更多抓取請(qǐng)求。Webhose.io具有對(duì)提取數(shù)據(jù)的強(qiáng)大支持，并提供圖像分析和地理定位以及長(zhǎng)達(dá)10年的存檔歷史數(shù)據(jù)等諸多功能。

ParseHub

網(wǎng)址：https://www.parsehub.com/

ParseHub是一個(gè)強(qiáng)大的Web抓取工具，任何人都可以免費(fèi)使用。只需單擊一下按鈕，即可提供可靠，準(zhǔn)確的數(shù)據(jù)提取。您還可以設(shè)定抓取時(shí)間以便及時(shí)更新數(shù)據(jù)。

ParseHub的優(yōu)勢(shì)之一是它可以輕松處理復(fù)雜的網(wǎng)頁(yè)。您甚至可以指示它搜索表單，菜單，登錄網(wǎng)站，甚至單擊圖像或地圖獲取更多數(shù)據(jù)。

您還可以為ParseHub提供各種鏈接和一些關(guān)鍵字，它可以在幾秒鐘內(nèi)提取相關(guān)信息。最后，您可以使用REST API以JSON或CSV格式下載提取的數(shù)據(jù)進(jìn)行分析。您也可以將收集的數(shù)據(jù)導(dǎo)出為Google表格或Tableau。

Scrapingbee

網(wǎng)址：https://bit.ly/2P8gRAA

我們介紹的最后一個(gè)抓取工具是Scrapingbee。Scrapingbee提供了一種用于Web抓取的API，該API甚至可以處理最復(fù)雜的Javascript頁(yè)面并將其轉(zhuǎn)換為原始HTML供您使用。此外，它具有專(zhuān)用的API，可用于使用Google搜索進(jìn)行網(wǎng)頁(yè)抓取。

Scrapingbee可以通過(guò)以下三種方式之一使用：

常規(guī)Web爬網(wǎng)，例如，提取股票價(jià)格或客戶(hù)評(píng)論。

搜索引擎結(jié)果頁(yè)通常用于SEO或關(guān)鍵字監(jiān)視。

增長(zhǎng)黑客，包括提取聯(lián)系信息或社交媒體信息。

Scrapingbee提供了一個(gè)免費(fèi)計(jì)劃，其中包括1000次額度和可無(wú)限使用的付費(fèi)計(jì)劃。

最后

在數(shù)據(jù)科學(xué)項(xiàng)目工作流程中，為項(xiàng)目收集數(shù)據(jù)可能是最有趣，最乏味的步驟。這項(xiàng)任務(wù)可能會(huì)非常耗時(shí)，并且，如果您在公司甚至是自由職業(yè)者中工作，您都知道時(shí)間就是金錢(qián)，這總是意味著，如果有一種更有效的方法來(lái)做某事，則最好使用它。

好消息是，網(wǎng)頁(yè)抓取不必過(guò)于繁瑣。您不需要執(zhí)行它，甚至不需要花費(fèi)很多時(shí)間手動(dòng)執(zhí)行它。使用正確的工具可以幫助您節(jié)省大量時(shí)間，金錢(qián)和精力。而且，這些工具對(duì)于分析人員或編碼背景不足的人員可能是有益的。

當(dāng)您想選擇一種用于抓取網(wǎng)絡(luò)的工具時(shí)，需要考慮下列因素，比如API集成和大規(guī)模抓取的可擴(kuò)展性。本文為您提供了一些可用于不同數(shù)據(jù)收集機(jī)制的工具。使用一下這些工具，然后確定下一個(gè)數(shù)據(jù)收集項(xiàng)目中采取哪個(gè)事半功倍的方法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,546評(píng)論 6贊 533
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,570評(píng)論 3贊 418
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事?！?“怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 176,505評(píng)論 0贊 376
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 63,017評(píng)論 1贊 313
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,786評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 55,219評(píng)論 1贊 324
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,287評(píng)論 3贊 441
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 42,438評(píng)論 0贊 288
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,971評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,796評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,995評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,540評(píng)論 5贊 359
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,230評(píng)論 3贊 347
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 34,662評(píng)論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 35,918評(píng)論 1贊 286
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,697評(píng)論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,991評(píng)論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

6個(gè)工具讓網(wǎng)頁(yè)抓取變得輕而易舉

6個(gè)工具讓網(wǎng)頁(yè)抓取變得輕而易舉

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

6個(gè)工具讓網(wǎng)頁(yè)抓取變得輕而易舉

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频