如何用.net制作一個簡易爬蟲抓取華為應用市場數(shù)據(jù)

公司最近要做一款手機,手機需要制作一個應用市場。那么問題來了,自己制作應用市場,數(shù)據(jù)從哪來呢?作為一個創(chuàng)業(yè)型公司。搜集數(shù)據(jù)變成為了難題。

于是突然想到能不能通過程序去抓取別人應用市場的數(shù)據(jù)……

那么我們一步一步的來看,如何抓取華為應用市場的APK信息。

首先打開華為官網(wǎng)



看到如下頁面。然后我們在谷歌瀏覽器中按F12查看一下下載是否是明文鏈接



隨便選擇一個 ,右鍵查看下載的屬性。

在這里我們可以看見a標簽的onclick是一個js方法zhytools.downloadApp();

方法體大致有幾個參數(shù),可能分別是 文件ID(唯一碼)、文件名稱、文件所屬類別(華為自己的分類如:上升最快、首頁等等)、這個數(shù)量也可能是某個id、文件類別(文件所屬的應用分類)、文件下載路徑、文件版本、最后個好像默認都是1。

好了我們看到一個下載方法有這么多參數(shù)。

然后我們可以打開其中的下載地址看看。


其中下載地址是這一段 。在瀏覽器直接輸入這個地址


則彈出了APK下載信息。好了。那么我們只要存儲對于的地址。放入我們的應用市場接口之中。那么我們的應用市場的數(shù)據(jù)將可以來源與華為應用市場了。

好了 我們開始實戰(zhàn)!

首先用vs創(chuàng)建一個windows應用程序。


輸入程序名字Crawler

點擊確定


首先給 form的size改成1280*768 (看著舒服點)


然后我們分別拖一個textbox1 作為網(wǎng)址輸入地址。

一個webbrowser用來獲取網(wǎng)頁信息

一個按鈕用來綁定webbrowser

一個textbox2 的多行文本框 來顯示抓取信息。

(這里先簡單展示。可做優(yōu)化存入數(shù)據(jù)庫)

然后我們雙擊button1

綁定webbrowser1的url地址

和頁面加載完成事件。


然后我們在頁面加載事件里讀取webbrowser的html內容這里我們簡單用正則去匹配

zhytools.downloadApp(.+);來讀取參數(shù)內容

我們運行一下程序看看


程序運行后我們在url地址輸入華為的應用市場頁面地址http://app.hicloud.com/

然后點擊確定按鈕

可以看到我們抓取了很多鏈接。我們可以將這些連接的參數(shù)分割存入我們的數(shù)據(jù)庫使用。

當然這里只是抓取了首頁的一部分連接。然后我們點擊游戲排行的更多

可以看到跳轉到新頁面我們又抓取了很多鏈接。

在點擊一下精品推薦試試



可以看到我們抓了很多當前頁面的下載鏈接。

一個簡易爬蟲基本形成。如果想要下載更多的資源。我們可以寫算法去自動針對頁面跳轉。爬更多的頁面。這樣即可存入更多的應用下載路徑啦。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,242評論 25 708
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,914評論 18 139
  • 我們常常有勇氣改變,因為這只需要一個晚上的雞湯。我們往往沒能力改變,因為這真需要經(jīng)年累月的苦干。 每次報名參加考試...
    芝哥哥閱讀 898評論 0 0
  • 萬里獨行宋岱瑋 要是讓我評 “紅花郎杯之我最喜愛的身形相似二人后場組合”第一名我一定給人氣偶像組合宋岱瑋、干螢輝。...
    劉珞閱讀 728評論 0 1
  • 無論什么事情,如果能賺錢,自己便會更有動力去做,并且,才有可能一直堅持下去。其實,寫作也不例外。那么,就讓我們跟隨...
    四月的早晨閱讀 1,178評論 5 28