從爬蟲到數據可視化(2)—大眾點評網

本人是一名典型的吃貨，所以今天想研究一下大眾點評網上海美食的數據。

一、數據爬蟲

首先是爬蟲部分，由于大眾點評頁面最多顯示50頁數據，所以要爬取到所有上海美食數據的話，要分行政區域，然后在每個區中再分美食的小類型，分別進行爬取，這樣就可以獲取到大部分數據了。

爬蟲思路：
1、首先分析一下網址，http://www.dianping.com/search/category/1/10/g101r5 通過查看幾個網址后可以發現，最后的g101和r5這兩個編碼，分別代表美食類型和行政區，所以先把美食編碼和行政區編碼爬取下來。
2、寫兩個for循環，把初始URL、美食編碼和行政區編碼拼接到一起。
3、拼接好后，對每一個拼接好的頁面翻頁，得到所有頁面。
4、從所有頁面中，獲取詳情頁的URL。
5、對詳情頁解析，獲取上海美食數據的詳細信息。

Scrapy代碼：

import scrapy
from dzdpscrapy.items import DzdpscrapyItem
import requests
from bs4 import BeautifulSoup
from lxml import etree
import time
import re
import random


hds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'},\
    {'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\
    {'User-Agent':'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'},\
    {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:34.0) Gecko/20100101 Firefox/34.0'},\
    {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/44.0.2403.89 Chrome/44.0.2403.89 Safari/537.36'},\
    {'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\
    {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\
    {'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'},\
    {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},\
    {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},\
    {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'},\
    {'User-Agent':'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11'},\
    {'User-Agent':'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11'}]



class DianpingSpider(scrapy.Spider):
    #拼接行政區和美食類型的所有URL
    name = "dianping"
    # location = ['r1','r2','r3','r4','r5','r6','r7','r8','r9','r10','r12', 'r13', 'r5937', 'r5938', 'r5939', 'r8846', 'r8847', 'c3580']
    foodtype = ['g111', 'g114', 'g508',  'g109', 'g106', 'g104', 'g248','g219', 'g3243', 'g251', 'g26481', 'g203', 'g107', 'g105', 'g108', 'g215', 'g247', 'g1338', 'g1783','g101', 'g198', 'g25474', 'g199', 'g200', 'g201', 'g202', 'g113', 'g224', 'g226', 'g225', 'g25151', 'g132', 'g24645', 'g24646', 'g24648', 'g24650', 'g24647', 'g24649', 'g24652', 'g112', 'g210', 'g217', 'g221', 'g222', 'g1881', 'g213', 'g1819', 'g223', 'g216', 'g1821', 'g211', 'g212', 'g214', 'g220', 'g117', 'g244', 'g242', 'g241', 'g243', 'g110', 'g32733', 'g3027', 'g208', 'g4477', 'g116', 'g238', 'g24340', 'g232', 'g254', 'g231', 'g233', 'g253', 'g234', 'g103', 'g205', 'g207', 'g1947', 'g206', 'g102', 'g4467', 'g4469', 'g4473', 'g115', 'g227', 'g228', 'g230', 'g229', 'g118', 'g133', 'g134', 'g311', 'g26482', 'g250', 'g26483', 'g2774', 'g249', 'g246', 'g26484', 'g252']
    location = ['r1', 'r835', 'r838', 'r836', 'r837', 'r2', 'r865', 'r870', 'r866', 'r872', 'r869', 'r868', 'r867', 'r871', 'r24031', 'r873', 'r3', 'r812', 'r811', 'r814', 'r813', 'r4', 'r842', 'r839', 'r840', 'r843', 'r841', 'r845', 'r844', 'r5', 'r801', 'r802', 'r804', 'r803', 'r806', 'r808', 'r5947', 'r809', 'r810', 'r2869', 'r5948', 'r807', 'r2867', 'r12029', 'r805', 'r22947', 'r2868', 'r8446', 'r9179', 'r24141', 'r24020', 'r22948', 'r8929', 'r24017', 'r24024', 'r70326', 'r24018', 'r70602', 'r67275', 'r70265', 'r70531', 'r6', 'r860', 'r861', 'r859', 'r863', 'r864', 'r862', 'r7', 'r815', 'r818', 'r9177', 'r816', 'r819', 'r2866', 'r817', 'r2865', 'r12038', 'r813', 'r8', 'r828', 'r827', 'r830', 'r829', 'r22949', 'r12026', 'r2864', 'r22950', 'r22951', 'r9', 'r821', 'r822', 'r824', 'r825', 'r823', 'r826', 'r820', 'r22946', 'r10', 'r854', 'r858', 'r855', 'r856', 'r857', 'r8445', 'r12', 'r846', 'r849', 'r848', 'r850', 'r2528', 'r847', 'r852', 'r853', 'r982', 'r8597', 'r8928', 'r851', 'r22952', 'r22953', 'r22957', 'r22955', 'r22956', 'r22958', 'r70507', 'r22954', 'r67276', 'r13', 'r834', 'r831', 'r8441', 'r8440', 'r8442', 'r2527', 'r833', 'r9170', 'r9171', 'r8443', 'r9169', 'r8444', 'r5937', 'r5941', 'r5943', 'r5940', 'r5942', 'r26146', 'r22979', 'r22986', 'r11374', 'r24019', 'r22983', 'r22987', 'r22981', 'r9178', 'r22980', 'r22982', 'r22985', 'r70277', 'r67354', 'r22984', 'r5938', 'r5946', 'r5962', 'r5944', 'r5945', 'r22988', 'r22991', 'r22989', 'r27830', 'r22990', 'r22992', 'r24022', 'r65166', 'r24021', 'r5939', 'r22993', 'r5949', 'r22995', 'r30340', 'r24023', 'r70209', 'r22994', 'r8846', 'r9172', 'r24025', 'r22961', 'r22964', 'r9173', 'r22959', 'r22960', 'r22965', 'r22963', 'r22962', 'r66320', 'r66319', 'r8847', 'r9174', 'r65207', 'r22974', 'r22970', 'r22971', 'r22969', 'r22967', 'r66226', 'r22968', 'r22966', 'r22975', 'r22972', 'r22973', 'c3580', 'r64598', 'r64606', 'r64609', 'r64599', 'r64614', 'r64602', 'r64601', 'r64607', 'r64605', 'r64604', 'r64612', 'r64611', 'r64603', 'r64600', 'r64597', 'r64608', 'r8848']

    def start_requests(self):
        for lbs in self.location:
            for ft in self.foodtype:
                url = 'http://www.dianping.com/search/category/1/10/%s%s' % (lbs, ft)
                yield scrapy.Request(url=url,callback=self.next_page)


    def next_page(self,response):
        #翻頁，得到所有頁面
        url = str(response.url)
        pages = response.xpath('//*[@id="top"]/div[6]/div[3]/div[1]/div[2]/a/text()').extract()[-2]
        if pages:
            for i in range(1,int(pages)):
                urls = url  + 'p' + str(i)
                yield scrapy.Request(url = urls ,callback=self.parse_url)
        else:
            yield scrapy.Request(url = url ,callback=self.parse_url)


    def parse_url(self, response):
        #獲取詳情頁URL
        req = requests.get(response.url).text
        soup = BeautifulSoup(req,'lxml')
        hrefs = soup.select('#shop-all-list > ul > li > div.txt > div.tit > a[data-hippo-type="shop"]')
        for i in hrefs:
            base_url = 'http://www.dianping.com'
            shop_url = base_url + str(i['href'])
            yield scrapy.Request(url=shop_url, callback=self.parse_detail)


    def parse_detail(self,response):
        #解析詳情頁
        item = DzdpscrapyItem()
        req = requests.get(url = response.url,headers=hds[random.randint(0,len(hds)-1)]).text
        selector = etree.HTML(req)
        item['name']  = selector.xpath('//*[@id="basic-info"]/h1/text()')[0].strip() #店名
        item['address'] = selector.xpath('//*[@id="basic-info"]/div[2]/span[2]/text()')[0].strip() #地址
        item['comment'] = selector.xpath('//*[@id="reviewCount"]/text()')[0] if selector.xpath('//*[@id="reviewCount"]') else None #評論數
        item['score'] = selector.xpath('//*[@id="basic-info"]/div[1]/span/@title')[0] if selector.xpath('//*[@id="basic-info"]/div[1]/span/@title') else None #星級
        item['price'] = selector.xpath('//*[@id="avgPriceTitle"]/text()')[0][3:] if selector.xpath('//*[@id="avgPriceTitle"]') else None #價格
        item['flavor'] = selector.xpath('//*[@id="comment_score"]/span[1]/text()')[0][3:] if selector.xpath('//*[@id="comment_score"]/span[1]') else None #口味
        item['environment'] = selector.xpath('//*[@id="comment_score"]/span[2]/text()')[0][3:] if selector.xpath('//*[@id="comment_score"]/span[2]') else None #環境
        item['service'] = selector.xpath('//*[@id="comment_score"]/span[3]/text()')[0][3:] if selector.xpath('//*[@id="comment_score"]/span[3]') else None #服務
        item['tel'] = selector.xpath('//*[@id="basic-info"]/p/span[2]/text()')[0].strip() if selector.xpath('//*[@id="basic-info"]/p/span[2]')else None #電話
        item['time'] = selector.xpath('//*[@id="basic-info"]/div[4]/p[1]/span[2]/text()')[0].strip() if selector.xpath('//*[@id="basic-info"]/div[4]/p[1]/span[2]') else None #營業時間
        item['category1'] = selector.xpath('//*[@id="body"]/div[2]/div[1]/a[2]/text()')[0].strip() if selector.xpath('//*[@id="body"]/div[2]/div[1]/a[2]') else None #分類1
        item['category2'] = selector.xpath('//*[@id="body"]/div[2]/div[1]/a[3]/text()')[0].strip() if selector.xpath('//*[@id="body"]/div[2]/div[1]/a[3]') else None #分類2
        item['category3'] = selector.xpath('//*[@id="body"]/div[2]/div[1]/a[4]/text()')[0].strip() if selector.xpath('//*[@id="body"]/div[2]/div[1]/a[4]') else None #分類3

        pattern = re.compile('shopGlat.*?"(.*?)",.*?shopGlng.*?"(.*?)",.*?cityGlat', re.S)
        pois = re.findall(pattern, response.text)
        item['poi'] = (pois[0][0]+','+pois[0][1]) #坐標


        yield item

二、數據清洗

1、對所有記錄編號，方便做數據統計。
2、新增字段【是否連鎖店】，店名去除分店的名稱（去除括號內的名稱），然后對去除分店后的店名進行計數統計，大于1的店名即為連鎖店。
3、通過QGIS軟件匹配出個公司所在的行政區和街鎮（區域）。?
4、新增字段【評論數>100】，后面有些分析評論數篩選大于100的，評論數太少的評分和價格可能與實際不符。
5、新增字段【價格區間】，對價格進行。
6、新增字段【菜系分類】，面包甜點、咖啡廳等歸為非正餐，新疆菜、西北菜等店數較少的菜系歸類為其他菜系。
7、新增字段【評分】，星級轉換為分數，五星商戶轉為5分，準五星商戶轉換為4.5分，以此類推。
8、新增字段【綜合評分】，根據口味、環境、服務得出綜合評分，綜合評分 = 口味*0.5 + 環境 * 0.25 + 服務 * 0.25?
9、坐標轉換，大眾點評網使用的是火星坐標系，所以要轉換為WGS84地球坐標系，方便在QGIS中做分析，這里用到的是別人寫好的python代碼，可以在各坐標系之間進行轉換，地址https://github.com/wandergis/coordTransform_py。?
10、對異常數據進行清洗，數據格式統一。
11、大眾點評的行政區還是按照原先的劃分，這里我按照最新的標準，閘北和靜安合并為靜安，黃浦和盧灣合并為黃浦。?清洗之后，大概長這樣：

三、數據分析及可視化

1、區域

①上海各區店數和密度

上海各行政區中，商戶密度最高的黃浦區，前7名均為市區，后9名均為郊區，商戶數最多的是浦東。

②上海各街鎮商戶密度

上海各街鎮的商戶密度分布中，商戶數最多的是南京東路、淮海中路、南京西路等上海最繁華的商業區。

2、價格

①上海各區商戶的平均價格

上海各區商戶平均價格最高的是黃浦區、長寧區、靜安區和徐匯區。

②上海商戶各星級商戶占比

③各價格區間商戶數分布

上海的商戶價格，主要集中在20-50元和50-100元，占比均為30%和32%。

④價格區間與商戶星級關系

整體來看，價格越高，商戶星級越高，果然還是越貴的東西越好吃，作為一名吃貨，最大的夢想就是隨時隨地想吃什么就吃什么，所以要抓緊掙錢了。

⑤上海價格TOP20商戶

接下來我們就看看人均價格最高的商戶都是哪些，作為屌絲的我，聽都沒聽過這些店，這些店主要分布在黃浦、長寧、徐匯、閔行，居然沒有被網友稱為宇宙中心的大靜安，菜系主要以日本菜和西餐為主，火鍋和海鮮各一個。

再看一下這些店的具體坐標，用QGIS畫出坐標圖，果然是沒有大靜安，而這些店主要集中在外灘和新華路、湖南路等區域。

3、菜系

①菜系分布

雖然上海是個包容的國際大都市，外地人很多，口味方面各有所愛，各種菜系應有盡有，但是菜系占比最高的還是江浙滬這邊的本地菜——本幫江浙菜，第二名是我的最愛——川菜，由于本人酷愛吃辣，所以川菜和湘菜是我最喜歡吃的菜系，看來跟我口味一樣重的人還是挺多的。西餐排在第三有點意外，看了一下數據源，很多披薩、漢堡等應該歸到小吃快餐的小店也歸到西餐了，所以比較多。

②各菜系平均價格（剔除評論數<100）

各菜系的平均價格前三位的是日本菜、海鮮、粵菜，正餐中價格最低的是東北菜，小吃快餐人均28元。

③菜系與商戶星級關系

以本人多年使用大眾點評的經驗，四星以上的商戶大部分還是比較不錯的，所以來看一下各菜系四星以上商戶的占比排名，占比最高的是西餐73%，其次是火鍋和韓國料理，東北菜和本幫江浙菜占比最低，所以在吃這兩個菜系的時候要謹慎選擇。

④各菜系的價格與綜合評分的關系

整體來看，平均單價越高的菜系評分越高，但是有一些菜系跟整體趨勢有一定差別，韓國料理、燒烤、火鍋在上置信區間線之上，性價比相對較高，而東北菜、本幫江浙菜和粵菜在下置信區間線之下，性價比相對較低。

最后編輯于：2017.12.10 05:44:34

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,106評論 6贊 542
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,441評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,211評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,736評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,475評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,834評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,829評論 3贊 446
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,009評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,559評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,306評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,516評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,038評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,728評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,132評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,443評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,249評論 3贊 399
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,484評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

從爬蟲到數據可視化(2)—大眾點評網

從爬蟲到數據可視化(2)—大眾點評網

一、數據爬蟲

二、數據清洗

三、數據分析及可視化