Python制作疫情地圖--第一彈 獲取數據

Python制作疫情地圖

詳細講解視頻地址——詳細視頻講解

第一彈 獲取數據(寫入excel)

以下代碼是繪制地圖時調用的類,已封裝。

導入需要的模塊

若未安裝,win+R進入命令行窗口,輸入:pip install module(模塊名)

import requests
from lxml import etree
import json
import re
import openpyxl

創建一個類

class Get_data():

獲取數據

    def get_data(self):
        # 目標url
        url = "https://voice.baidu.com/act/newpneumonia/newpneumonia/"

        # 偽裝請求頭
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/80.0.3987.149 Safari/537.36 '
        }

        # 發出get請求
        response = requests.get(url,headers=headers)

        # 將請求的結果寫入文件,便于分析
        with open('html.txt', 'w') as file:
            file.write(response.text)

    def get_time(self):
        with open('html.txt','r') as file:
            text = file.read()
        # 獲取更新時間
        time_in = re.findall('"mapLastUpdatedTime":"(.*?)"',text)[0]
        time_out = re.findall('"foreignLastUpdatedTime":"(.*?)"',text)[0]
        print('郭內毅擎更新時間為 '+time_in)
        print('郭外毅擎更新時間為 '+time_out)
        return time_in,time_out

解析數據

    def parse_data(self):
        with open('html.txt','r') as file:
            text = file.read()
        # 生成HTML對象
        html = etree.HTML(text)
        # 解析數據
        result = html.xpath('//script[@type="application/json"]/text()')
        # print(type(result))
        result = result[0]
        # print(type(result))
        result = json.loads(result)
        # print(type(result))
        result = json.dumps(result['component'][0]['caseList'])
        # print(result)
        # print(type(result))
        with open('data.json','w') as file:
            file.write(result)
            print('數據已寫入json文件...')

        response = requests.get("https://voice.baidu.com/act/newpneumonia/newpneumonia/")
        # 將請求的結果寫入文件,便于分析
        with open('html.txt', 'w') as file:
            file.write(response.text)

        # 獲取時間
        time_in = re.findall('"mapLastUpdatedTime":"(.*?)"', response.text)[0]
        time_out = re.findall('"foreignLastUpdatedTime":"(.*?)"', response.text)[0]
        print(time_in)
        print(time_out)

        # 生成HTML對象
        html = etree.HTML(response.text)
        # 解析數據
        result = html.xpath('//script[@type="application/json"]/text()')
        print(type(result))
        result = result[0]
        print(type(result))
        result = json.loads(result)
        print(type(result))
        # 以每個省的數據為一個字典
        data_in = result['component'][0]['caseList']
        for each in data_in:
            print(each)
            print("\n" + '*' * 20)

        data_out = result['component'][0]['globalList']
        for each in data_out:
            print(each)
            print("\n" + '*' * 20)

        '''
        area --> 大多為省份
        city --> 城市
        confirmed --> 累計
        crued --> 值域
        relativeTime --> 
        confirmedRelative --> 累計的增量
        curedRelative --> 值域的增量
        curConfirm --> 現有確鎮
        curConfirmRelative --> 現有確鎮的增量

        '''

        # 規律----遍歷列表的每一項,可以發現,每一項(type:字典)均代表一個省份等區域,這個字典的前11項是該省份的毅擎數據,
        # 當key = 'subList'時,其結果為只有一項的列表,提取出列表的第一項,得到一系列的字典,字典中包含該城市的毅擎數據.

將數據寫入excel文件

        # 將得到的數據寫入excel文件
        # 創建一個工作簿
        wb = openpyxl.Workbook()
        # 創建工作表,每一個工作表代表一個area
        ws_in = wb.active
        ws_in.title = "國內毅擎"
        ws_in.append(['省份', '累計確診', '絲網', '治愈', '現有確診', '累計確診增量', '絲網增量', '治愈增量', '現有確診增量'])
        for each in data_in:
            temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                         each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                         each['curConfirmRelative']]
            for i in range(len(temp_list)):
                if temp_list[i] == '':
                    temp_list[i] = '0'
            ws_in.append(temp_list)

        # 獲取國外毅擎數據
        for each in data_out:
            print(each)
            print("\n" + '*' * 20)
            sheet_title = each['area']
            # 創建一個新的工作表
            ws_out = wb.create_sheet(sheet_title)
            ws_out.append(['郭家', '累計確診', '絲網', '治愈', '現有確診', '累計確診增量'])
            for country in each['subList']:
                list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                             country['curConfirm'], country['confirmedRelative']]
                for i in range(len(list_temp)):
                    if list_temp[i] == '':
                        list_temp[i] = '0'
                ws_out.append(list_temp)

            # 保存excel文件
            wb.save('./data.xlsx')

生成excel文件(效果展示)

國內疫情數據
國外疫情數據
國外疫情數據

最后附上完整代碼

import requests
from lxml import etree
import json
import re
import openpyxl


class Get_data():
    def get_data(self):
        # 目標url
        url = "https://voice.baidu.com/act/newpneumonia/newpneumonia/"

        # 偽裝請求頭
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/80.0.3987.149 Safari/537.36 '
        }

        # 發出get請求
        response = requests.get(url,headers=headers)

        # 將請求的結果寫入文件,便于分析
        with open('html.txt', 'w') as file:
            file.write(response.text)

    def get_time(self):
        with open('html.txt','r') as file:
            text = file.read()
        # 獲取更新時間
        time_in = re.findall('"mapLastUpdatedTime":"(.*?)"',text)[0]
        time_out = re.findall('"foreignLastUpdatedTime":"(.*?)"',text)[0]
        print('國內疫情更新時間為 '+time_in)
        print('國外疫情更新時間為 '+time_out)
        return time_in,time_out

    def parse_data(self):
        with open('html.txt','r') as file:
            text = file.read()
        # 生成HTML對象
        html = etree.HTML(text)
        # 解析數據
        result = html.xpath('//script[@type="application/json"]/text()')
        # print(type(result))
        result = result[0]
        # print(type(result))
        result = json.loads(result)
        # print(type(result))
        result = json.dumps(result['component'][0]['caseList'])
        # print(result)
        # print(type(result))
        with open('data.json','w') as file:
            file.write(result)
            print('數據已寫入json文件...')

        response = requests.get("https://voice.baidu.com/act/newpneumonia/newpneumonia/")
        # 將請求的結果寫入文件,便于分析
        with open('html.txt', 'w') as file:
            file.write(response.text)

        # 獲取時間
        time_in = re.findall('"mapLastUpdatedTime":"(.*?)"', response.text)[0]
        time_out = re.findall('"foreignLastUpdatedTime":"(.*?)"', response.text)[0]
        print(time_in)
        print(time_out)

        # 生成HTML對象
        html = etree.HTML(response.text)
        # 解析數據
        result = html.xpath('//script[@type="application/json"]/text()')
        print(type(result))
        result = result[0]
        print(type(result))
        result = json.loads(result)
        print(type(result))
        # 以每個省的數據為一個字典
        data_in = result['component'][0]['caseList']
        for each in data_in:
            print(each)
            print("\n" + '*' * 20)

        data_out = result['component'][0]['globalList']
        for each in data_out:
            print(each)
            print("\n" + '*' * 20)

        '''
        area --> 大多為省份
        city --> 城市
        confirmed --> 累計
        died --> 死亡
        crued --> 治愈
        relativeTime --> 
        confirmedRelative --> 累計的增量
        curedRelative --> 治愈的增量
        curConfirm --> 現有確診
        curConfirmRelative --> 現有確診的增量
        diedRelative --> 死亡的增量
        '''

        # 規律----遍歷列表的每一項,可以發現,每一項(type:字典)均代表一個省份等區域,這個字典的前11項是該省份的疫情數據,
        # 當key = 'subList'時,其結果為只有一項的列表,提取出列表的第一項,得到一系列的字典,字典中包含該城市的疫情數據.

        # 將得到的數據寫入excel文件
        # 創建一個工作簿
        wb = openpyxl.Workbook()
        # 創建工作表,每一個工作表代表一個area
        ws_in = wb.active
        ws_in.title = "國內疫情"
        ws_in.append(['省份', '累計確診', '死亡', '治愈', '現有確診', '累計確診增量', '死亡增量', '治愈增量', '現有確診增量'])
        for each in data_in:
            temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                         each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                         each['curConfirmRelative']]
            for i in range(len(temp_list)):
                if temp_list[i] == '':
                    temp_list[i] = '0'
            ws_in.append(temp_list)

        # 獲取國外疫情數據
        for each in data_out:
            print(each)
            print("\n" + '*' * 20)
            sheet_title = each['area']
            # 創建一個新的工作表
            ws_out = wb.create_sheet(sheet_title)
            ws_out.append(['國家', '累計確診', '死亡', '治愈', '現有確診', '累計確診增量'])
            for country in each['subList']:
                list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                             country['curConfirm'], country['confirmedRelative']]
                for i in range(len(list_temp)):
                    if list_temp[i] == '':
                        list_temp[i] = '0'
                ws_out.append(list_temp)

            # 保存excel文件
            wb.save('./data.xlsx')

求點贊求關注(?ω?)qwqqqqq

詳細講解視頻地址——詳細視頻講解

期待第二彈(繪制詞云圖)噢!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 國慶假期如約而至,朋友圈都是秀著回家的照片。 今天爸媽出去處理事情,留小弟和我在家,小弟小我5歲,這年齡差說小不小...
    玖盍閱讀 287評論 0 4
  • 昨天被一鄰居姐姐問到“明天情人節怎么過啊”,先是一愣,眼前浮現出一個又一個男人的臉… 5點一到,群里就開始刷刷出現...
    韋韋ViVi閱讀 325評論 2 8
  • 東北區:金鳳 報道 2020年2月14日,東望黑龍江黑河北安德馨課堂的10名志愿者,來到農墾社區...
    93e63647c0f8閱讀 367評論 0 3
  • 01春節是什么? 可能在我們現實生活中,很多人只知道要過年了,要回家團圓了,要熱熱鬧鬧都放煙花,打炮竹,有些還會守...
    獅子山的雪閱讀 433評論 0 4