聚沙成塔--爬蟲系列(十)(這一刻你覺得找個程序員男朋友真幸福)

版權聲明:本文為作者原創文章,可以隨意轉載,但必須在明確位置標明出處!??!

最近知乎上有一篇文章《月入五萬的西二旗人教你如何活得像月薪五千》說的是北京西二旗程序員月入五萬卻過著月薪五千一樣的生活,相比較其它行業,程序員的工資相對來說算是比較高的,程序員給人的形象永遠都是眼鏡、沒刮過的胡須、亂糟糟的頭發、還有個必備的電腦包(畢竟這可是吃飯的家伙),就是這種形象的人拿著月薪五萬卻過著月薪五千的生活,不過這是有原因的,996的工作時間(朝九晚九+周六),公司發的工裝和沖鋒衣可以一年四季穿到頭,全年都不帶買衣服的,唯一的愛好可能就是打打游戲,買買電子產品了,顯示器一定要大,而且不止一個。所以如果你是妹子,那么找個程序員也是不錯的,安全、放心。當然本章的重點不是講怎么月入五萬,本章的重點是講怎么將數據寫入到Excel表格中,方便我們做簡單的統計。

上一章講到了將如何將數據寫入到文本文件里,但文本文件操作比較簡單,如果我們要對數據做一些統計之類的操作那么文本文件就提供不了這些支持了,所以本章我們將數據寫到Excel表格里做一些簡單的統計。

openpyxl庫

讀寫Excel需要用到第三方庫,這里我們選擇openpyxl庫,這個庫可以操作新版本的Excel,xlrt、xlwt兩個庫是用來讀寫老版本的Execl的,也就是擴展名是*.xls

安裝openpyxl庫

在ubuntu命令行終端輸入以下命令就可以安裝openpydl庫了,如果沒有報錯則證明你安裝好了。

sudo pip install openpyxl

校驗openpyxl是否安裝

在終端執行python--》回車--》import openpyxl--》回車。如果沒有拋出異常證明該庫已經安裝好了。

workbook、worksheet

要讀寫Excel我們首先要弄清楚兩個概念,

  • workbook: 工作簿,它的意思是我們打開一個Excel文檔后,整個Excel文檔被稱作為一個工作簿。
  • worksheet: 工作表,如果我們新鍵一個Excel文件,然后打開它,我們可以看到底部有一個Sheet的選項,也就是我們的當前表格,也被稱之為活動表格。

所以我們操作Excel表格的時候一定是要先有workbook后才能去操作worksheet,這點概念大家要弄清楚。

在內存中操作Excel

有了上面工作簿和工作表的概念,那么我們在內存中的操作步驟也要遵循上面的先有工作簿,再有工作表的規定。所以我們第一步是先創建一個工作簿,其次是獲取一個活動的工作表,最后才是去操作工作表中的元素,代碼如下

from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
#給A1單元賦值
ws['A1'] = 'test'
#保存Excel
wb.save('sample.xlsx')

執行結果

執行結果

從結果可以看到A1單元確實被賦值為test了。Sheet及時我們的活動表格。
如果你想修改Sheet的名稱,或者想創建其它Sheet,下面這么做就可以了。

from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
#給A1單元賦值
ws['A1'] = 'test'

ws.title = 'test'

ws1 = wb.create_sheet("test1")
ws2 = wb.create_sheet("test2")

#保存Excel
wb.save('sample.xlsx')

執行結果

執行結果

從結果中可以看到我們將Sheet該成了test,并且新創建了test1,test2表格頁簽。

訪問元素

這里需要注意的是,當我們在內存中創建一個worksheet的時候,它是不包含cells的,也就是不包含創建了單元格,只有當我們第一次去訪問它的時候它才回去創建單元格,就像上面的代碼ws['A1'] = 'test',當給A1單元格賦值的時候才回去創建單元格A1,這樣做的目的相信大家都已經看出來了,節約資源,提高效率。cells操作還可以通過行、列來操作,如ws.cell(row=4, column=2, value=10),就是給第4行第二列賦值為10,各位可是執行運行試試,看看結果是不是這樣的。

多行多列范圍訪問

  • 切片式范圍訪問: 切片是python里經常用到的操作,openpyxl庫對范圍訪問也可以切片,語法如下
from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
cell_range = ws['A1' : 'C4']
print(cell_range)

訪問A1到C4范圍的所有cell,它的輸出結果如下:

((<Cell 'Sheet'.A1>, <Cell 'Sheet'.B1>, <Cell 'Sheet'.C1>), 
(<Cell 'Sheet'.A2>, <Cell 'Sheet'.B2>, <Cell 'Sheet'.C2>),
 (<Cell 'Sheet'.A3>, <Cell 'Sheet'.B3>, <Cell 'Sheet'.C3>), 
(<Cell 'Sheet'.A4>, <Cell 'Sheet'.B4>, <Cell 'Sheet'.C4>))

結果返回的是一個元組,元組里每一項又包含了一個元組,該元組表示一行,一共4行。

  • 按列訪問: 按列訪問的語法如下
from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
col_range = ws['C:D']
print(col_range)

訪問第C列到第D列的cell,執行結果如下

((<Cell 'Sheet'.C1>,), (<Cell 'Sheet'.D1>,))

從這里我們可以看出在內存中創建一個工作表時,只有訪問cell的時候cell才回被創建,當我們的程序做出一下改變是,它的結果會是什么呢。

from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
ws['A4'] = 'SFS'
col_range = ws['C:D']
print(col_range)

執行程序后的結果變成了:

((<Cell 'Sheet'.C1>, <Cell 'Sheet'.C2>, <Cell 'Sheet'.C3>, <Cell 'Sheet'.C4>), 
(<Cell 'Sheet'.D1>, <Cell 'Sheet'.D2>, <Cell 'Sheet'.D3>, <Cell 'Sheet'.D4>))
  • 按行訪問:按行訪問跟按列訪問是一樣的,具體的執行結果是怎么楊的,大家可以自己去嘗試一下,語法如下:
row5= ws[5]
row_range = ws[5:10]

迭代器訪問行列區域

除了切片方式,openpyxl也提供了迭代器的方式來訪問行列,如下按行優先訪問2 * 3列范圍的元素

from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
for row in ws.iter_rows(min_row=1, max_col=3, max_row=2):
    for cell in row:
        print(cell)

執行結果如下:

<Cell 'Sheet'.A1>
<Cell 'Sheet'.B1>
<Cell 'Sheet'.C1>
<Cell 'Sheet'.A2>
<Cell 'Sheet'.B2>
<Cell 'Sheet'.C2>

按列優先訪問如下:

from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active
for row in ws.iter_cols(min_row=1, max_col=3, max_row=2):
    for cell in row:
        print(cell)

執行結果如下:

<Cell 'Sheet'.A1>
<Cell 'Sheet'.A2>
<Cell 'Sheet'.B1>
<Cell 'Sheet'.B2>
<Cell 'Sheet'.C1>
<Cell 'Sheet'.C2>

如果你需要迭代所有的行列那你可以像這樣做:

from openpyxl import Workbook
#創建一個工作簿
wb = Workbook()
#活取一個活動的工作表
ws = wb.active

#按行優先迭代
ws['C9'] = 'test'
print(tuple(ws.rows))

#按列優先迭代
print(tuple(ws.columns))

執行結果到底怎樣,各位自行探索一下。

加載一個已存在的Excel文檔

加載一個已存在的Excel文檔非常簡單,加載后返回一個workbook對象,那么我們就可以像上面介紹的操作去處理加載后的文檔了。

from openpyxl import load_workbook
wb2 = load_workbook('sample.xlsx')
print wb2.get_sheet_names()

圖表

圖表有2D和3D圖表,下面以一個2D的圖表作為例子,這個例子是openpyxl手冊上的例子

from openpyxl import Workbook
from openpyxl.chart import (
    AreaChart,
    Reference,
    Series,
)

wb = Workbook()
ws = wb.active

rows = [
    ['Number', 'Batch 1', 'Batch 2'],
    [2, 40, 30],
    [3, 40, 25],
    [4, 50, 30],
    [5, 30, 10],
    [6, 25, 5],
    [7, 50, 10],
]

for row in rows:
    ws.append(row)

chart = AreaChart()
chart.title = "Area Chart"
chart.style = 13
chart.x_axis.title = 'Test'
chart.y_axis.title = 'Percentage'

cats = Reference(ws, min_col=1, min_row=1, max_row=7)
data = Reference(ws, min_col=2, min_row=1, max_col=3, max_row=7)
chart.add_data(data, titles_from_data=True)
chart.set_categories(cats)

ws.add_chart(chart, "A10")

wb.save("area.xlsx")

執行后的結果:

圖表結果

openpyxl提供了非常豐富的圖表支持,像條形圖、柱狀圖、餅圖、曲線圖等等,有興趣的同學可以到https://openpyxl.readthedocs.io/en/default/查看。當然想合并單元格、公式、高亮、文本格式等等用法都可以到上面提供的網址查看。

用圖表來表示哪個用戶獲得的好笑數最高

下面我們把爬到的數據寫入到Excel表格中,并且用圖表來先生哪個用戶的好笑數最高,代碼如下,源碼放在https://github.com/Gavinxyj/Python/tree/master/python_study/Scrapy/modules歡迎大家fork、Stars

# Scheduler.py
from urllib import request
from urllib import error
import re
import os
from Excel import ExcelOper


class Scheduler(object):

    def __init__(self, url, user_agent):
        self.url = url
        self.headers = {'User-Agent': user_agent}
        self.excel_obj = ExcelOper()

    def read_html(self, codec):
        '''[read_html]
        
        [讀取html頁面內容]
        
        Arguments:
            url {[string]} -- [url地址]
            headers {[dict]} -- [用戶代理,這里是一個字典類型]
            codec {[string]} -- [編碼方式]
        
        Returns:
            [string] -- [頁面內容]
        '''
        # 構建一個請求對象
        try:
            req = request.Request(self.url, headers=self.headers)
            # 打開一個請求
            response = request.urlopen(req)
            # 讀取服務器返回的頁面數據內容
            content = response.read().decode(codec)

            return content

        except error.URLError as e:
            print(e.reason)
            return None       
        
    def match_element(self, content, pattern):
        '''[match_element]
        
        [匹配元素]
        
        Arguments:
            content {[string]} -- [文本內容]
            pattern {[object]} -- [匹配模式]

        Returns:
            [list] -- [匹配到的元素]
        '''
        # 匹配所有用戶信息
        
        userinfos = re.findall(pattern, content)
        
        return userinfos
    def write_file(self, content):
        with open('./qiubai.txt', 'a+') as fp:
            fp.write(content + '\n')

    def get_content(self):
        content = self.read_html('utf-8')
        pattern = re.compile(r'<div class="article block untagged mb15[\s\S]*?class="stats-vote".*?</div>', re.S)
        if content:
            userinfos = self.match_element(content, pattern)
            infos = []
            if userinfos:
                pattern = re.compile(r'<a href="(.*?)".*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i>', re.S)
                picture = re.compile(r'<div class="thumb">.*?src="(.*?)"', re.S)
                for userinfo in userinfos:
                    item = self.match_element(userinfo, pattern)
                    pictures = self.match_element(userinfo, picture)
                    try:
                        if item:
                            userid, name, content, num = item[0]
                            # 去掉換行符,<span></span>,<br/>符號
                            userid = re.sub(r'\n|<span>|</span>|<br/>', '', userid)
                            name = re.sub(r'\n|<span>|</span>|<br/>', '', name)
                            content = re.sub(r'\n|<span>|</span>|<br/>|\x01', '', content)
                            
                            if pictures:
                                path = './users/'
                                if not os.path.exists(path):
                                    os.makedirs(path)

                                request.urlretrieve('http:' + pictures[0], path + os.path.basename(pictures[0]))
                                infos.append((userid, name, int(num), content, pictures[0]))
                                #print((userid, name, num, content, pictures[0]))
                                #self.write_file(userid + '\t' + name + '\t' + content + '\t' + num + '\t' + pictures[0])

                            else:
                                #print((userid, name, content, num))
                                infos.append((userid, name, int(num), content))
                                #self.write_file(userid + '\t' + name + '\t' + content + '\t' + num)
                    except Exception as e:
                        print(e)
                self.excel_obj.write_excel(infos)

if __name__ == '__main__':
  url = 'https://www.qiushibaike.com'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
  handle = Scheduler(url, user_agent)
  handle.get_content()
# Excel.py
from openpyxl import Workbook
from openpyxl.chart import (
    AreaChart,
    Reference,
    Series,
)

class ExcelOper(object):

    def __init__(self):
        self.wb = Workbook()

    def write_excel(self, infos):
        try:
            ws = self.wb.active
            # 增加表頭
            ws.append(['id', 'username', 'funny_num', 'context', 'url'])
            for row_index,row_value in enumerate(infos, 2):
                
                for col_index, col_value in enumerate(row_value, 1):
                    ws.cell(row=row_index, column=col_index, value=col_value)

            self.draw_chart(ws)
            self.wb.save('qiubai.xlsx')
        except Exception as e:
            raise e

    def draw_chart(self, ws):
        chart = AreaChart()
        chart.title = "Joker Chart"
        chart.style = 13
        chart.x_axis.title = 'User'
        chart.y_axis.title = 'Funny Num'

        cats = Reference(ws, min_col=2, min_row=1, max_row=25)
        data = Reference(ws, min_col=3, min_row=1, max_col=3, max_row=25)
        chart.add_data(data, titles_from_data=True)
        chart.set_categories(cats)

        ws.add_chart(chart, "A30")
    def read_excel(self):
        pass

整個程序增加了一個Excel.py文件,主要用來主要用來操作excel表格,里面使用到的方法在本章都已經講過,更多的圖表制作有興趣的同學可以自己去研究研究,最后奉上執行結果。

執行結果

PS: 如果你是“表”姐,需要經常在網上收集內容,那么找個程序員男朋友吧,他會幫你弄得妥妥的,再也不用加班,不用熬夜了,哈哈哈...


歡迎關注我:「愛做飯的老謝」,老謝一直在努力...

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 本例為設置密碼窗口 (1) If Application.InputBox(“請輸入密碼:”) = 1234 Th...
    浮浮塵塵閱讀 13,727評論 1 20
  • 使用首先需要了解他的工作原理 1.POI結構與常用類 (1)創建Workbook和Sheet (2)創建單元格 (...
    長城ol閱讀 8,490評論 2 25
  • 1.1 VBA是什么 直到90年代早期,使應用程序自動化還是充滿挑戰性的領域.對每個需要自動化的應用程序,人們不得...
    浮浮塵塵閱讀 21,825評論 6 49
  • 轉自鏈接 2.3.5 IF函數 2.3.6 CountIf和SumIf函數 2.3.7 Lookup函數 2.3....
    腿毛褲閱讀 12,929評論 0 0
  • 打卡
    安心的心靈花園閱讀 188評論 0 0