微信里輸入CS_mastering搜索公眾號,關注后回復爬蟲獲取資源
畢業設計分為四部分。每一部分都會有具體代碼與注釋,也會有一些外延知識的提及與討論,歡迎大家一起學習進步。
爬蟲簡單介紹
所謂爬蟲就是編寫代碼從網頁上爬取自己想要的數據,代碼的質量決定了你能否精確的爬取想要得到的數據,得到數據后能否直觀正確的分析。
Python無疑是所有語言中最適合爬蟲的。Python本身很簡單,可是真正用好它需要學習大量的第三方庫插件。比如matplotlib庫,是一個仿照matalab的強大的繪圖庫,用它可以將爬下來的數據畫出餅圖、折線圖、散點圖等等,甚至是3D圖來直觀的展示。
Python第三方庫的安裝可以手動安裝,但是更為簡便的是在命令行直接輸入一行代碼即可自動搜索資源并安裝。而且非常智能,可以識別自己電腦的類型找到最合適的版本。
Pip install +你所需要的第三方庫
或者是easy install +你所需要的第三方庫
這里建議大家使用pip安裝,因為pip可以安裝也可以卸載,而另一種方法只能安裝。如果遇到你想使用新的版本的第三方庫,使用pip的優勢就會顯現出來。
第一部分:交互界面設計
為了增加工作量,我設計了一個交互界面來湊數。其實很簡單,用的是python自帶的第三方庫Tkinter。注意,引用這個庫的時候呢,必須大寫。我就因為這個大小寫問題,糾結了一下午才發現出錯誤。
def web():
root = Tk()
Label(root,text='請輸入網址').grid(row=0,column=0) #對Label內容進行表格式布局
Label(root,text='請輸入User-Agent :').grid(row=1,column=0)
v1=StringVar() #設置變量
v2=StringVar()
e1 = Entry(root,textvariable=v1) #用于儲存 輸入的內容
e2 = Entry(root,textvariable=v2)
e1.grid(row=0,column=1,padx=10,pady=5) #進行表格式布局
e2.grid (row=1,column=1,padx=10,pady=5)
url = e1.get() #將從輸入框中得到的網址賦值給url
head = e2.get()
我這只是簡單的設計一個交互界面,python有更為豐富的框架可以讓界面更加友好以及美觀。
第二部分:python爬蟲
(這部分代碼參考簡書ID方志朋的文章)
我這里爬蟲所爬取的是一位知名博主的博客,并對其所有的文章進行結巴分詞。從而提取關鍵詞,分析這位博主使用當下比較熱的與互聯網相關的詞匯的頻率。
思路是這樣的。
先編寫一個函數download()獲取url,接著編寫一個函數parse_descrtion()解析從
url中獲取的html,最后結巴分詞。
def download(url): #通過給定的url爬出數據
if url is None:
return None
try:
response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36', })
if (response.status_code == 200):
return response.content
return None
except:
return None
def parse_descrtion(html):
if html is None:
return None
soup = BeautifulSoup(html, "html.parser") #html字符串創建BeautifulSoup
links = soup.find_all('a', href=re.compile(r'/forezp/article/details'))
for link in links:
titles.add(link.get_text())
def jiebaSet():
strs=''
if titles.__len__()==0:
return
for item in titles:
strs=strs+item;
tags = jieba.analyse.extract_tags(strs, topK=100, withWeight=True)
for item in tags:
print(item[0] + '\t' + str(int(item[1] * 1000)))
第一個函數沒什么好說的。
第二個函數用到了beautifulsoup,通過對網頁的分析,從而尋找所有的滿足條件為
href=re.compile(r'/forezp/article/details')的a標簽里的內容。
第三個函數就是結巴分詞。接下來對結巴分詞作簡單的介紹。
支持三種分詞模式。
精確模式:試圖將句子最精確地切開,適合文本分析。
全模式:把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義。
搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
舉個例子,結巴分詞“我來到北京清華大學”這句話。
【全模式】:我/來到/北京/清華/清華大學/華大/大學
【精確模式】:我/來到/北京/清華大學
第三部分:連接mongoDB數據庫
client = pymongo.MongoClient("localhost", 27017)
這句是使用給定主機位置和端口。pymongo的Connection()方法不建議使用,官方推薦新方法MongoClient()。
db = client['local']
這句是將創建好mongoDB后默認存在的兩個數據庫中的其中一個“local”賦給db,這樣
db在以后的程序里就代表數據庫local。
posts = db.pymongo_test
post_id = posts.insert(data)
將local里默認的一個集合“pymongo_test”賦值給posts,并且用insert方法單個插入數據。最后回到結巴分詞里的一個循環程序里,將數據依次插入。
以上是有關連接數據庫的核心代碼,接下來介紹如何啟動mongoDB數據庫。(我一開始編程怎么都連接不上,后來發現是數據庫自身沒有啟動,唉,編程里發生的傻逼事情實在是太多了。)
微軟徽標+R,輸入cmd,找“mongodb”的路徑,然后運行mongod開啟命令,同時用--dbpath指定數據存放地點為“db”文件夾。
我這里是放在了E盤,大家根據需要自己設置。最后要看下是否開啟成功,從圖中的信息中獲知,mongodb采用27017端口,那么我們就在瀏覽器輸http://localhost:27017,打開后mongodb告訴我們在27017上Add 1000可以用http模式查看mongodb的管理信息。
第四部分:數據分析
最后一部分就是數據分析了,我這里用了兩個工具。
一個是用artword在線工具,地址:[https://wordart.com]
另一個就是使用matplotlib第三方庫繪圖更直觀更系統的表現數據。第一個工具很簡單,大家進入網站就會使用,現在主要介紹第二種工具的使用。
先介紹餅圖的使用。
plt.figure(figsize=(6,9)) #調節圖形大小,寬,高
labels = [u'springboot',u'Cloud',u'spring'] #定義餅狀圖的標簽,標簽是列表
sizes = [47.2,30.5,22.3,]#每個標簽占多大,會自動去算百分比
colors = ['red','yellowgreen','lightskyblue']
explode = (0.05,0,0)#將某部分爆炸出來, 使用括號,將第一塊分割出來,數值的大小是分割出來的與其他兩塊的間隙
patches,l_text,p_text = plt.pie(sizes,explode=explode,labels=labels,colors=colors,
labeldistance = 1.1,autopct = '%3.1f%%',shadow = startangle = 90,pctdistance = 0.6)#labeldistance,文本的位置離遠點有多遠,1.1指1.1倍半徑的位置
#autopct,圓里面的文本格式,%3.1f%%表示小數有三位,整數有一位的浮點數
#shadow,餅是否有陰影
#startangle,起始角度,0,表示從0開始逆時針轉,為第一塊。一般選擇從90度開始比較好看
#pctdistance,百分比的text離圓心的距離
#patches, l_texts, p_texts,為了得到餅圖的返回值,p_texts餅圖內部文本的,l_texts餅圖外label的文本
#改變文本的大小
#方法是把每一個text遍歷。調用set_size方法設置它的屬性
for t in l_text:
t.set_size(15)
for t in p_text:
t.set_size(15)
#設置x,y軸刻度一致,這樣餅圖才能是圓的
plt.axis('equal')
plt.legend()
plt.show()
然后是條形圖的使用。
people = ('springboot', 'Cloud', 'spring')
y_pos = np.arange(len(people))
performance = 3 + 10 * np.random.rand(len(people))
performance = (307,189,144)
error = np.random.rand(len(people))
plt.barh(y_pos, performance, xerr=error, align='center', alpha=0.4)
plt.yticks(y_pos, people)
plt.xlabel('time')
plt.ylabel('name')
plt.title('blog bar chart')
plt.show()
總結
python給人的整體感覺就是代碼簡潔,功能強大。針對數據分析有其獨特的功能和精確的分析能力。
我們學院軟件工程一位大神去了今日頭條,干的就是python工程師,本科就拿到了28W的年薪。
在目前的大數據時代,python語言的使用頻率也在日漸上升,其用途也會越來越廣。
還在等什么,趕緊學python去吧。