加入爬蟲群已經(jīng)第二周了,這周的作業(yè)是:
- 學(xué)習(xí)HTML
http://www.w3school.com.cn/html/ - 學(xué)習(xí)正則表達(dá)式
http://www.imooc.com/learn/550 - 試著爬一個(gè)網(wǎng)頁
http://www.lxweimin.com/p/1c25e7f8cd74
這周的作業(yè)雖然沒有做的連滾帶爬,但是也不輕松。因?yàn)閷W(xué)習(xí)內(nèi)容有一個(gè)躍升。事實(shí)上到現(xiàn)在所以還不是很熟練。特別是正則表達(dá)式部分,絕對是一眼暈。
后來還是看了《python核心編程》。這本書的第一章就是正則(?。?,內(nèi)容有40頁,所以講的滿透徹的(我能不能理解又是another story)。
這周可能有點(diǎn)混,隨便看看正則馬上就到周四了,老師公布了爬蟲作業(yè)。第一步是按照向右老師的代碼敲。這步還算挺順利的,主要遇到的坑是自己寫路徑,然后格式寫錯(cuò),寫正確路徑之后又遇到保護(hù),換了個(gè)盤就好了。
<u>urllib.urlretrieve(imgurl, ' G: /%s.jpg' % x)</u>
第二步是試著自己爬花瓣網(wǎng)(因?yàn)閳D片比較美貌)。這個(gè)網(wǎng)址不是以jpg gif結(jié)尾。我又很直接的用了右鍵 查看源代碼網(wǎng)頁,所以。后來向右老師提醒我,才記得要用檢查,才能看到正確的代碼:
如果用Chrome瀏覽器的右鍵-查看源代碼功能,搜索 “<img ” 就只有一條結(jié)果,看代碼好像是 gif 文件
但是把鼠標(biāo)移到圖片上,右鍵選擇檢查,圖片的鏈接就是介個(gè)了:
所以,<img src="([.*\S ] *)"
#coding = utf-8
import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html= page.read()
return html
html = getHtml('http://huaban.com/pins/1034928829/')
reg= r'<img src="([.*\S]*)"'
imgurls = re.findall(reg, html)
x=1
for imgurl in imgurls:
print 'http:'+imgurl
urllib.urlretrieve('http:'+imgurl, 'G://%s.jpg' % x)
print "downloading %d"%x
x +=1
先運(yùn)行的時(shí)候是報(bào)錯(cuò)的,還傻傻的不知道怎么回事,又跑去找大神看代碼。向右老師加了個(gè) 'http:'+ 就行了,這就是內(nèi)行外行的區(qū)別啊...
老師語錄:要注意檢查url路徑
雖然作業(yè)都是抄的,但爬出來的感覺還是很酸爽的...
這個(gè)代碼同時(shí)也爬了頭像,我后來手動(dòng)刪了。
好吧,接下來是爬站酷網(wǎng)。重復(fù)的代碼不寫了,其實(shí)就是改了兩條
......
html = getHtml('http://www.zcool.com.cn/work/ZMjE1NjY2MzY=.html')
reg = r'src="([.*\S]*.jpg)"'
......
只爬下自己看中的一張圖,算是小ok吧。作者其余帖子的沒爬下來。總是疑神疑鬼的覺得對方寫了保護(hù)。
總之不算很成功,初步了解而已,不過總是爬下來一個(gè)半網(wǎng)站,給自己六十分吧
不關(guān)程序但小困擾的小白問題:
運(yùn)行框中中文顯示不出來
無法運(yùn)行選中的一段程序
哪天緩過氣來,解決一下!