小俊┅┅快┅┅用力啊男视频,日韩免费视频,自拍另类综合欧美小说

加入爬蟲群已經(jīng)第二周了，這周的作業(yè)是：

學(xué)習(xí)HTML
http://www.w3school.com.cn/html/
學(xué)習(xí)正則表達(dá)式
http://www.imooc.com/learn/550
試著爬一個(gè)網(wǎng)頁
http://www.lxweimin.com/p/1c25e7f8cd74

這周的作業(yè)雖然沒有做的連滾帶爬，但是也不輕松。因?yàn)閷W(xué)習(xí)內(nèi)容有一個(gè)躍升。事實(shí)上到現(xiàn)在所以還不是很熟練。特別是正則表達(dá)式部分，絕對是一眼暈。
后來還是看了《python核心編程》。這本書的第一章就是正則（?。?，內(nèi)容有40頁，所以講的滿透徹的（我能不能理解又是another story）。

這周可能有點(diǎn)混，隨便看看正則馬上就到周四了，老師公布了爬蟲作業(yè)。第一步是按照向右老師的代碼敲。這步還算挺順利的，主要遇到的坑是自己寫路徑，然后格式寫錯(cuò)，寫正確路徑之后又遇到保護(hù)，換了個(gè)盤就好了。

<u>urllib.urlretrieve(imgurl, ' G: /%s.jpg' % x)</u>

第二步是試著自己爬花瓣網(wǎng)（因?yàn)閳D片比較美貌）。這個(gè)網(wǎng)址不是以jpg gif結(jié)尾。我又很直接的用了右鍵查看源代碼網(wǎng)頁，所以。后來向右老師提醒我，才記得要用檢查，才能看到正確的代碼：

如果用Chrome瀏覽器的右鍵-查看源代碼功能，搜索 “<img ” 就只有一條結(jié)果，看代碼好像是 gif 文件

圖片.png

但是把鼠標(biāo)移到圖片上，右鍵選擇檢查，圖片的鏈接就是介個(gè)了：

圖片.png

所以，<img src="([.*\S ] *)"

#coding = utf-8
import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html= page.read()
    return html

html = getHtml('http://huaban.com/pins/1034928829/')

reg= r'<img src="([.*\S]*)"'

imgurls = re.findall(reg, html)

x=1
for imgurl in imgurls:
    print 'http:'+imgurl
    urllib.urlretrieve('http:'+imgurl, 'G://%s.jpg' % x)

    print "downloading %d"%x
    x +=1

先運(yùn)行的時(shí)候是報(bào)錯(cuò)的，還傻傻的不知道怎么回事，又跑去找大神看代碼。向右老師加了個(gè) 'http:'+ 就行了，這就是內(nèi)行外行的區(qū)別啊...
老師語錄：要注意檢查url路徑

雖然作業(yè)都是抄的，但爬出來的感覺還是很酸爽的...

圖片.png

這個(gè)代碼同時(shí)也爬了頭像，我后來手動(dòng)刪了。

好吧，接下來是爬站酷網(wǎng)。重復(fù)的代碼不寫了，其實(shí)就是改了兩條

......

html =  getHtml('http://www.zcool.com.cn/work/ZMjE1NjY2MzY=.html')

reg = r'src="([.*\S]*.jpg)"'

......

只爬下自己看中的一張圖，算是小ok吧。作者其余帖子的沒爬下來。總是疑神疑鬼的覺得對方寫了保護(hù)。
總之不算很成功，初步了解而已，不過總是爬下來一個(gè)半網(wǎng)站，給自己六十分吧

不關(guān)程序但小困擾的小白問題：
運(yùn)行框中中文顯示不出來
無法運(yùn)行選中的一段程序
哪天緩過氣來，解決一下！

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

一期Python爬蟲群作業(yè)-Week2

一期Python爬蟲群作業(yè)-Week2

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

一期Python爬蟲群作業(yè)-Week2

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频