一期Python爬蟲群作業(yè)-Week2

加入爬蟲群已經(jīng)第二周了,這周的作業(yè)是:

  1. 學(xué)習(xí)HTML
    http://www.w3school.com.cn/html/
  2. 學(xué)習(xí)正則表達(dá)式
    http://www.imooc.com/learn/550
  3. 試著爬一個(gè)網(wǎng)頁
    http://www.lxweimin.com/p/1c25e7f8cd74

這周的作業(yè)雖然沒有做的連滾帶爬,但是也不輕松。因?yàn)閷W(xué)習(xí)內(nèi)容有一個(gè)躍升。事實(shí)上到現(xiàn)在所以還不是很熟練。特別是正則表達(dá)式部分,絕對是一眼暈。
后來還是看了《python核心編程》。這本書的第一章就是正則(?。?,內(nèi)容有40頁,所以講的滿透徹的(我能不能理解又是another story)。

這周可能有點(diǎn)混,隨便看看正則馬上就到周四了,老師公布了爬蟲作業(yè)。第一步是按照向右老師的代碼敲。這步還算挺順利的,主要遇到的坑是自己寫路徑,然后格式寫錯(cuò),寫正確路徑之后又遇到保護(hù),換了個(gè)盤就好了。

<u>urllib.urlretrieve(imgurl, ' G: /%s.jpg' % x)</u>

第二步是試著自己爬花瓣網(wǎng)(因?yàn)閳D片比較美貌)。這個(gè)網(wǎng)址不是以jpg gif結(jié)尾。我又很直接的用了右鍵 查看源代碼網(wǎng)頁,所以。后來向右老師提醒我,才記得要用檢查,才能看到正確的代碼:

如果用Chrome瀏覽器的右鍵-查看源代碼功能,搜索 “<img ” 就只有一條結(jié)果,看代碼好像是 gif 文件


圖片.png

但是把鼠標(biāo)移到圖片上,右鍵選擇檢查,圖片的鏈接就是介個(gè)了:


圖片.png

所以,<img src="([.*\S ] *)"

#coding = utf-8
import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html= page.read()
    return html

html = getHtml('http://huaban.com/pins/1034928829/')

reg= r'<img src="([.*\S]*)"'

imgurls = re.findall(reg, html)

x=1
for imgurl in imgurls:
    print 'http:'+imgurl
    urllib.urlretrieve('http:'+imgurl, 'G://%s.jpg' % x)

    print "downloading %d"%x
    x +=1

先運(yùn)行的時(shí)候是報(bào)錯(cuò)的,還傻傻的不知道怎么回事,又跑去找大神看代碼。向右老師加了個(gè) 'http:'+ 就行了,這就是內(nèi)行外行的區(qū)別啊...
老師語錄:要注意檢查url路徑

雖然作業(yè)都是抄的,但爬出來的感覺還是很酸爽的...


圖片.png

這個(gè)代碼同時(shí)也爬了頭像,我后來手動(dòng)刪了。

好吧,接下來是爬站酷網(wǎng)。重復(fù)的代碼不寫了,其實(shí)就是改了兩條

......

html =  getHtml('http://www.zcool.com.cn/work/ZMjE1NjY2MzY=.html')

reg = r'src="([.*\S]*.jpg)"'

......

只爬下自己看中的一張圖,算是小ok吧。作者其余帖子的沒爬下來。總是疑神疑鬼的覺得對方寫了保護(hù)。
總之不算很成功,初步了解而已,不過總是爬下來一個(gè)半網(wǎng)站,給自己六十分吧

不關(guān)程序但小困擾的小白問題:
運(yùn)行框中中文顯示不出來
無法運(yùn)行選中的一段程序
哪天緩過氣來,解決一下!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,288評(píng)論 25 708
  • 加入爬蟲群第三周,這周的作業(yè)是:008 - 爬蟲處理流程及網(wǎng)頁解析009 - 使用XPath解析網(wǎng)頁010 - 使...
    只是不在意閱讀 759評(píng)論 0 3
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)提取、數(shù)據(jù)分析、數(shù)據(jù)挖掘、...
    whenif閱讀 18,105評(píng)論 45 523
  • 癥狀 iOS系統(tǒng) 開啟了勿擾模式 通訊錄里的聯(lián)系人撥打電話進(jìn)來,第一次打不通,3分鐘內(nèi)連續(xù)撥打第二次就能打通 解決...
    OD分子閱讀 1,705評(píng)論 0 0
  • 文字:若木菡 迷花飛絮,漫天瑩潔羽。玉宇瓊樓素裹。凝望眼,烏云聚。 欲暮,孤鶩去。簾卷爐火語。梅影橫窗空瘦,箋帛素...
    若木菡閱讀 387評(píng)論 22 33