Python實(shí)戰(zhàn)計(jì)劃學(xué)習(xí)筆記:爬取租房信息 v1.0

敲了那么多年的課本實(shí)例,總也沒有學(xué)會(huì)編程。這次能參照實(shí)例,寫了第一個(gè)自己覺得有點(diǎn)實(shí)際用途的程序,小小的激動(dòng)一下!

我的成果:

Snip20160701_2.png

我的代碼:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import requests
import time

url_one = ["http://sh.xiaozhu.com/search-duanzufang-p{}-0/".format(str(i)) for i in range(1,2)]  #房源清單頁(yè)面地址
#url = "http://sh.xiaozhu.com/fangzi/2943586863.html"

headers = {
    "User_Agent":  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36',
    "Cookie": 'abtest_ABTest4SearchDate=b; xzuuid=5ec2c267; _gat_UA-33763849-7=1; __utmt=1; OZ_1U_2282=vid=v77195a84c7816.0&ctime=1467062850&ltime=1467062847; OZ_1Y_2282=erefer=-&eurl=http%3A//bj.xiaozhu.com/search-duanzufang-p1-0&etime=1467061671&ctime=1467062850&ltime=1467062847&compid=2282; _ga=GA1.2.2126392000.1467061672; __utma=29082403.2126392000.1467061672.1467061672.1467061672.1; __utmb=29082403.14.9.1467062851049; __utmc=29082403; __utmz=29082403.1467061672.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)',
}

#獲取房源詳情頁(yè)面地址
def get_url(url_pages,headers):
    url_two = []    #房源詳情頁(yè)面地址清單
    for url_page in url_pages:
        wb_data = requests.get(url_page, headers=headers)
        time.sleep(4)
        soup = BeautifulSoup(wb_data.text, 'lxml')

        url_ls = soup.select("#page_list > ul > li > a")
        for url in url_ls:
            url_contant = url.get("href")
            url_two.append(url_contant)
    return url_two

#獲取房源詳情
def get_attractions(url,headers):
    wb_data = requests.get(url, headers = headers)
    soup = BeautifulSoup(wb_data.text,'lxml')

    titles = soup.select("body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em")
    addresses = soup.select("body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span.pr5")
    rents = soup.select("#pricePart > div.day_l > span")
    house_images = soup.select("#curBigImage")
    landlord_images = soup.select("#floatRightBox > div.js_box.clearfix > div.member_pic > a > img")
    #landlord_sexes = soup.select("")
    landlord_names = soup.select("#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a")


    for title, address, rent, house_image, landlord_image, landlord_name in zip(titles,addresses,rents,house_images,landlord_images,landlord_names):
        title_contant = title.get_text()
        address_contant = address.get_text()
        rent_contant = rent.get_text()
        house_image_contant = house_image.get("src")
        landlord_image_contant = landlord_image.get("src")
        #landlord_sexes_contant =
        landlord_name_contant = landlord_name.get_text()

    data = {
        "title": title_contant,
        "address": address_contant,
        "rent": rent_contant,
        "house_image": house_image_contant,
        "landlord_imgae": landlord_image_contant,
        "landlord_name": landlord_name_contant
    }
    return data

#主程序

#獲取房源詳情頁(yè)面地址
urls = get_url(url_one,headers)

#獲取房源詳情
for url in urls:
    time.sleep(4)
    print(get_attractions(url,headers))

總結(jié):

  • 找出第一層網(wǎng)址的規(guī)律,裝入列表中
  • 從上述列表中的網(wǎng)址中找出第二層網(wǎng)址(每個(gè)房子詳情頁(yè)面)鏈接地址,裝入列表中
  • 從上述列表中爬取需要的信息,裝入字典
  • 輸出爬取結(jié)果

(持續(xù)改進(jìn)中……)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,197評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,415評(píng)論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,104評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,884評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,647評(píng)論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,130評(píng)論 1 323
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,208評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,366評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,887評(píng)論 1 334
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,737評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,939評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,478評(píng)論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,174評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,586評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,827評(píng)論 1 283
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,608評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,914評(píng)論 2 372

推薦閱讀更多精彩內(nèi)容