爬蟲小程序

#coding:utf-8

import requests

from lxmlimport etree

#設(shè)置目標(biāo)地址

start_url ="https://www.liuxue86.com/zhufuyu/chunjiezhufuyu/{}/html"

target_url = [start_url.format(x)for xin range(2,5)]

target_url.append("https://www.liuxue86.com/zhufuyu/chunjiezhufuyu/")

# 設(shè)置請(qǐng)求頭

headers = {

'User-agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.101 Safari/537.36"

}

# 發(fā)送請(qǐng)求得到返回?cái)?shù)據(jù)

for urlin target_url:

response = requests.get(url,headers=headers)

# 轉(zhuǎn)換格式

? ? html = etree.HTML(response.text)

# 查找數(shù)據(jù)

? ? count_link = html.xpath("http://ul[@class='grid_list']/li/a/@href")

for link_urlin count_link:

response1 = requests.get(link_url,headers=headers)

response1.encoding ='utf-8'

? ? ? ? html2 = etree.HTML(response1.text)

content = html2.xpath("http://div[@id='article-content']/p[position()>1]")

for iin content:

cont = i.xpath("string(.)")

print cont



#coding:utf-8

'''

2、http://kr.tingroom.com/yuedu/ 獲得所有韓語(yǔ)閱讀資料'''

import requests

from lxmlimport etree

response = requests.get('http://kr.tingroom.com/yuedu/hysjyd/')

content = etree.HTML(response.text)

urls = content.xpath("http://ul[@class='e2']/li/a/@href")

print urls

for urlin urls :

response = requests.get(url)

response.encoding ='utf-8'

? ? content = etree.HTML(response.text)

txt = content.xpath("http://div[@id='article']")[0].xpath("string(.)")

print txt

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,837評(píng)論 18 139
  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容,均僅用于學(xué)習(xí)交流,請(qǐng)勿用于任何商業(yè)用途! 一、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下,閱讀本文...
    Bruce_Szh閱讀 12,763評(píng)論 6 28
  • 設(shè)計(jì)思路 相關(guān)技術(shù) 抽象類 多線程 隊(duì)列 Http Get請(qǐng)求 字符串解析 項(xiàng)目結(jié)構(gòu) AbsChain 職責(zé)鏈抽象...
    北冥冰皇閱讀 984評(píng)論 0 1
  • 程序的主要功能就是獲取一個(gè)天氣網(wǎng)站的數(shù)據(jù)然后存儲(chǔ)在一個(gè)cvs文件 環(huán)境為2.7 需要用到的庫(kù) requests ...
    等女巫的一個(gè)微笑閱讀 707評(píng)論 0 4
  • 首次接觸爬蟲,這個(gè)程序可以讓初學(xué)者明白爬蟲是啥,爬蟲的基本邏輯。(參照網(wǎng)易云課堂heibanke老師的程序編寫的。...
    Kedi閱讀 8,267評(píng)論 2 11