爬取個人首頁文章

import requests
from bs4 import BeautifulSoup
import re

#爬取個人簡書首頁文章
articleList=[]  #用于保存所寫的文章
articleInfo={}
jianshu='www.lxweimin.com'
try:
    r=requests.get('http://www.lxweimin.com/u/16d377e2ed69')     #獲得了一個Response對象。更改入口時,修改此處鏈接
    print(r.url)
except Exception as e:
    print("The exception is {}".format(e))

soup=BeautifulSoup(r.text,'lxml')
# artList=soup.select('ul > li')  #獲取ul下的直接子節(jié)點li
artList=soup.select('ul[class=note-list]')
# print(len(artList))   #判斷出獲取成功
# print(type(artList))
artList=artList[0]  #轉(zhuǎn)換為Tag類型
# print(type(artList))  #觀察類型
f=open('test.txt','a')
YM=re.compile(r'\d{4}-\d{2}-\d{2}')
HM=re.compile(r'\d\d:\d\d:\d\d')
lenTitle=[]
for article in artList.find_all('li'):
    title=article.find_all('a',class_='title')[0].text
    time=article.select('span[class=time]')[0]['data-shared-at']
    url=article.find_all('a',class_='title')[0]['href']
    getYM=re.search(YM,time)
    getHM=re.search(HM,time)

    finish_time=getYM.group()+'  '+getHM.group()
    lenTitle.append(len(title))
    print('標題: %30s  完成時間:%s  地址為: %s%s' % (title,finish_time,jianshu,url),file=f)

下次版本修改:

1.終端輸入用戶名,完成爬取

2.保存至csv文件

3.動態(tài)加載網(wǎng)頁的處理(這個......)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

  • Python 2.7IDE Pycharm 5.0.3Firefox 47.0.1 豆瓣電影系列: 基礎(chǔ)抓取(限于...
    mrlevo520閱讀 2,857評論 6 31
  • 基本概念 在本章中,我們將介紹一個分布式版本控制系統(tǒng)的設計思路,以及它與集中式版本控制系統(tǒng)的不同之處。除此之外,我...
    Gh0stClub閱讀 423評論 0 1
  • 今天工作超量完成,狀態(tài)一般,我自己要學習的東西也該抓緊,晚上回家暖氣不熱,冰涼,放了兩桶水也沒見好轉(zhuǎn),看看明天怎么...
    兆之閱讀 130評論 0 0
  • 坐了一會馬車,就到了皇宮大門,再往里走走,只見形形色色的人們在皇宮的清和苑進進出出,清和苑是皇宮專門布置宴會的地方...
    暮雪少白閱讀 593評論 0 0