狍子大概看得懂的簡易爬蟲教程

是說因為各種原因打算寫一下！就很簡單，也沒打算往深里寫（
針對無基礎計算機系學生的十分鐘速成摸魚特化型（笑）
比起簡易教程更像知識堆積存放處（）
將來有空可能再細化下具體操作步驟之類，畢業要緊，跑了跑了x

如果想要對爬蟲有一個系統的了解，建議讀一下這篇，有時間的話強推：
簡單爬蟲教程 - Zkeeer's Note
很強，也很全，看完就不用看這個了（

前置知識

一點點python語法

隨便看看就好啦！A Byte of Python這本真的很好，跳過前面的廢話隨便看看常用語法，完全可以兩小時速成python（誤）
重點大概就……算了還是列一下寫簡易爬蟲的我流重點（

讀寫文件（open，close）
條件判斷&循環（if，while，for）
list，dict，切片
異常處理（try & except），不看也成

別的就隨便看看，真的就隨便看看就成（
簡明python教程 - 中譯本
 Python教程 - 廖雪峰的官方網站

一點點編碼常識

很痛苦.jpg 一般在這里出錯總會調試半天（。
就只要知道為什么會亂碼就好！基本都是GBK和UTF-8之間的轉換問題，遇到再說吧……點點點。

一點點正則表達式

很痛苦*2，但是也只能硬啃啃……差不多能寫點簡單的就成，保持對知識的敬畏之心（x）
不過話是這樣說啦！實際搞的時候大家還不是都用BeautifulSoup（。好像也有用SimplifiedDoc的，無所謂了本質工具能用就ok（

XPath也很好，但還是按部就班先學學正則，畢竟用處比較廣（
總之我把一個教程和一點工具放在這里.jpg
正則表達式30分鐘入門教程v2.4.1 - deerchao
常用正則表達式v0.03 - deerchao
在線正則表達式測試 - deerchao

一點點網頁小知識

計算機學生必備常識系列其之一（并沒有二）
大概就，HTML基礎知識&收包發包過程里都傳了什么東西（。
最好有掌握一點點JS不過也無所謂啦！

輔助抓包小工具

BurpSuite給老子沖！
Web安全 — BurpSuite實戰（上）- 紅日安全團隊 - Freebuf
……開玩笑的，狐哥，算了算了.jpg
就……火狐好多插件嘛，或者F12也可以的，反正只是看看發包內容而已……看個人喜好了（。~~殺雞焉用牛刀~~

正文

開沖之前

很無助，但是也只能面對！總之又要學點新東西！

也不用很認真，能get能post能encoding就成（……
爬蟲基本庫：requests - 大千世界1998 - 簡書
也不用很認真*2，用的時候再查也完全okk（
Python re模塊學習 - 流年留念 - 博客園

開沖

雖然小標題這樣說啦但是前面引用的鏈接里其實都寫過爬蟲實例了，很卑微（……）就簡單寫一下我流簡易爬蟲流程（。

簡單看一下html代碼
BurpSuite抓包看看自己發的請求什么樣子
import requests / import os / import re
發請求，拿正則挑出來自己想要的東西
后期處理，看需求創建&寫入文件

看到這里的話已經可以去做點練習了，大概。從這個網址開始往后兩三關的樣子，應該都可以做了（。
Python Challenge

需要的話可以搞搞多線程多進程啥的，大家都說Windows下推薦多進程，具體原因可以參考 Python爬蟲是用多線程還是多進程-Jayj1997-CSDN和Python爬蟲的多線程與多進程的使用場景-NeverLate_gogogo-CSDN

任何Python線程執行前，必須先獲得GIL鎖。

在Python2.x里，GIL的釋放邏輯是當前線程遇見IO操作或者ticks計數達到100（ticks可以看作是Python自身的一個計數器，專門做用于GIL，每次釋放后歸零，這個計數可以通過 sys.setcheckinterval 來調整），進行釋放。

而在python3.x中，GIL不使用ticks計數，改為使用計時器（執行時間達到閾值后，當前線程釋放GIL），這樣對CPU密集型程序更加友好，但依然沒有解決GIL導致的同一時間只能執行一個線程的問題，所以效率依然不盡如人意。

就是比如你想計算從0依次+1 到一百萬要多少時間，對比單線程和兩線程，期望得到比單線程快一倍的速度，使用了之后發現不僅不快而且更慢了，因為GIL鎖的存在，兩（多）個線程同時只能運行一個，所以就是線程1運行了一會，然后線程2運行，且只能在一個核心上運行。
但是多進程就沒有這方面的顧慮，一個進程使用一個解釋器，一個解釋器一把鎖，所以多個線程就是多把不互相干預的鎖，運行起來就能得到期望的速度，當然你有幾個核心就最多在Pool里放幾個進程。

以及看到這里時期望能達到的程度如下：

# -*- coding:utf-8 -*-
'''
●getFiction v1.0

作者：Yemu
創建日期：19.5.21
最近修改時間：19.5.21
程序目的：爬個小說
'''

import requests
import os
import re

#創建文件夾
path='./qingchengtianxia/'
try:
    os.makedirs(path)
except:
    print("dir has been exist.")
    
#給目錄所在網址發請求，爬小說各章節所在網址，下面這堆參數在抓的包里都能看見
url="https://www.biqushu.com/book_108570/"
cookie="Hm_lvt_9222135ee421feb6803d0f143dac6ae3=1560676121,1560681067; Hm_lpvt_9222135ee421feb6803d0f143dac6ae3=1560681067; jieqiVisitId=article_articleviews%3D108570"
headers={
    "Host": "www.biqushu.com",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cache-Control": "max-age=0",
    "Proxy-Connection": "keep-alive",
    "Cookie": cookie,
    "referer":"https://www.biqushu.com/book_108570/",
    "If-None-Match": "1560681072|",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
    }
response = requests.get(url,headers=headers)
#轉碼
response.encoding='gbk'
#正則
pattern = re.findall('<li><a href="(.*?)">',response.text,re.S)
#一點點處理
pattern=pattern[11:]
#創建文件并循環寫入
file=open('xiaoshuo2.txt','a')
for i in pattern:
    #獲取每一章的具體網址
    url2=url+i
    #發請求ry
    response = requests.get(url2,headers=headers)
    response.encoding='gbk'
    title = re.findall('<h1>(.*?)</h1>',response.text,re.S)
    txt = re.findall('精彩小說無彈窗免費閱讀！<br><br>(.*?)</div>',response.text,re.S)
    #連接字符串&去除不必要字符
    text=title[0]+'\n'+txt[0].replace('&nbsp;','').replace(' ','').replace('\n','').replace('\r','\n').replace('<br/>','')+'\n'
    file.write(text)
    #print(title[0],'done')
print('done')

結語

總之速成的摸魚特化型就是這樣了，大概從python零基礎到完成也就三小時（x
想要寫得好一點可以看看拓展閱讀或者自己再去搜一搜之類=D
最后放一個很古老的魚，以證清白 ~~寫散裝代碼誤人子弟~~（。

# -*- coding:utf-8 -*-
'''
●A Crawler for Rengoku-teien v0.5


Author: Yemu
Create date: 18.9.4

爬取煉獄庭園的曲子及曲子簡介并自動解壓
'''
import requests
import re
import os
from zipfile import ZipFile
import multiprocessing

def dl(url,text,path):
    print("--------------------------------------")
    print("[+]connecting now...")
    if not os.path.exists("./songs/"+path+'/'+text[0]):
        os.makedirs("./songs/"+path+'/'+text[0])
    try:
        file_name="./songs/"+path+'/'+text[0]+"/"+text[0]+".txt"
        f = open(file_name, 'w')
        f.write(text[0]+text[1])
        f.close()
        print("[+]save profile successfully")
    except Exception as e:
        print("[-]write profile failed,",e)
        f=open("error.txt",'a')
        f.write("[-]write "+text[0]+" profile failed\n")
        f,close
    download_url=re.findall('<td class="songicon"><a href="(.*?)">',text[2],re.S)
    download_url=url+download_url[0]
    print(download_url)
    source2=requests.get(download_url)
    source2.encoding='utf-8'
    try:
        zip_name="./songs/"+path+'/'+text[0]+"/"+text[0]+".zip"
        f2 = open(zip_name, 'wb')
        f2.write(source2.content)
        f2.close()
        print("[+]save "+text[0]+".zip successfully")
    except Exception as e:
        print("[-]save zip failed,",e)
        f=open("error.txt",'a')
        f.write("[-]save "+text[0]+" zip failed\n")
        f,close
    print("[+]extracting now...")
    try:
        extract_zip(text[0])
    except Exception as e:
        print("[-]extract failed,",e)
        f=open("error.txt",'a')
        f.write("[-]extract "+text[0]+" zip failed\n")
        f,close


def extract_zip(text):
    file_name="./songs/"+text+"/"+text+".zip"
    path="./songs/"+text
    with ZipFile(file_name, 'r') as zip_file:
        zip_file.extractall(path)
        print("[+]done")
        
            
def download_zip(source):
    link=[]
    pattern = re.findall('<div class="song">(.*?)</table>',source.text,re.S)
    for i in pattern:
        song_text=re.findall('<p>(.*?)</td>',i,re.S)
        bio=song_text[0].replace("<br>","\n").split("</p>")
        bio+=[i]
        link.append(bio)
    return link
    
if __name__=='__main__':    
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36','Accept-Encoding':'gzip'}  
    url_list=["punk","pop","wafu"]
    url = 'http://www.rengoku-teien.com/mp3/'
    for k in url_list:
        realurl=url+k+'.html'
        source=requests.get(realurl,headers=headers)
        source.encoding='utf-8'
        all_link=download_zip(source)
        print("[+]get all links")
        pool = multiprocessing.Pool(multiprocessing.cpu_count())
        for i in all_link:
            pool.apply_async(dl, (url,i,k, ))
        # pool.map(detailPage, urls)
        pool.close()
        pool.join()
        print("--------------------------------------")
        print("[+]finished")

以上！感謝觀看！

Beautiful Soup 4.4.0 文檔
與BeautifulSoup一樣強的SimplifiedDoc，專為html抽取而生 - 博客園
爬蟲解析庫：XPath - 大千世界1998 - 簡書

提高正則表達式效率的一些感悟 - Zkeeer's Note

最后編輯于：2021.03.15 10:00:31

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,316評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,481評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 176,241評論 0贊 374
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,939評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,697評論 6贊 409
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,182評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,247評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,406評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,933評論 1贊 334
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,772評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,973評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,516評論 5贊 359
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,209評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,638評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,866評論 1贊 285
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,644評論 3贊 391
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,953評論 2贊 373

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

狍子大概看得懂的簡易爬蟲教程

狍子大概看得懂的簡易爬蟲教程

前置知識

一點點python語法

一點點編碼常識

一點點正則表達式

一點點網頁小知識

輔助抓包小工具

正文

開沖之前

開沖

結語

拓展閱讀

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

狍子大概看得懂的簡易爬蟲教程

前置知識

一點點python語法

一點點編碼常識

一點點正則表達式

一點點網頁小知識

輔助抓包小工具

正文

開沖之前

開沖

結語

拓展閱讀

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频