三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<cite id="lr3lc"></cite>

<sub id="lr3lc"><p id="lr3lc"></p></sub>

<style id="lr3lc"></style>

登錄注冊寫文章

python自我學習二爬一個圖片網站上

python自我學習二爬一個圖片網站上

前面的章節

python自我學習一 python語法，及變量類型

本節章節爬一個圖片網站上

爬蟲是啥

網絡爬蟲是什么？

看意思是一個蟲子，一個什么蟲子？實際上指的是蜘蛛spider。

蜘蛛結成網，在網上爬來爬去的尋找墜入網絡中的食物。

網絡爬蟲就是差不多的意思，在互聯網上爬來爬去的尋找你的精神食物。

開始爬前的準備

要開始爬，你得先知道爬哪里吧，你得先獲得網頁的源碼即HTML信息吧，獲得后，你需要分析出鏈接和圖片等資源吧。

要獲取HTML并分析網頁信息，需要下載一個第三方的庫requesets，下載地址：

下載并解壓

最重要的是這個庫有完善的中文資料，討厭蝌蚪文的可以放心的參考

你如果和我一樣使用pycharm來編輯，加入第三方庫的步驟如下：

安裝好requests第三方庫后，開始測試

開始獲取HTML

怎么樣，驚喜不驚喜，簡單不簡單，使用其它語言，無法用這么簡單的語句就獲得html的信息。

解析HTML

使用request獲取了網頁源碼，下一步就是如何解析了，你如果用過C++等語言，你會發現很難找到順心的網頁解析庫，但python在這方面卻很擅長。

還是用一個第三方庫 Beautiful Soup

這是個什么庫呢？

直譯為：漂亮的湯？

難道是將網頁作為美味的湯，從這湯里慢慢品味其中滋味，抽絲剝繭的分析湯的構成成分、湯的味道？老外的思路，真難猜，先不管這個了。

說白了，就是用來解析HTML或XML，從中提取有用數據的庫。

而且也有強大的中文支持

首先分析，解析哪些鏈接

這應該是按類別來分的，我們在源碼中找到這一項

之所以有亂碼，很可能是與我電腦沒有日文字體有關也可能編碼不正確，先不管它了，目前對解析無影響，可以看出，這些類別是放在class=menu的div下了，具體的就是這個DIV下的

1、好了，首先第一步，獲得這個DIV

這樣我們就獲得了這個DIV的內容，下面再繼續解析這個DIV

2、解析DIV

解析這個DIV，還要以這個DIV內容為參數，構造一個BeautifulSoup（以下簡稱為BS ：）注意絕不是鄙視的意思）對象,因為全篇只有一個menu 類型的DIV，所以所有類型都保存在上面解析的div_menu[0]中了，將這個對象強制轉換為字符串類型做BS的參數

看源碼可以發現，鏈接都是站內鏈接

現在注意了，我要把所有的鏈接提取出來

輸出所有的鏈接

對應HTML源碼

可以看到，第一個 a標簽，是沒有href屬性的，所以，會輸出None,其它a標簽，正常輸出

因為這些都是站內鏈接，

我們先定義一個變量，表示該站的域名

又因為，有的鏈接可能是none，所以需要判斷下是否存在href屬性，下面是輸出所有鏈接的代碼

輸出的鏈接如下：

這樣，我們就正確的獲得了這些類別對應的網址了。

下一步工作，下一節再說，現在還有些事，改天聊

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

Android - 收藏集
Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
passiontim閱讀 173,593評論 25贊 708
Python 資源大全中文版
Python 資源大全中文版 awesome-python[https://github.com/vinta/aw...
萬色星辰閱讀 9,809評論 0贊 255
Python--Flask Django等常用庫總結
# Python 資源大全中文版我想很多程序員應該記得 GitHub 上有一個 Awesome - XXX 系列...
aimaile閱讀 26,595評論 6贊 427
讀《聰明的投資者》：證券分析一般方法
這是《聰明的投資者》的第11章，這一章其實可以看作格雷厄姆另外一本書《證券分析》的導讀，因為《證券分析》實在是“又...
潛行狙擊手閱讀 1,298評論 0贊 0

1贊2贊

贊賞

手機看全文

主站蜘蛛池模板：无为县| 聊城市| 莱芜市| 迁西县| 禹城市| 漾濞| 吉水县| 郓城县| 临漳县| 蕲春县| 沾益县| 安国市| 乐业县| 大城县| 平乡县| 九寨沟县| 河津市| 通化县| 高邮市| 瑞丽市| 财经| 古交市| 兴化市| 满洲里市| 东乌珠穆沁旗| 河北区| 东辽县| 兰溪市| 万安县| 云霄县| 荥阳市| 福州市| 集贤县| 铜陵市| 哈尔滨市| 当涂县| 大名县| 凤翔县| 简阳市| 色达县| 贺州市|

<sup id="5vzsz"></sup>

<blockquote id="5vzsz"><p id="5vzsz"></p></blockquote>

<em id="5vzsz"></em>

<cite id="5vzsz"></cite>