Python 爬蟲入門課作業(yè)2- 網(wǎng)頁基礎(chǔ)與結(jié)構(gòu)分析

課堂作業(yè)要求

  • 選擇簡書“解密大數(shù)據(jù)”專題里面上次爬蟲課的作業(yè)文檔地址作為分析頁面
  • 分析并提交該頁面的網(wǎng)頁結(jié)構(gòu)分析與元素標(biāo)簽位置信息

作業(yè)內(nèi)容

網(wǎng)頁地址:http://www.lxweimin.com/p/88d0addf64fa
瀏覽器:Chrome

HTML 基礎(chǔ)

對html有一定基礎(chǔ),但有些元素不太熟悉,瀏覽頁面源碼時,摘錄學(xué)習(xí)了下:

  • <!DOCTYPE>: 聲明文檔的類型,以便瀏覽器知道如何顯示該文檔。非Html標(biāo)簽。簡書的聲明是這樣的:<!DOCTYPE html>,表示網(wǎng)頁至少升級到[HTML5]的第一步。(http://www.w3school.com.cn/html/html5_intro.asp)。
  • HTML <meta> 標(biāo)簽:存放描述文檔的元信息,比如作者、關(guān)鍵字、文檔類型、編碼等。簡書的編碼:<meta charset="utf-8">,支持各種語言顯示。

頁面結(jié)構(gòu)

這個頁面由三大部分組成:

  1. 頂部導(dǎo)航欄
    包含簡書的一些基本功能元素,以及用戶信息文章入口

  2. 正文
    包含文章正文,作者及支持部分,作者與讀者互動評論部分,以及頁邊欄

  3. 底部
    包含簡書的一些推薦內(nèi)容

圖片.png

頁面標(biāo)簽位置

根據(jù)頁面三大部分,在chrome中通過開發(fā)者工具,查看各部分對應(yīng)源碼,分析各頁面元素位置:

所有的頁面內(nèi)容均包含在 <body lang="zh-CN" class="reader-black-font">

圖片.png
  • 頂部導(dǎo)航欄
    可根據(jù)class屬性“navbar navbar-default navbar-fixed-top”獲取。
<nav class="navbar navbar-default navbar-fixed-top" role="navigation">

如要找到用戶標(biāo)簽,可通過下面高亮的路徑。


  • 正文
    所有內(nèi)容均在<div class="note">標(biāo)簽內(nèi)
圖片.png
  • 底部
    所有內(nèi)容均在<div class="note-bottom">內(nèi)

全局圖:


圖片.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 問答題47 /72 常見瀏覽器兼容性問題與解決方案? 參考答案 (1)瀏覽器兼容問題一:不同瀏覽器的標(biāo)簽?zāi)J(rèn)的外補(bǔ)...
    _Yfling閱讀 13,796評論 1 92
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,284評論 25 708
  • 第3章 探索Bootstrap組件 在這一章,我們將開始使用Bootstrap的一些非常有用的HTML組件。諸如按...
    海上名月閱讀 957評論 1 6
  • 第5章 菜單、按鈕及導(dǎo)航 一、下拉菜單 小伙伴們注意,在Bootstrap框架中的下拉菜單組件是一個獨(dú)立的組件,根...
    凜0_0閱讀 5,056評論 0 66
  • 1 在我們國家并沒有一個官方的成人禮儀式,沒有統(tǒng)一模板的十八歲呆萌照來給往后十年,二十年,三十年后...的自己回憶...
    洋蔥羽毛閱讀 4,037評論 0 49