爬蟲入門02作業

作業:

  • 選擇簡書“解密大數據”專題里面上次爬蟲作業的文檔地址作為分析頁面。
  • 分析并提交該頁面結構分析與元素標簽位置信息。

  1. 對頁面元素進行編號,根據編號的順序進行描述。
第二次作業圖.jpg

2 . 如上圖所示:
1 . 編號1——左上角簡書標簽

對應代碼:
![](./爬蟲入門01作業 - 簡書_files/logo-58fd04f6f0de908401aa561cda6a0688.png)

2 . 編號2—— 發現、關注、消息

     發現對應代碼:
     <li class="">
     <a href="http://www.lxweimin.com/">
     <span class="menu-text">發現</span>
     <i class="iconfont ic-navigation-discover menu-icon"></i>
     </a>  
     </li>
     關注對應代碼:
     <li class="">
     <a href="http://www.lxweimin.com/subscriptions">
     <span class="menu-text">關注</span>
     <i class="iconfont ic-navigation-follow menu-icon"></i>
     </a>           
      </li>
      消息對應代碼:
      <a data-hover="dropdown" href="http://www.lxweimin.com/notifications" class="notification-btn"><span class="menu-text">消息</span> <i class="iconfont ic-navigation-notification menu-icon"></i> <!----> <!----></a>

3 . 編號3——搜索對話框

<input type="text" name="q" id="q" value="" placeholder="搜索" 
class="search-input">

4 . 編號4——寫文章按鈕

<a class="btn write-btn" target="_blank" href="/writer#/">
<i class="iconfont ic-write"></i>寫文章</a>

5 . 編號5——標題:爬蟲入門01作業

<h1 class="title">爬蟲入門01作業</h1>

6 . 編號6——作者框和用戶名

作者框:<span class="tag">作者</span>
用戶名:<span class="name"><a href="/u/99cd79c6cb07">mudu86</a></span>

7 . 編號7——信息:日期,字數、閱讀量、評論數、喜歡、贊賞

 <span class="publish-time" data-toggle="tooltip" data-placement="bottom" title="" data-original-title="最后編輯于 2017.07.03 14:26">2017.07.03 12:25*</span>
 <span class="wordage">字數 636</span>
 < <span class="views-count">閱讀 24</span>
<span class="comments-count">評論 2</span>
<span class="likes-count">喜歡 4</span>
 <span class="rewards-count ">贊賞 1</span></div>

8 .編號8——文章編輯按鈕

<a href="/writer#/notebooks/14029055/notes/14139962" target="_blank" class="edit">編輯          > 文章</a>

9 . 編號9——正文

    <div class="show-content">
          <h3>課堂作業</h3>
    <ul>
    <li>
    <p>要爬取的數據類別</p>
    </li>
    <li>
    <p>對應的數據源網站</p>
    </li>
    <li>
    <p>爬取數據的URL</p>
    </li>
    <li>
    <p>數據篩選規則(選做)</p>
    </li>
    </ul>
    <h4>要爬取的數據類型</h4>
    <p>我對金融行業中股票的信息感興趣,想要依次作為決策的依據,因此想要爬取股票信息,主要獲取的股票信息有:季報、半年包、年報、公司重大公告、國家宏觀金融政策、股價、成交量、龍虎榜數據、實時熱點。</p>
    <h4>對應的數據源網站</h4>
    <ol>
    <li>三大證券報:<ul>
    <li><a  target="_blank">中國證券報</a></li>
    <li><a  target="_blank">上海證券報</a></li>
    <li><a  target="_blank">證券時報</a></li>
    </ul>
    </li>
    <li>兩大官方網站:<ul>
    <li><a  target="_blank">上海證券交易所</a></li>
    <li>
    <a  target="_blank">上海證券交易所]</a> </li>
    </ul>
    </li>
    <li>最大信息發布網站:<ul>
    <li><a  target="_blank">巨潮咨詢網</a></li>
    </ul>
    </li>
    <li>財經新聞網站:<ul>
    <li><a  target="_blank">東方財富網</a></li>
    </ul>
    </li>
    <li>股票論壇:<ul>
    <li><a  target="_blank">雪球網</a></li>
    </ul>
    </li>
    </ol>
    <h4>爬取數據的URL</h4>
    <ol>
    <li>三大證券報:<ul>
    <li>中國證券報 : <a  target="_blank">http://www.cs.com.cn/gppd/</a>
    </li>
    <li>上海證券報 :<a  target="_blank">http://ggjd.cnstock.com/gglist/search/ggkx、http://news.cnstock.com/bwsd/index.html</a>
    </li>
    <li>證券時報 :<a  target="_blank">http://data.stcn.com/</a>
    </li>
    </ul>
    </li>
    <li>兩大官方網站:<ul>
    <li>上海證券交易所 :<a  target="_blank">http://www.sse.com.cn/disclosure/overview/</a>
    </li>
    <li>深圳證券交易所 :<a  target="_blank">http://www.szse.cn/main/disclosure/</a>
    </li>
    </ul>
    </li>
    <li>最大信息發布網站:<ul>
    <li>巨潮咨詢網 :<a  target="_blank">http://www.cninfo.com.cn/cninfo-new/index</a>
    </li>
    </ul>
    </li>
    <li>財經新聞網站:<ul>
    <li>東方財富網 : <a  target="_blank">http://stock.eastmoney.com/report.html、http://stock.eastmoney.com/bidu.html</a> </li>
    </ul>
    </li>
    <li>股票論壇:<ul>
    <li>雪球網 : <a  target="_blank">https://xueqiu.com/hq</a>
    </li>
    </ul>
    </li>
    </ol>
    <h4>數據篩選規則</h4>
    <p>股票消息分為:實時性和非實時性的消息,因此要分2種方式設定規則。</p>
    <ul>
    <li>
    <p>實時性消息: 每20分鐘刷新一次網站采集的數據,如果采集的數據中有自己設置的關鍵詞(例如:突發重大新聞,自己關心的股票,漲幅超過5%),提取相應的信息。</p>
    </li>
    <li>
    <p>非實時性消息:每年發布季報、半年報、年報的日期,爬取上海證券交易所、深圳證券交易所、巨潮咨詢網中每個公司發布的年報摘要,如果有自己設置的關鍵詞(營業額年增長率超過50%、營業利潤率超過20%),提取對應的公司信息。每日爬取雪球網中行情排行榜、熱度排行榜、討論排行榜中上榜的股票,并通過每周上榜股票的次數。</p>
    </li>
    </ul>
    </div>

10.解析正文結構:

  • 標題:三級標題——課堂作業。
<h3> 課堂作業 </h3>
  • 無序序列:要爬取的數據類別、對應的數據源網站、爬取數據的URL、數據篩選規則
<ul>
<li>
<p>要爬取的數據類別</p>
</li>
<li>
<p>對應的數據源網站</p>
</li>
<li>
<p>爬取數據的URL</p>
</li>
<li>
<p>數據篩選規則(選做)</p>
</li>
</ul>
  • 標題:四級標題——要爬取的數據類型
<h4>要爬取的數據類型</h4>
``
- 段落標簽:

<p>我對金融行業中股票的信息感興趣,想要依次作為決策的依據,因此想要爬取股票信息,主要獲取的股票信息有:季報、半年包、年報、公司重大公告、國家宏觀金融政策、股價、成交量、龍虎榜數據、實時熱點。</p>

- 有序序列和無序序列混合:
    - 有序序列——三大證券報、兩大官方網站、最大信息發布網站、財經新聞網站
    - 無序序列——三大證券報中中國證券報、上海證券報、證券時報

無序序列

<ul>
<li><a target="_blank">中國證券報</a></li>
<li><a target="_blank">上海證券報</a></li>
<li><a target="_blank">證券時報</a></li>
</ul>


有序序列

<ol>
<li>三大證券報:
<li>兩大官方網站:
<li>最大信息發布網站:
<li>財經新聞網站:
</ol>


有序和無序混合

<ol>
<li>三大證券報:<ul>
<li><a target="_blank">中國證券報</a></li>
<li><a target="_blank">上海證券報</a></li>
<li><a target="_blank">證券時報</a></li>
</ul>
</li>
<li>兩大官方網站:<ul>
<li><a target="_blank">上海證券交易所</a></li>
<li>
<a target="_blank">上海證券交易所]</a> </li>
</ul>
</li>
<li>最大信息發布網站:<ul>
<li><a target="_blank">巨潮咨詢網</a></li>
</ul>
</li>
<li>財經新聞網站:<ul>
<li><a target="_blank">東方財富網</a></li>
</ul>
</li>
<li>股票論壇:<ul>
<li><a target="_blank">雪球網</a></li>
</ul>
</li>
</ol>

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內容

  • 課后作業兩篇 1.選擇簡書“解密大數據”專題里面上次爬蟲課的作業文檔地址作為分析頁面 2.分析并提交該頁面的網頁結...
    明說危險閱讀 182評論 0 0
  • 網頁結構分析 上面兩個界面分別是評論欄,以及相關文章欄。再做進一步的拆分 頂部導航欄分為: 網頁logo 導航欄 ...
    湯堯閱讀 522評論 1 1
  • 課堂作業 要爬取的數據類別 對應的數據源網站 爬取數據的URL 數據篩選規則(選做) 要爬取的數據類型 我對金融行...
    mudu86閱讀 1,018評論 2 3
  • Spring Cloud為開發人員提供了快速構建分布式系統中一些常見模式的工具(例如配置管理,服務發現,斷路器,智...
    卡卡羅2017閱讀 134,785評論 18 139
  • 小的時候,我有一個夢想,希望自己每個月的收入能有2萬塊。這個夢想很直白,說出來肯定很多人會笑話,小孩子為什么對錢這...
    晑日藈閱讀 312評論 1 2