作業:
- 選擇簡書“解密大數據”專題里面上次爬蟲作業的文檔地址作為分析頁面。
- 分析并提交該頁面結構分析與元素標簽位置信息。
- 對頁面元素進行編號,根據編號的順序進行描述。
2 . 如上圖所示:
1 . 編號1——左上角簡書標簽
對應代碼:

2 . 編號2—— 發現、關注、消息
發現對應代碼:
<li class="">
<a href="http://www.lxweimin.com/">
<span class="menu-text">發現</span>
<i class="iconfont ic-navigation-discover menu-icon"></i>
</a>
</li>
關注對應代碼:
<li class="">
<a href="http://www.lxweimin.com/subscriptions">
<span class="menu-text">關注</span>
<i class="iconfont ic-navigation-follow menu-icon"></i>
</a>
</li>
消息對應代碼:
<a data-hover="dropdown" href="http://www.lxweimin.com/notifications" class="notification-btn"><span class="menu-text">消息</span> <i class="iconfont ic-navigation-notification menu-icon"></i> <!----> <!----></a>
3 . 編號3——搜索對話框
<input type="text" name="q" id="q" value="" placeholder="搜索"
class="search-input">
4 . 編號4——寫文章按鈕
<a class="btn write-btn" target="_blank" href="/writer#/">
<i class="iconfont ic-write"></i>寫文章</a>
5 . 編號5——標題:爬蟲入門01作業
<h1 class="title">爬蟲入門01作業</h1>
6 . 編號6——作者框和用戶名
作者框:<span class="tag">作者</span>
用戶名:<span class="name"><a href="/u/99cd79c6cb07">mudu86</a></span>
7 . 編號7——信息:日期,字數、閱讀量、評論數、喜歡、贊賞
<span class="publish-time" data-toggle="tooltip" data-placement="bottom" title="" data-original-title="最后編輯于 2017.07.03 14:26">2017.07.03 12:25*</span>
<span class="wordage">字數 636</span>
< <span class="views-count">閱讀 24</span>
<span class="comments-count">評論 2</span>
<span class="likes-count">喜歡 4</span>
<span class="rewards-count ">贊賞 1</span></div>
8 .編號8——文章編輯按鈕
<a href="/writer#/notebooks/14029055/notes/14139962" target="_blank" class="edit">編輯 > 文章</a>
9 . 編號9——正文
<div class="show-content">
<h3>課堂作業</h3>
<ul>
<li>
<p>要爬取的數據類別</p>
</li>
<li>
<p>對應的數據源網站</p>
</li>
<li>
<p>爬取數據的URL</p>
</li>
<li>
<p>數據篩選規則(選做)</p>
</li>
</ul>
<h4>要爬取的數據類型</h4>
<p>我對金融行業中股票的信息感興趣,想要依次作為決策的依據,因此想要爬取股票信息,主要獲取的股票信息有:季報、半年包、年報、公司重大公告、國家宏觀金融政策、股價、成交量、龍虎榜數據、實時熱點。</p>
<h4>對應的數據源網站</h4>
<ol>
<li>三大證券報:<ul>
<li><a target="_blank">中國證券報</a></li>
<li><a target="_blank">上海證券報</a></li>
<li><a target="_blank">證券時報</a></li>
</ul>
</li>
<li>兩大官方網站:<ul>
<li><a target="_blank">上海證券交易所</a></li>
<li>
<a target="_blank">上海證券交易所]</a> </li>
</ul>
</li>
<li>最大信息發布網站:<ul>
<li><a target="_blank">巨潮咨詢網</a></li>
</ul>
</li>
<li>財經新聞網站:<ul>
<li><a target="_blank">東方財富網</a></li>
</ul>
</li>
<li>股票論壇:<ul>
<li><a target="_blank">雪球網</a></li>
</ul>
</li>
</ol>
<h4>爬取數據的URL</h4>
<ol>
<li>三大證券報:<ul>
<li>中國證券報 : <a target="_blank">http://www.cs.com.cn/gppd/</a>
</li>
<li>上海證券報 :<a target="_blank">http://ggjd.cnstock.com/gglist/search/ggkx、http://news.cnstock.com/bwsd/index.html</a>
</li>
<li>證券時報 :<a target="_blank">http://data.stcn.com/</a>
</li>
</ul>
</li>
<li>兩大官方網站:<ul>
<li>上海證券交易所 :<a target="_blank">http://www.sse.com.cn/disclosure/overview/</a>
</li>
<li>深圳證券交易所 :<a target="_blank">http://www.szse.cn/main/disclosure/</a>
</li>
</ul>
</li>
<li>最大信息發布網站:<ul>
<li>巨潮咨詢網 :<a target="_blank">http://www.cninfo.com.cn/cninfo-new/index</a>
</li>
</ul>
</li>
<li>財經新聞網站:<ul>
<li>東方財富網 : <a target="_blank">http://stock.eastmoney.com/report.html、http://stock.eastmoney.com/bidu.html</a> </li>
</ul>
</li>
<li>股票論壇:<ul>
<li>雪球網 : <a target="_blank">https://xueqiu.com/hq</a>
</li>
</ul>
</li>
</ol>
<h4>數據篩選規則</h4>
<p>股票消息分為:實時性和非實時性的消息,因此要分2種方式設定規則。</p>
<ul>
<li>
<p>實時性消息: 每20分鐘刷新一次網站采集的數據,如果采集的數據中有自己設置的關鍵詞(例如:突發重大新聞,自己關心的股票,漲幅超過5%),提取相應的信息。</p>
</li>
<li>
<p>非實時性消息:每年發布季報、半年報、年報的日期,爬取上海證券交易所、深圳證券交易所、巨潮咨詢網中每個公司發布的年報摘要,如果有自己設置的關鍵詞(營業額年增長率超過50%、營業利潤率超過20%),提取對應的公司信息。每日爬取雪球網中行情排行榜、熱度排行榜、討論排行榜中上榜的股票,并通過每周上榜股票的次數。</p>
</li>
</ul>
</div>
10.解析正文結構:
- 標題:三級標題——課堂作業。
<h3> 課堂作業 </h3>
- 無序序列:要爬取的數據類別、對應的數據源網站、爬取數據的URL、數據篩選規則
<ul>
<li>
<p>要爬取的數據類別</p>
</li>
<li>
<p>對應的數據源網站</p>
</li>
<li>
<p>爬取數據的URL</p>
</li>
<li>
<p>數據篩選規則(選做)</p>
</li>
</ul>
- 標題:四級標題——要爬取的數據類型
<h4>要爬取的數據類型</h4>
``
- 段落標簽:
<p>我對金融行業中股票的信息感興趣,想要依次作為決策的依據,因此想要爬取股票信息,主要獲取的股票信息有:季報、半年包、年報、公司重大公告、國家宏觀金融政策、股價、成交量、龍虎榜數據、實時熱點。</p>
- 有序序列和無序序列混合:
- 有序序列——三大證券報、兩大官方網站、最大信息發布網站、財經新聞網站
- 無序序列——三大證券報中中國證券報、上海證券報、證券時報
無序序列
<ul>
<li><a target="_blank">中國證券報</a></li>
<li><a target="_blank">上海證券報</a></li>
<li><a target="_blank">證券時報</a></li>
</ul>
有序序列
<ol>
<li>三大證券報:
<li>兩大官方網站:
<li>最大信息發布網站:
<li>財經新聞網站:
</ol>
有序和無序混合
<ol>
<li>三大證券報:<ul>
<li><a target="_blank">中國證券報</a></li>
<li><a target="_blank">上海證券報</a></li>
<li><a target="_blank">證券時報</a></li>
</ul>
</li>
<li>兩大官方網站:<ul>
<li><a target="_blank">上海證券交易所</a></li>
<li>
<a target="_blank">上海證券交易所]</a> </li>
</ul>
</li>
<li>最大信息發布網站:<ul>
<li><a target="_blank">巨潮咨詢網</a></li>
</ul>
</li>
<li>財經新聞網站:<ul>
<li><a target="_blank">東方財富網</a></li>
</ul>
</li>
<li>股票論壇:<ul>
<li><a target="_blank">雪球網</a></li>
</ul>
</li>
</ol>