三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<thead id="cpyrd"><i id="cpyrd"><noscript id="cpyrd"></noscript></i></thead>

登錄注冊寫文章

iOS 爬蟲，抓取 HTML ,CSS XPath 解析數(shù)據(jù)

iOS 爬蟲，抓取 HTML ,CSS XPath 解析數(shù)據(jù)

在做項目中發(fā)現(xiàn)一個問題，Android的渠道太多了，每次版本更新，都要去每個渠道查看版本是否更新完畢，很麻煩。

那么問題來了，是否可以通過爬蟲，把所有的渠道中關心的數(shù)據(jù)都爬下來，然后再整理呈現(xiàn)，這樣子就可以方便運營和產(chǎn)品查看每個渠道的信息了。

爬蟲的方法和介紹的文章有很多了，一般都是通過服務器爬數(shù)據(jù)再整理，具體這個問題不需要做數(shù)據(jù)的記錄和計算，所有嘗試了用iOS做一個簡單的網(wǎng)頁解析，然后再整理數(shù)據(jù)做呈現(xiàn)。
在簡書上已經(jīng)有一篇不錯的文章只是把FireFox換成了Chrome，Chrome也有提取網(wǎng)頁XPath的功能。

Chrome 獲取XPath

Chrome 復制XPath

然后根據(jù)這個具體的需求，增加了一些本地讀取渠道信息和解析網(wǎng)頁信息的邏輯。

channelInfo.plist的內(nèi)容結構
特別說明一下，channelUpdateTimeXPathAttributeKey因為有些XPath拿到的數(shù)據(jù)是一個json串，需要通過一個key，才可以得到真正需要的內(nèi)容。

channelInfo.plist

解析html中的更新時間，先判斷是否可以解析為字符串，不行再通過key在字典中讀取。

解析html中的更新時間

具體問題具體分析吧，每個網(wǎng)頁的結構可能都不一樣，代碼可以看這里：傳送門

最后編輯于：2017.12.06 15:13:00

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

[3/4]我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史（三）：互聯(lián)網(wǎng)時代 ? 上篇
//我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史（三）：互聯(lián)網(wǎng)時代 ? 上篇http://www.infoq.com/cn/arti...
葡萄喃喃囈語閱讀 51,315評論 10贊 200
Android - 收藏集
Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
passiontim閱讀 173,284評論 25贊 708
《Learning Scrapy》（中文版）第5章快速構建爬蟲
序言第1章 Scrapy介紹第2章理解HTML和XPath第3章爬蟲基礎第4章從Scrapy到移動應用第5...
SeanCheney閱讀 5,472評論 0贊 7
《Learning Scrapy》（中文版）第3章爬蟲基礎
序言第1章 Scrapy介紹第2章理解HTML和XPath第3章爬蟲基礎第4章從Scrapy到移動應用第5章...
SeanCheney閱讀 15,152評論 13贊 61
7.13
之前我和一個朋友聊天，產(chǎn)品選擇模式，還是模式造就產(chǎn)品哪個微商走起來會比較好一點？但是今天發(fā)現(xiàn)，這兩個模式，都...
xff四月芳菲閱讀 283評論 0贊 0

1贊2贊

贊賞

手機看全文

主站蜘蛛池模板：固阳县| 绩溪县| 葵青区| 兴隆县| 习水县| 曲周县| 云梦县| 黔江区| 海南省| 远安县| 拉孜县| 平阳县| 丰都县| 普宁市| 津市市| 尉氏县| 如皋市| 怀仁县| 盐边县| 桃源县| 黔西| 武宣县| 永登县| 当雄县| 宁国市| 长兴县| 贺州市| 隆林| 邻水| 武平县| 勐海县| 鄂州市| 喀喇沁旗| 肃南| 磴口县| 秦皇岛市| 西畴县| 团风县| 西吉县| 乐陵市| 和田县|

<style id="tcn3x"><rp id="tcn3x"></rp></style>

<cite id="tcn3x"></cite>

<thead id="tcn3x"><rt id="tcn3x"><noscript id="tcn3x"></noscript></rt></thead>

<sub id="tcn3x"></sub>

<cite id="tcn3x"></cite>