三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<blockquote id="asuzb"><p id="asuzb"></p></blockquote>

<p id="asuzb"><li id="asuzb"><pre id="asuzb"></pre></li></p>

<legend id="asuzb"><track id="asuzb"></track></legend>

<sub id="asuzb"><rt id="asuzb"></rt></sub>

登錄注冊寫文章

每天爬取數據量多少,如何才可更高效?

每天爬取數據量多少,如何才可更高效?

每天爬取數據量多少,如何才可更高效?

問題分析

對于該問題,沒有確切答案,需要根據實際情況而定.爬蟲最重要的問題是容錯率高,很多特殊情況都會影響爬蟲的效率和質量.

常見特殊情況

以下情況都可能影響爬取數據效率.
軟件條件

網頁報錯
動態驗證碼
IP次數限制
時間限制

硬件條件

服務器配置(CPU,內存,帶寬)
網速

常見案例

1

包含問題: 網頁報錯,連接錯誤,手輸驗證碼
成功率: 80%
設備數: 一臺機器
爬內容: 段子
數據量: 不用分布式爬蟲 1天10W

2

包含問題: 去重,請求失敗,2級頁面爬取
成功率: 80%
設備數: 一臺機器
爬內容: 列表+詳情頁
數據量: 使用分布式爬蟲 1天15W

3

包含問題: IP并發次數限制,訪問次數限制
成功率: 70%
設備數: 一臺機器
爬內容: 新聞+圖片
數據量: 不使用分布式爬蟲 1天50W

4

軟硬件好的情況下,數據量可高達1300W.
詳情見

如何才能高效?

如果真的對性能要求很高，可以考慮下面方案.
多線程 : 一些成熟的框架如 Scrapy都已支持
分布式 : 數據量有TB級別可要考慮,否則別用,分布式需要考慮到機器,人員,網絡等成本.

最后編輯于：2017.12.11 07:58:18

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

[3/4]我所經歷的大數據平臺發展史（三）：互聯網時代 ? 上篇
//我所經歷的大數據平臺發展史（三）：互聯網時代 ? 上篇http://www.infoq.com/cn/arti...
葡萄喃喃囈語閱讀 51,304評論 10贊 200
大規模爬蟲流程總結
爬蟲是一個比較容易上手的技術，也許花5分鐘看一篇文檔就能爬取單個網頁上的數據。但對于大規模爬蟲，完全就是另一回事，...
真依然很拉風閱讀 9,711評論 5贊 114
史上最全，100+大數據開源處理工具匯總
http://geek.csdn.net/news/detail/210469http://www.36dsj.c...
Albert陳凱閱讀 5,212評論 1贊 21
33款可用來抓數據的開源爬蟲軟件工具
33款可用來抓數據的開源爬蟲軟件工具要玩大數據，沒有數據怎么玩？這里推薦一些33款開源爬蟲軟件給大家。爬蟲，即...
visiontry閱讀 7,407評論 1贊 99
七筒懶人減肥打卡 1
下午三四點左右稱重 53.7kg 從今天開始放暑假決定想要減肥和練好身材運動軟件上的記錄都是以前的算上今天的 ...
七筒妹妹閱讀 295評論 0贊 0

1贊2贊

贊賞

手機看全文

主站蜘蛛池模板：乐清市| 祥云县| 美姑县| 琼结县| 台中县| 绥江县| 庆安县| 吉安县| 颍上县| 鄱阳县| 曲阜市| 镇安县| 伊宁县| 深水埗区| 栾城县| 临沭县| 靖州| 探索| 红河县| 开远市| 微山县| 巨鹿县| 中卫市| 成都市| 社旗县| 宁津县| 宽城| 景东| 焦作市| 武宁县| 济阳县| 河西区| 大邑县| 迁西县| 临清市| 杭锦旗| 剑河县| 信阳市| 大方县| 建湖县| 蒙自县|

^{<blockquote id="xfkxf"></blockquote>}