有人爬取數據分析黃金周旅游景點,有人爬取數據分析相親,有人大數據分析雙十一,連小學生寫論文都用上了大數據。
我們每個人每天都在往網上通過微信、微博、淘寶等上傳我們的個人信息,現在就連我們的錢都是放在網上,以后到強人工智能,我們連決策都要依靠網絡。網上的數據就是資源和寶藏,我們需要一把鏟子來挖掘它。
最近,AI 的興起讓 Python 火了一把。實際上 Python 擁有龐大的第三方支持,生態系統非常完整,可以適用各種場景和行業。這次,我們準備通過 Python 學習爬蟲的開發,既簡單有趣,而且是數據采集重要一環。同時脫離應用談技術就是耍流氓,通過制作電子書學習數據的收集與整理,即能學到東西又有實用價值。
我們將通過爬取網頁信息這個很小的應用場景來體會數據預處理的思想,并從中學習了解數據處理中抓取、處理、分組、存儲等過程的實現。我這次分享主要分為以下幾個部分:
Python 語法的講解,通過分享掌握簡單的 Python 開發語法和思路,側重于后面爬蟲開發的需要用的內容
Scrapy 爬蟲開發,通過分享了解基本的 Scrapy 開發,并實現從網絡爬取數據
使用 Sigil 制作 epub 電子書
最后,我希望通過分享能夠入門,并喜歡上 Python 開發,并且掌握 Scrapy 爬蟲開發的思路和方法。