1、入門
入門python與其他語言都是一個道理,大致可分為以下三個方面:
找一本好的書
一個好的師傅
一個好的地方
1.1、入門書籍:
- 《簡明python教程》又名《AByte of Python》
- 《零基礎入門學習Python》
- 《python學習手冊(第四版)》又名《 Learning Python》 -------- 作者:Mark Lutz、侯靖譯
- 《Python核心編程(第3版)》 -------- 丘恩
- 《python編程:從入門到實踐》等
1.2、視頻資源:
慕課網
優達學城
中國大學MOCC
可汗學院
當然如果身邊有個python高手也是不錯的
1.3、好的地方:
找一個好的地方,安安靜靜,每天抽點時間學習下python
關注python大神的博客、公眾號
公眾號推薦:菜鳥學python、python之禪、廖雪峰老師、菜鳥教程
待入門后可試著在github上參與項目
2、爬蟲
2.1、三個階段:
掌握基礎知識(python基礎、網絡請求等)
模仿(模仿別人代碼,多看代碼弄懂每行代碼,熟悉主流爬蟲工具)
上手
2.2、需要了解的知識:
HTML 知識、HTTP 協議的基本知識、正則表達式、數據庫知識
常用抓包工具的使用、爬蟲框架的使用
涉及到大規模爬蟲還需要了解分布式的概念、消息隊列、常用的數據結構和算法、緩存,甚至還包括機器學習的應用等
2.3、學習路線:
學習了解python(基礎語法)
了解html,教程推薦:
http://www.runoob.com/w3cnote/html-30-minutes-introductory-tutorial.html
爬蟲原理:通過網絡請求從遠程服務器下載數據的過程,網絡請求背后的技術基于http協議,入門爬蟲需要了解http協議的基本原理
網絡請求框架是對http協議的實現,了解http協議后,就可以有針對性的學習和網絡相關的模塊,python(自帶):urllib,httplib,Cookie等
爬取下來的數據需要處理:如JSON數據用python自帶的json,html數據用beeautifulsoup4、lxml庫,xml數據除了可以用untangle、還可以使用xmltodict等第三方庫。
爬蟲工具:學會瀏覽器的審查元素,去跟蹤請求信息
正則表達式:非必須(建議學),可以對爬取下來的數據進行清洗,對不能使用常規字符串操作符時可以使用正則,python的re模塊可以用來處理正則,推薦教程:
https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
- 數據持久化存儲:文件存儲(CSV文件),數據庫存儲(sqlite、MySQL)、分布式文檔數據庫(MongoDB),這些數據庫對python都非常友好,都有現成庫支持,熟悉API如何使用。
Python爬蟲知識點梳理
爬蟲部分的知識參考的是<Python之禪-Python爬蟲知識點梳理>,原文鏈接可關注微信公眾號:Python之禪
3、推薦書籍
《零基礎入門學習Python》 -------- 小甲魚
《python學習手冊(第四版)》又名《 Learning Python》 -------- 作者:Mark Lutz、侯靖譯
《Python核心編程(第3版)》 -------- 丘恩
《python編程:從入門到實踐》
適合小白,兼顧2.7和3.5,精簡,有動手試一試環節,翻譯質量高
《流暢的python》
從最佳編程實踐到底層實現原理
- 《簡明python教程》又名《AByte of Python》
非常推薦
- 《深入淺出python》
通俗易懂,培養大量插圖,無長篇大論
《父與子的編程之旅》
《Effective Python》
幫你掌握Pythonic的編程方式
《Python源碼剖析》
《集體智慧編程》
注重實踐,以機器學習與計算統計為主題背景,講述如何挖掘和分析web上的數據和資源
可以學習人工智能和數據挖掘
- 《利用python進行數據分析》
數據分析庫pandas作者寫的,數據分析入門首選
4、python知識
python應用廣泛,所需要學習的東西也有很多,當已經熟悉了解基礎后,差不多已經入門,以下為python進階發展學的幾個方面:
入門(python基礎)
爬蟲
數據挖掘與機器學習
web開發
自動化運維等