[TOC]
總覺得應該寫一點什么...
一、我現階段在干什么?
- 仍然是機器學習&數據挖掘的門外漢。所幸的是我已經有了幾張“入場券”了:
- python & R
- pandas
- matplotlib & ggplot2
- sql
- requests & bs4 & scrapy
- 春節前在CSDN上報了一門數據挖掘的課程,這里就不推薦了,因為實在是太。。。(吐槽點太多),week2里介紹了jieba分詞,tf-idf,gensim計算文本相似度,基礎知識歸零,用吳軍《數學之美》介紹的定義來說,就是信息熵(信息不確定性)太大,為了消除不確定,只能引入新的信息,于是去看了:
- 52nlp_文本相似度二
- 阮一峰博客_tf-idf計算
- 阮一峰博客_余弦定理計算相似性
- models.tfidfmodel – TF-IDF model
- 詞袋(bag-of-words)模型
- gensim tutorial
- 從文本相似度出發,找了TF-IDF的實現原理,余弦定理計算相似度,然后看gensim的tutorial和52nlp的文本相似度的例子,才基本上搞清楚了那一節課的內容
- 春節期間看了一遍吳軍博士的《數學之美》,自然語言處理入門知識,感覺是進入nlp的契機,然后最近入手了2本自然語言處理的教程:
- 信息檢索導論 Christopher等
- 統計自然語言處理 宗成慶
- 想到我的數據挖掘week3課程需要用到貝葉斯定理過濾垃圾郵件,于是在看Machine learning in action和數據科學入門的相關章節,數據科學入門(Data Science from Scratch)是2016-3-25購于圖靈社區的,記得當時對于數據科學一片迷茫,但是從《數據科學入門》這本書看到了一絲的曙光,于是買下了這本書,只不過沒想到居然是1年后的才有能力去看明白。
二、過去一年我干了什么?
- 2016.3上旬 sql入門
- SQL基礎教程_MICK
- MySQL必知必會_Ben Forta
- 2016.3~2016.6 python入門
- 笨方法學python_我的耐心只維持到了習題44
- 廖雪峰python2.7(看到了錯誤、調試和測試,剩下的只看了正則,訪問數據庫,目前改用廖雪峰的python3.5教程用于回顧)
- Edx MITx_6.00.1x 粗略看了1遍
- Coursera 密西根大學_Using python to access web data
- 中國大學MOOC 南京大學_用Python玩轉數據。。。會賣萌的女老師講授滴
- python基礎教程_只看了開頭看不下去了
- 這時候學完python基礎后,我的感覺是python能用來干啥?我不知道。。。
- 2016.6 嘗試學習Ng Andrew的Machine learning,看了2周的課程就繼續不下去了,我也不不知道為什么。。。
- 2016.7 學堂在線MIT_6.00.1x過第2遍,完成課程作業(100h)
- 編程導論 Introduction to Computation and Programming Using Python
- 獲得學堂在線結業證書
- 2016.8~2016.9 Soton R語言第2期 R語言入門
- R語言實戰_R in action(目前有2nd版,2014-6-20購于多看閱讀,沒想到居然會真的派上用場)
- R語言核心技術手冊_R in a Nutshell(參考手冊)
- R語言編程藝術(用編程的思維學習R)
- ggplot2:數據分析與圖形藝術_ggplot2_Elegant_Graphics_for_DataAnalysis by Hadley Wickham
- R數據可視化手冊_R Graphics Cookbook by Winston Cbang
- R for Data Science by Hadley Wickham & Garrett Grolenmund(2017.1出版)
- 數據科學_理論、方法和R語言實踐_Practical Data Science With R_R語言數據科學入門書籍,我覺得很好,可惜還是只看了前幾章, Manning出版社出版,我很喜歡這個出版社出的書籍(R in action, Machine Learning in action就是他家出版滴)
- 機器學習使用案例解析_Machine Learning for Hackers_Soton終身會員書籍,同樣只看過前幾章,然后發現居然代碼是用R實現的,贊一個,將來有機會才回過頭開敲敲代碼~
- R入門的一個好處是我擁有了數據框DataFrame的思維了,為我學習pandas打下了基礎
- Hadley Wickham,RStudio首席科學家,R軟件包ggplot2, lubridate,plyr, reshape2, stringr, httr開發者。
- 2016.9~2016.10 商務與經濟統計 12th 看了前8章,統計與概率入門
- 2016.10 pandas入門
- 利用python進行數據分析_ python for Data analysis_我的參考手冊,也是我代碼敲了1遍的書,章節目錄略顯凌亂,但是不失為一本經典書籍
- soton python課程,后來在淘寶上購買了一份
- 當我R入門后,R可以用來干什么?我的回答是R可以直接用來處理數據,R是為統計而生的一面語言,因此一入手就是和數據打交道的,于是我可以利用R來清洗和處理我的數據,從此Excel不再是我的主要工具了
- 然后利用R處理過的數據,對于相同的數據處理流程,我用pandas進行了代碼移植,從此喜歡上了pandas,R則喜歡data.table包
- 2016.10~2016.11 糾結于不知如何入門機器學習
- 刻意練習_遇到瓶頸怎么辦: 試著做不同的事情,而非更難的事情;也許你并非達到極限,而是動機不足......
- 學習之道_ A mind for numbers_Coursera learning how to learn
- 軟技能:
1. 玩耍是一項強大的學習機制,他會激勵你有足夠的動力去探索,加快你的學習步伐
2. 在你閱讀某個主題的書之前,大致瀏覽后就開始實踐。不用擔心自己是否知道自己在做什么。樂在其中,你就會發現隨著自己的實驗和探索,自己在哪些方面發現了問題。
3. 一旦你已經實踐過,并積累了各式各樣的問題,立刻回到書本當中。當你回去重讀這些參考資料的時候,你有強烈的沖動去消化吸收其中的內容。因為你已經積攢了很多想要找到答案的問題,你對哪些內容更重要早已了然于胸。
4. 然后,你可以把自己學到的新知識重新應用于實踐??纯茨銓W到的新方法是否能解決你已有的問題。
5. 最后,你可以將自己所學的打包教給別人。教永遠是一項好的學習方法。。。
- 2016.11~2017.1 網絡爬蟲入門
- 簡單的requests爬蟲例子, 知道在headers中添加user-agent
- 網頁提取所需內容,Beautifulsoup簡單例子
- 網易云課堂_0基礎Python實戰:四周實現爬蟲網站
- bs4官方文檔
- requests官方文檔
- 實際應用到自己想爬取的網頁中(大量練習),知道time.sleep, proxy代理池,隨機更換User-agent, cookies
- 黑板客爬蟲闖關
- 對爬取大量網頁構建自己的代碼,發現代碼臃腫。。。不堪入目。。。,于是開始研究scrapy
- scrapy入門案例
- learning scrapy前半本書, 同時學習了xpath和css selector
- Python大型網絡爬蟲項目開發實戰(全套) _雖然對這老師我有很多吐槽點,但是還是可以開闊一下眼界的
- scrapy官方文檔
- 胡松濤 python網絡爬蟲實戰——我主要用于系統回顧自己所掌握的知識
- 用scrapy爬取百度貼吧iphone吧的帖子,約2萬個主題頁,100萬個帖子頁(半個月)
三、接下來做什么?
- Soton數據分析準備組織一起學習統計概率了,準備跟著學習一遍。
- 機器學習,機器學習,機器學習。。。 殘念。。。
- 寫技術文章,要么極其簡略的寫,要么極其詳盡簡明扼要的寫
一年前看這個博客文章后,心里面只有沮喪的感覺,1年后再回顧,雖然還是不知道那些專有名詞具體是什么內容,但是已經知道那些概念在哪兒,是用來干什么的了,在這一年了所走過的僅僅是數據科學的上游:數據采集、數據清理和數據探索,后半段會更難走一點,但是知道那是數據分析師的分水嶺,無論通過什么途徑終究還是需要闖過去的。
未來30年的數據時代還是值得期待的。。。
凡星
2017.02.06