我的一年(2016)

[TOC]

總覺得應該寫一點什么...

一、我現階段在干什么?

  1. 仍然是機器學習&數據挖掘的門外漢。所幸的是我已經有了幾張“入場券”了:
  • python & R
  • pandas
  • matplotlib & ggplot2
  • sql
  • requests & bs4 & scrapy
  1. 春節前在CSDN上報了一門數據挖掘的課程,這里就不推薦了,因為實在是太。。。(吐槽點太多),week2里介紹了jieba分詞,tf-idf,gensim計算文本相似度,基礎知識歸零,用吳軍《數學之美》介紹的定義來說,就是信息熵(信息不確定性)太大,為了消除不確定,只能引入新的信息,于是去看了:
  1. 春節期間看了一遍吳軍博士的《數學之美》,自然語言處理入門知識,感覺是進入nlp的契機,然后最近入手了2本自然語言處理的教程:
  • 信息檢索導論 Christopher等
  • 統計自然語言處理 宗成慶
  1. 想到我的數據挖掘week3課程需要用到貝葉斯定理過濾垃圾郵件,于是在看Machine learning in action和數據科學入門的相關章節,數據科學入門(Data Science from Scratch)是2016-3-25購于圖靈社區的,記得當時對于數據科學一片迷茫,但是從《數據科學入門》這本書看到了一絲的曙光,于是買下了這本書,只不過沒想到居然是1年后的才有能力去看明白。

二、過去一年我干了什么?

  1. 2016.3上旬 sql入門
  • SQL基礎教程_MICK
  • MySQL必知必會_Ben Forta
  1. 2016.3~2016.6 python入門
  • 笨方法學python_我的耐心只維持到了習題44
  • 廖雪峰python2.7(看到了錯誤、調試和測試,剩下的只看了正則,訪問數據庫,目前改用廖雪峰的python3.5教程用于回顧)
  • Edx MITx_6.00.1x 粗略看了1遍
  • Coursera 密西根大學_Using python to access web data
  • 中國大學MOOC 南京大學_用Python玩轉數據。。。會賣萌的女老師講授滴
  • python基礎教程_只看了開頭看不下去了
  • 這時候學完python基礎后,我的感覺是python能用來干啥?我不知道。。。
  1. 2016.6 嘗試學習Ng Andrew的Machine learning,看了2周的課程就繼續不下去了,我也不不知道為什么。。。
  2. 2016.7 學堂在線MIT_6.00.1x過第2遍,完成課程作業(100h)
  • 編程導論 Introduction to Computation and Programming Using Python
  • 獲得學堂在線結業證書
  1. 2016.8~2016.9 Soton R語言第2期 R語言入門
  • R語言實戰_R in action(目前有2nd版,2014-6-20購于多看閱讀,沒想到居然會真的派上用場)
  • R語言核心技術手冊_R in a Nutshell(參考手冊)
  • R語言編程藝術(用編程的思維學習R)
  • ggplot2:數據分析與圖形藝術_ggplot2_Elegant_Graphics_for_DataAnalysis by Hadley Wickham
  • R數據可視化手冊_R Graphics Cookbook by Winston Cbang
  • R for Data Science by Hadley Wickham & Garrett Grolenmund(2017.1出版)
  • 數據科學_理論、方法和R語言實踐_Practical Data Science With R_R語言數據科學入門書籍,我覺得很好,可惜還是只看了前幾章, Manning出版社出版,我很喜歡這個出版社出的書籍(R in action, Machine Learning in action就是他家出版滴)
  • 機器學習使用案例解析_Machine Learning for Hackers_Soton終身會員書籍,同樣只看過前幾章,然后發現居然代碼是用R實現的,贊一個,將來有機會才回過頭開敲敲代碼~
  • R入門的一個好處是我擁有了數據框DataFrame的思維了,為我學習pandas打下了基礎
  • Hadley Wickham,RStudio首席科學家,R軟件包ggplot2, lubridate,plyr, reshape2, stringr, httr開發者。
  1. 2016.9~2016.10 商務與經濟統計 12th 看了前8章,統計與概率入門
  2. 2016.10 pandas入門
  • 利用python進行數據分析_ python for Data analysis_我的參考手冊,也是我代碼敲了1遍的書,章節目錄略顯凌亂,但是不失為一本經典書籍
  • soton python課程,后來在淘寶上購買了一份
  • 當我R入門后,R可以用來干什么?我的回答是R可以直接用來處理數據,R是為統計而生的一面語言,因此一入手就是和數據打交道的,于是我可以利用R來清洗和處理我的數據,從此Excel不再是我的主要工具了
  • 然后利用R處理過的數據,對于相同的數據處理流程,我用pandas進行了代碼移植,從此喜歡上了pandas,R則喜歡data.table包
  1. 2016.10~2016.11 糾結于不知如何入門機器學習
  • 刻意練習_遇到瓶頸怎么辦: 試著做不同的事情,而非更難的事情;也許你并非達到極限,而是動機不足......
  • 學習之道_ A mind for numbers_Coursera learning how to learn
  • 軟技能:
    1. 玩耍是一項強大的學習機制,他會激勵你有足夠的動力去探索,加快你的學習步伐
    2. 在你閱讀某個主題的書之前,大致瀏覽后就開始實踐。不用擔心自己是否知道自己在做什么。樂在其中,你就會發現隨著自己的實驗和探索,自己在哪些方面發現了問題。
    3. 一旦你已經實踐過,并積累了各式各樣的問題,立刻回到書本當中。當你回去重讀這些參考資料的時候,你有強烈的沖動去消化吸收其中的內容。因為你已經積攢了很多想要找到答案的問題,你對哪些內容更重要早已了然于胸。
    4. 然后,你可以把自己學到的新知識重新應用于實踐??纯茨銓W到的新方法是否能解決你已有的問題。
    5. 最后,你可以將自己所學的打包教給別人。教永遠是一項好的學習方法。。。
  1. 2016.11~2017.1 網絡爬蟲入門
  2. 簡單的requests爬蟲例子, 知道在headers中添加user-agent
  3. 網頁提取所需內容,Beautifulsoup簡單例子
  4. 網易云課堂_0基礎Python實戰:四周實現爬蟲網站
  5. bs4官方文檔
  6. requests官方文檔
  7. 實際應用到自己想爬取的網頁中(大量練習),知道time.sleep, proxy代理池,隨機更換User-agent, cookies
  8. 黑板客爬蟲闖關
  9. 對爬取大量網頁構建自己的代碼,發現代碼臃腫。。。不堪入目。。。,于是開始研究scrapy
  10. scrapy入門案例
  11. learning scrapy前半本書, 同時學習了xpath和css selector
  12. Python大型網絡爬蟲項目開發實戰(全套) _雖然對這老師我有很多吐槽點,但是還是可以開闊一下眼界的
  13. scrapy官方文檔
  14. 胡松濤 python網絡爬蟲實戰——我主要用于系統回顧自己所掌握的知識
  15. 用scrapy爬取百度貼吧iphone吧的帖子,約2萬個主題頁,100萬個帖子頁(半個月)

三、接下來做什么?

  1. Soton數據分析準備組織一起學習統計概率了,準備跟著學習一遍。
  2. 機器學習,機器學習,機器學習。。。 殘念。。。
  3. 寫技術文章,要么極其簡略的寫,要么極其詳盡簡明扼要的寫

一年前看這個博客文章后,心里面只有沮喪的感覺,1年后再回顧,雖然還是不知道那些專有名詞具體是什么內容,但是已經知道那些概念在哪兒,是用來干什么的了,在這一年了所走過的僅僅是數據科學的上游:數據采集、數據清理和數據探索,后半段會更難走一點,但是知道那是數據分析師的分水嶺,無論通過什么途徑終究還是需要闖過去的。

未來30年的數據時代還是值得期待的。。。

凡星
2017.02.06

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,182評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,489評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,290評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,776評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,510評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,866評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,860評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,036評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,585評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,331評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,536評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,058評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,754評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,154評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,469評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,273評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,505評論 2 379

推薦閱讀更多精彩內容