如何成為一名數據科學家

數據科學家之旅

上圖是IBM Watson的首席技術專家Swami Chandrasekaran編撰的數據科學家地鐵圖,可以說是數據科學家的技能修煉指南,分享出來,供「骨骼驚奇」之人慢慢修煉。

欲練此功,必先埋頭苦讀。

一、基礎

1、矩陣和線性代數基礎
2、散列函數、二叉樹和O(n)
3、關系代數、DB基礎
4、inner/outer/cross/theta連接
5、CAP原理
6、Tabular Data
7、Data Frames & Series
8、Sharding
9、OLAP
10、多維數據模型
11、ETL
12、報告 vs BI vs 分析
13、JSON和XML
14、NoSQL
15、正則表達式
16、Vendor Landscape
17、環境部署

二、統計

1、選擇數據集(UCI Repo)
2、描述統計學(mean/median/range/SD/var)
3、探索性數據分析
4、直方圖
5、百分數和極值
6、概率論
7、貝葉斯理論
8、隨機變量
9、累計分布函數
10、連續分布(正態、泊松、高斯)
11、偏度
12、方差分析(ANOVA)
13、概率密度分布
14、中心極限定理
15、蒙特卡羅方法
16、假設驗證
17、p值
18、卡方檢驗
19、估計
20、置信區間
21、極大似然估計
22、核密度估計
23、回歸
24、協方差
25、相關性
26、皮爾遜相關系數
27、最小二乘法
28、 歐氏距離

三、編程

1、Python基礎
2、Excel使用
3、R安裝
4、R基礎
5、表達式
6、向量
7、矩陣
8、數組
9、因子
10、列表
11、數據框
12、讀取CSV
13、讀取原始數據
14、構建數據集
15、操作數據集
16、函數
17、因子分析
18、安裝包

四、機器學習

1、什么是ML
2、數值變量
3、分類變量
4、監督學習
5、非監督學習
6、概念、輸入和特征
7、訓練集和測試集
8、分類
9、預測
10、Lift曲線
11、過擬合
12、偏差和方差
13、樹和分類
14、分類正確率
15、決策樹
16、Boosting
17、樸素貝葉斯分類器
18、K鄰近分類
19、邏輯回歸
20、排序
21、線性回歸
22、Perception
23、層次聚類
24、K-means聚類
25、神經網絡
26、情感分析
27、協同過濾
28、標注

五、文本挖掘/自然語言處理

1、語料庫
2、命名實體識別
3、文本分析
4、UIMA
5、詞文檔矩陣
6、詞頻和權重
7、支持向量機
8、關聯規則
9、Market Based Analysis
10、特征提取
11、使用Mahout
12、使用Weka
13、使用自然語言工具包
14、文本分類
15、詞匯映射

六、可視化

1、Data Exploration in R
2、Uni, Bi & Multivariate Viz
3、ggplot2可視化包
4、直方圖和餅圖
5、樹圖和矩形樹圖
6、散點圖
7、折線圖
8、空間圖
9、Survey Plot
10、時間軸
11、決策樹
12、D3.js
13、IBM ManyEyes
14、Tableau

七、大數據

1、MapReduce框架
2、Hadoop組件
3、HDFS:Hadoop的分布式文件系統
4、數據復制原理
5、安裝Hadoop
6、名稱和數據節點
7、任務跟蹤
8、Map/Reduce編程
9、Sqoop: Loading Data in HDFS
10、Flue, Scribe: For Unstruct Data
11、SQL with Pig
12、DWH with Hive
13、Scribe, Chukwa For Weblog
14、Using Mahout
15、Zookeeper Avro
16、Storm: Hadoop Realtime
17、Rhadoop, RHipe
18、rmr
19、Classandra
20、MongoDB, Neo4j

八、數據獲取

1、Summary of Data Formats
2、數據發現
3、數據來源與采集
4、數據集成
5、數據融合
6、轉換和濃縮
7、數據調查
8、Google OpenRefine
9、How much Data
10、使用ETL

九、數據清洗

1、維度與數值歸約
2、數據規范化
3、數據清洗
4、缺失值處理
5、無偏估計量
6、分箱稀疏值
7、特征提取
8、去噪
9、抽樣
10、分層抽樣(Stratified Sampling )
11、主成分分析(Principal Component Analysis)

十、工具箱

1、MS Excel / Analysis ToolPak
2、Java, Python
3、R, R-Studio, Rattle
4、Weka, Knime, RapidMiner
5、Hadoop Dist of Choice
6、Spark, Storm
7、Flume, Scribe, Chukwa
8、Nutch, Talend, Scraperwiki
9、Webscraper, Flume, Sqoop
10、tm, RWeka, NLTK
11、RHIPE
12、D3.js, ggplot2, Shiny
13、IBM Languageware
14、Cassandra, MongoDB

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,698評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,202評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,742評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,580評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,297評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,688評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,693評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,875評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,438評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,183評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,384評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,931評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,612評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,022評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,297評論 1 292
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,093評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,330評論 2 377

推薦閱讀更多精彩內容