上圖是IBM Watson的首席技術專家Swami Chandrasekaran編撰的數據科學家地鐵圖,可以說是數據科學家的技能修煉指南,分享出來,供「骨骼驚奇」之人慢慢修煉。
欲練此功,必先埋頭苦讀。
一、基礎
1、矩陣和線性代數基礎
2、散列函數、二叉樹和O(n)
3、關系代數、DB基礎
4、inner/outer/cross/theta連接
5、CAP原理
6、Tabular Data
7、Data Frames & Series
8、Sharding
9、OLAP
10、多維數據模型
11、ETL
12、報告 vs BI vs 分析
13、JSON和XML
14、NoSQL
15、正則表達式
16、Vendor Landscape
17、環境部署
二、統計
1、選擇數據集(UCI Repo)
2、描述統計學(mean/median/range/SD/var)
3、探索性數據分析
4、直方圖
5、百分數和極值
6、概率論
7、貝葉斯理論
8、隨機變量
9、累計分布函數
10、連續分布(正態、泊松、高斯)
11、偏度
12、方差分析(ANOVA)
13、概率密度分布
14、中心極限定理
15、蒙特卡羅方法
16、假設驗證
17、p值
18、卡方檢驗
19、估計
20、置信區間
21、極大似然估計
22、核密度估計
23、回歸
24、協方差
25、相關性
26、皮爾遜相關系數
27、最小二乘法
28、 歐氏距離
三、編程
1、Python基礎
2、Excel使用
3、R安裝
4、R基礎
5、表達式
6、向量
7、矩陣
8、數組
9、因子
10、列表
11、數據框
12、讀取CSV
13、讀取原始數據
14、構建數據集
15、操作數據集
16、函數
17、因子分析
18、安裝包
四、機器學習
1、什么是ML
2、數值變量
3、分類變量
4、監督學習
5、非監督學習
6、概念、輸入和特征
7、訓練集和測試集
8、分類
9、預測
10、Lift曲線
11、過擬合
12、偏差和方差
13、樹和分類
14、分類正確率
15、決策樹
16、Boosting
17、樸素貝葉斯分類器
18、K鄰近分類
19、邏輯回歸
20、排序
21、線性回歸
22、Perception
23、層次聚類
24、K-means聚類
25、神經網絡
26、情感分析
27、協同過濾
28、標注
五、文本挖掘/自然語言處理
1、語料庫
2、命名實體識別
3、文本分析
4、UIMA
5、詞文檔矩陣
6、詞頻和權重
7、支持向量機
8、關聯規則
9、Market Based Analysis
10、特征提取
11、使用Mahout
12、使用Weka
13、使用自然語言工具包
14、文本分類
15、詞匯映射
六、可視化
1、Data Exploration in R
2、Uni, Bi & Multivariate Viz
3、ggplot2可視化包
4、直方圖和餅圖
5、樹圖和矩形樹圖
6、散點圖
7、折線圖
8、空間圖
9、Survey Plot
10、時間軸
11、決策樹
12、D3.js
13、IBM ManyEyes
14、Tableau
七、大數據
1、MapReduce框架
2、Hadoop組件
3、HDFS:Hadoop的分布式文件系統
4、數據復制原理
5、安裝Hadoop
6、名稱和數據節點
7、任務跟蹤
8、Map/Reduce編程
9、Sqoop: Loading Data in HDFS
10、Flue, Scribe: For Unstruct Data
11、SQL with Pig
12、DWH with Hive
13、Scribe, Chukwa For Weblog
14、Using Mahout
15、Zookeeper Avro
16、Storm: Hadoop Realtime
17、Rhadoop, RHipe
18、rmr
19、Classandra
20、MongoDB, Neo4j
八、數據獲取
1、Summary of Data Formats
2、數據發現
3、數據來源與采集
4、數據集成
5、數據融合
6、轉換和濃縮
7、數據調查
8、Google OpenRefine
9、How much Data
10、使用ETL
九、數據清洗
1、維度與數值歸約
2、數據規范化
3、數據清洗
4、缺失值處理
5、無偏估計量
6、分箱稀疏值
7、特征提取
8、去噪
9、抽樣
10、分層抽樣(Stratified Sampling )
11、主成分分析(Principal Component Analysis)
十、工具箱
1、MS Excel / Analysis ToolPak
2、Java, Python
3、R, R-Studio, Rattle
4、Weka, Knime, RapidMiner
5、Hadoop Dist of Choice
6、Spark, Storm
7、Flume, Scribe, Chukwa
8、Nutch, Talend, Scraperwiki
9、Webscraper, Flume, Sqoop
10、tm, RWeka, NLTK
11、RHIPE
12、D3.js, ggplot2, Shiny
13、IBM Languageware
14、Cassandra, MongoDB