一、大數據通用處理平臺
1、Spark
2、Flink
3、Hadoop
二、流式計算
1、Storm/JStorm
2、Spark Streaming
3、Flink
三、分布式存儲
1、HDFS
四、資源調度
1、Yarn
2、Mesos
五、數據分析/數據倉庫(SQL類)
1、Pig
2、Hive
3、kylin
4、Spark SQL
5、Spark DataFrame
6、Impala
7、Phoenix
8、ELK
8.1 ElasticSearch
8.2 Logstash
8.3 Kibana
六、消息隊列
1、Kafka(純日志類,大吞吐量)
2、RocketMQ
3、ZeroMQ
4、ActiveMQ
5、RabbitMQ
七、編程語言
1、Java
2、Python
3、R
4、Ruby
5、Scala
八、算法
(1)一致性
1、paxos
2、raft
3、gossip
(2)數據結構
1、棧,隊列,鏈表
2、散列表
3、二叉樹,紅黑樹,B樹
4、圖
(3)常用算法
1、排序:
1.1 插入排序,參見博文插入排序 Java
1.2 桶排序,參見博文桶排序 【Java】
1.3 堆排序,參見博文堆排序 Java
2、快速排序,參見博文快速排序 Java
3、最大子數組,參見博文分治算法之最長子段和問題(Java)
4、最長公共子序列,參見博文動態規劃算法之最長公共子序列問題
5、最小生成樹、最短路徑
6、矩陣的存儲和運算
九、機器學習
(1)機器學習基礎
1、聚類
2、時間序列
3、推薦系統
4、回歸分析
5、文本挖掘
6、決策樹
7、支持向量機
8、貝葉斯分類
9、神經網絡
(2)機器學習工具
1、Mahout
2、Spark Mlib
3、TensorFlow (Google 系)
4、Amazon Machine Learning
5、DMTK (微軟分布式機器學習工具)
十、數據分析挖掘工具
1、MATLAB
2、SPSS
3、SAS
十一、數據可視化
1、R
2、D3.js
3、ECharts
4、Excle
5、Python
十二、日志收集
1、Scribe
2、Flume
附錄
一、云計算
(1)云服務
1、SaaS
2、PaaS
3、IaaS
5、Docker