?1-1
? 課程導學100%課程的方向、學習的方法
?1-2 ***學前必讀***(助你平穩踩坑,暢學無憂,課程學習與解決問題指南)100%注冊慕課網的GitHub:
sunnycat
?1-3 課程目錄100%什么是大數據,帶來的變革,現存的模式,技術概念,帶來的挑戰,典型應用(可以通過不同的維度看典型應用)
?1-4 從一個案例說起100%大數據和推薦系統。根據大數據匯總得到的信息推薦產品
?1-5 什么是大數據以及大數據的4V特征100%數據量:多樣性及復雜性:數據類型的多樣性,處理的數據類型分為:結構化、非結構化。基于高度分析的新價值:價值密度的高低與數據總量成反比,如何通過強大的算法更加快速的完成數據價值的提煉需要通過大數據來做。Eg:根據歷史數據做準確的預言速度:處理速度快,實時性高。Mapreduce離線批處理,延時性高。隨業務發展,實時性高需求高。
?1-6 大數據帶來的技術變革100%技術的驅動:數據量大
1、存儲:文件存儲 ==> 分布式存儲
2、計算:單機==> 分布式計算()
3、網絡:萬兆(集群的)
4、DB:RDBMS(MySQL)==> NoSQL(HBase/Redis....)
商業的驅動:
商業驅動的前提下,用大數據結合公司業務創造公司的價值。電商、互聯網發展快速,從大量數據分析出企業從中獲取到價值。
?1-7 大數據現存的模式100%1、有數據,沒有大數據的思維。沒有利用好.2、沒有大數據,有大數據的思維。Eg:IT服務咨詢3、有數據,有大數據思維。Eg:谷歌,阿里
?1-8 大數據的技術概念100%初始需求:把貨物搬到對岸。當數據量小時小船即可解決。當數據量大時,通過升級硬件方式(CPU
? Memory Disk),容易到極限。解決方法:提出大數據概念1、分布式并行計算/處理:容納多艘小船并行的河流2、船的選擇:存儲的介質
?廉價:
?中高價值:
3、運輸過程拆開
?貨物搬到船上: 數據采集?? 數據存儲
?處理:小于多少的石頭扔了?? 精細化的篩選
*數據采集:Flume Sqoop
*數據存儲:Hadoop
*數據處理、分析、挖掘:Hadoop、Spark、Flink....
可視化:并不完全屬于大數據,大數據重點是前面三個
?1-9 大數據帶來的挑戰100%1、對現有數據庫管理技術的挑戰
2、經典的數據庫技術并沒有考慮到數據的多類別(多樣性及復雜性)
3、實時性技術帶來的挑戰(時效性 )
4、網絡架構、數據中心、運維的挑戰
5、數據隱私
6、數據源的多樣性
應該朝著這個方向努力,視野、境界、發展會有很大的提升
?1-10 如何對大數據進行存儲和分析100%系統瓶頸:
1、存儲容量
2、讀寫速度
3、計算效率
Google大數據技術-奠定了基礎,只是提供論文,沒有開放原代碼
1、mapreduce:分布式計算的框架,一個作業可以拆開放到不同的機器運行。
2、bigTable:大數據存儲的一種手段,及快速的查詢
3、GFS:分布式存儲系統,提供高可靠的存儲
?1-11 大數據典型應用100%數據加工難度由易到難:
COUNT/SUM/AVG
GROUP BY/JOIN
窗口分析函數
異常/欺詐檢測
人工智能
應用的角度,由上到下反映時效性:
報表
用戶細分
指標監控:監控現在的狀態
指標預警:事情發生前做預警