一、大數(shù)據(jù)與機(jī)器學(xué)習(xí)的關(guān)系
大數(shù)據(jù)技術(shù)是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能的基礎(chǔ),現(xiàn)有的機(jī)器學(xué)習(xí)和人工智能的發(fā)展都離不開大數(shù)據(jù)。二、大數(shù)據(jù)生態(tài)圈
目前大數(shù)據(jù)主要有兩大生態(tài)圈:
》Hadoop生態(tài)圈
》Spark生態(tài)圈
三、大數(shù)據(jù)故事
點(diǎn)球(分析對手的特點(diǎn))
電商(分析消費(fèi)習(xí)慣、廣告精準(zhǔn)投放、商品個(gè)性化推薦等)
四、大數(shù)據(jù)產(chǎn)生的背景
由于信息時(shí)代的到來,每天都產(chǎn)生了大量的數(shù)據(jù),想要靠人工去分析和挖掘這些數(shù)據(jù)中存在的有價(jià)值的信息變得不現(xiàn)實(shí)了,因此,產(chǎn)生了大數(shù)據(jù)技術(shù)。四、大數(shù)據(jù)的4V特征
數(shù)據(jù)體量巨大(Volume) :截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
數(shù)據(jù)類型繁多(Variety): 這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
價(jià)值密度低(Value): 價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
處理速度快(Velocity): 這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
五、大數(shù)據(jù)涉及到的技術(shù)
(1)數(shù)據(jù)采集 (2)數(shù)據(jù)存儲(chǔ)
(3)數(shù)據(jù)處理/分析/挖掘 (4)可視化
六、大數(shù)據(jù)在技術(shù)架構(gòu)上帶來的挑戰(zhàn)
1. 對現(xiàn)有數(shù)據(jù)庫管理技術(shù)的挑戰(zhàn)
2. 經(jīng)典數(shù)據(jù)庫沒有考慮數(shù)據(jù)的多類型
3. 實(shí)時(shí)性技術(shù)挑戰(zhàn)
4. 網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)中心、運(yùn)維的挑戰(zhàn)
其他挑戰(zhàn)
1.數(shù)據(jù)隱私
2.數(shù)據(jù)源復(fù)雜多樣
八、如何學(xué)好大數(shù)據(jù)
- 官網(wǎng)、官網(wǎng)、官網(wǎng)
- 英文、英文、英文
- 項(xiàng)目實(shí)踐,對知識(shí)點(diǎn)進(jìn)行鞏固和融會(huì)貫通
- 社區(qū)活動(dòng):Meetup、開源社區(qū)大會(huì)、線下沙龍等
- 切記:多動(dòng)手、多練習(xí),貴在堅(jiān)持