大數(shù)據(jù)要學(xué)習(xí)哪些技術(shù)呢?大數(shù)據(jù)技術(shù)的分類與選擇路線

大數(shù)據(jù)的處理過(guò)程可以分為大數(shù)據(jù)采集、存儲(chǔ)、結(jié)構(gòu)化處理、隱私保護(hù)、挖掘、結(jié)果展示(發(fā)布)等,各種領(lǐng)域的大數(shù)據(jù)應(yīng)用一般都會(huì)涉及到這些基本過(guò)程,但不同應(yīng)用可能會(huì)有所側(cè)重。科多大數(shù)據(jù)認(rèn)為對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)而言,由于其具有獨(dú)特完整的大數(shù)據(jù)特點(diǎn),除了共性技術(shù)外,采集技術(shù)、結(jié)構(gòu)化處理技術(shù)、隱私保護(hù)也非常突出。

有很多算法和模型可以解決這些處理過(guò)程中的技術(shù)問(wèn)題,并且為了最終用戶的使用方便,它們大都被進(jìn)一步的封裝,形成了比較簡(jiǎn)單易用的操作平臺(tái)。目前大數(shù)據(jù)技術(shù)平臺(tái)有很多,歸納起來(lái)可以按照以下方式進(jìn)行分類:

1. 從大數(shù)據(jù)處理的過(guò)程來(lái)分:包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘分析、以及為完成高效分析挖掘而設(shè)計(jì)的計(jì)算平臺(tái),它們完成數(shù)據(jù)采集、ETL、存儲(chǔ)、結(jié)構(gòu)化處理、挖掘、 分析、預(yù)測(cè)、應(yīng)用等功能。

2. 從大數(shù)據(jù)處理的數(shù)據(jù)類型來(lái)劃分:可以分為針對(duì)關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)(圖數(shù)據(jù)、文本數(shù)據(jù)、網(wǎng)絡(luò)型數(shù)據(jù)等)、半結(jié)構(gòu)化數(shù)據(jù)、混合類型數(shù)據(jù)處理的技術(shù)平臺(tái)。

3. 從大數(shù)據(jù)處理的方式來(lái)劃分:可以分為批量處理、實(shí)時(shí)處理、綜合處理。其中批量數(shù)據(jù)是對(duì)成批數(shù)據(jù)進(jìn)行一次性處理,而實(shí)時(shí)處理(流處理)對(duì)處理的延時(shí)有嚴(yán)格的要求,綜合處理是指同時(shí)具備批量處理和實(shí)時(shí)處理兩種方式。

4. 從平臺(tái)對(duì)數(shù)據(jù)的部署方式看:可以分為基于內(nèi)存的、基于磁盤的。前者在分布式系統(tǒng)內(nèi)部的數(shù)據(jù)交換是在內(nèi)存中進(jìn)行,后者則是通過(guò)磁盤文件的方式。

此外,技術(shù)平臺(tái)還有分布式、集中式之分,云環(huán)境和非云環(huán)境之分等。阿里云大數(shù)據(jù)平臺(tái)構(gòu)建在阿里云云計(jì)算基礎(chǔ)設(shè)施之上,為用戶提供了大數(shù)據(jù)存儲(chǔ)、計(jì)算能力、大數(shù)據(jù)分析挖掘、以及輸出展示等服務(wù),用戶可以容易地實(shí)現(xiàn)BI商業(yè)智能、人工智能服務(wù),具備一站式數(shù)據(jù)應(yīng)用能力。在以前的一篇推送(“基于阿里云大數(shù)據(jù)技術(shù)的個(gè)性化新聞推薦”)中,描述了基于阿里云大數(shù)據(jù)技術(shù)的個(gè)性化新聞推薦系統(tǒng)分析設(shè)計(jì)與部署方法。

不同的大數(shù)據(jù)技術(shù)平臺(tái)提供了對(duì)這些處理過(guò)程的支持,有的平臺(tái)可能會(huì)支持多個(gè)過(guò)程,但是側(cè)重點(diǎn)也不同,支持的深度也有所不同,因此有必要熟悉各種平臺(tái)的功能,并做出比較分析,以便在實(shí)際應(yīng)用中選擇適合于自己需求的技術(shù)平臺(tái)。

選擇一個(gè)合適的大數(shù)據(jù)技術(shù)平臺(tái)是非常重要的,它能夠使得大數(shù)據(jù)應(yīng)用開發(fā)更加容易、讓開發(fā)人員更集中精力在業(yè)務(wù)層面的數(shù)據(jù)分析與處理上。一些共性的基礎(chǔ)問(wèn)題,例如數(shù)據(jù)如何存儲(chǔ)、如何檢索、數(shù)據(jù)統(tǒng)計(jì)等,就可以由平臺(tái)來(lái)完成。選擇合適的大數(shù)據(jù)技術(shù)平臺(tái)應(yīng)當(dāng)考慮以下因素:

1. 平臺(tái)的功能與性能:由于不同平臺(tái)側(cè)重的功能不同,平臺(tái)的性能也就有很多需要考察的方面。比如對(duì)于存儲(chǔ)平臺(tái)來(lái)說(shuō),數(shù)據(jù)的存儲(chǔ)效率、讀寫效率、并發(fā)訪問(wèn)能力、對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的支持,所提供的數(shù)據(jù)訪問(wèn)接口等方面就是比較重要的。對(duì)于大數(shù)據(jù)挖掘平臺(tái)來(lái)說(shuō),所支持的挖掘算法、算法的封裝程度、數(shù)據(jù)挖掘結(jié)果的展示能力、挖掘算法的時(shí)間和空間復(fù)雜度等,是比較重要的指標(biāo)。

2. 平臺(tái)的集成度:好的平臺(tái)應(yīng)該具有較高的集成度,為用戶提供良好的操作界面,具有完善的幫助和使用手冊(cè)、系統(tǒng)易于配置、移植性好。同時(shí)隨著目前軟件開源的趨勢(shì),開源平臺(tái)有助于其版本的快速升級(jí),盡快發(fā)現(xiàn)其中的bug,此外,開源的架構(gòu)也比較容易進(jìn)行擴(kuò)展,植入更多的新算法,這對(duì)于最終用戶而言也是比較重要的。

3. 是否符合技術(shù)發(fā)展趨勢(shì):大數(shù)據(jù)技術(shù)是當(dāng)前發(fā)展和研究的熱點(diǎn),其最終將走向逐步成熟,可以預(yù)見在這個(gè)過(guò)程中,并非所有的技術(shù)平臺(tái)都能生存下來(lái)。只有符合技術(shù)發(fā)展趨勢(shì)的技術(shù)平臺(tái)才會(huì)被用戶、被技術(shù)開發(fā)人員所接受。因此,一些不支持分布式、集群計(jì)算的平臺(tái)大概只能針對(duì)較小的數(shù)據(jù)量,側(cè)重于對(duì)挖掘算法的驗(yàn)證。而與云計(jì)算、物聯(lián)網(wǎng)、人工智能聯(lián)系密切的技術(shù)平臺(tái)將成為主流,是技術(shù)發(fā)展趨勢(shì)。

同時(shí)應(yīng)當(dāng)充分意識(shí)到,技術(shù)迭代更新速度加快,當(dāng)我們花很多時(shí)間去掌握熟悉某種技術(shù)平臺(tái)后,可能新的更好的技術(shù)平臺(tái)出現(xiàn)了,導(dǎo)致我們受累奔波于各種技術(shù)平臺(tái),因此,最好的策略就是全面系統(tǒng)地掌握大數(shù)據(jù)技術(shù)的原理和實(shí)現(xiàn)方案,這樣學(xué)習(xí)新的技術(shù)平臺(tái)就很容易上手。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,546評(píng)論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,570評(píng)論 3 418
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,505評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,017評(píng)論 1 313
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,786評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,219評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,287評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,438評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,971評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,796評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,995評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,540評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,230評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,662評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,918評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,697評(píng)論 3 392
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,991評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容