第一章 大數(shù)據(jù)發(fā)展背景
1.1 國家政策
? 2017年1月
工業(yè)和信息化部正式發(fā)布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,明確了“十三五”時期大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展思路、原則和目標(biāo),將引導(dǎo)大數(shù)據(jù)產(chǎn)業(yè)持續(xù)健康發(fā)展,有力支撐制造強(qiáng)國和網(wǎng)絡(luò)強(qiáng)國建設(shè)。
? 2018年9月
工信部公示“2018年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點示范項目名單”,公布了包括大數(shù)據(jù)存儲管理、大數(shù)據(jù)分析挖掘、大數(shù)據(jù)安全保障、產(chǎn)業(yè)創(chuàng)新大數(shù)據(jù)應(yīng)用、跨行業(yè)大數(shù)據(jù)融合應(yīng)用、民生服務(wù)大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)測試評估、大數(shù)據(jù)重點標(biāo)準(zhǔn)研制及應(yīng)用、政務(wù)數(shù)據(jù)共享開放平臺及公共數(shù)據(jù)共享開放平臺等10個方向200個項目。
? 2019年11月
為進(jìn)一步落實《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動綱要的通知》和《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016~2020年)》,推進(jìn)實施國家大數(shù)據(jù)戰(zhàn)略,務(wù)實推動大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)創(chuàng)新發(fā)展,我國工業(yè)和信息化部將組織開展2020年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點示范項目申報工作。
1.2 行業(yè)現(xiàn)狀
據(jù)相關(guān)資料顯示,隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息通信技術(shù)及產(chǎn)業(yè)的不斷發(fā)展,全球數(shù)據(jù)量呈爆發(fā)式增長態(tài)勢。至此,IDC研究報告指出,根據(jù)ZDNET的統(tǒng)計預(yù)計到2020年,中國產(chǎn)生的數(shù)據(jù)總量將超過8.5ZB,是2013年的10倍。
此外,值得一提的是,大數(shù)據(jù)市場空間巨大的同時,其產(chǎn)業(yè)規(guī)模也有望迎來快速增長。據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》統(tǒng)計數(shù)據(jù)顯示,2015年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模已達(dá)2800億元,截止至2017年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長至4700億元,規(guī)模增速進(jìn)一步提高至30.6%,初步測算2018年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)6200億元左右,同比增長31.9%。并預(yù)測在2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長突破萬億元,達(dá)到了10100億元,同比增長26.3%。
2015-2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模統(tǒng)計及增長情況預(yù)測
數(shù)據(jù)來源:前瞻產(chǎn)業(yè)研究院整理
由此可知,隨著來自政策、技術(shù)以及市場等各方面的力量推進(jìn)之下,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展?jié)摿^不能小覷。對此,業(yè)內(nèi)人士還預(yù)期稱,我國大數(shù)據(jù)產(chǎn)業(yè)正在從起步階段步入黃金期,2020年中國有望成世界第一數(shù)據(jù)資源大國。
1.3 專業(yè)背景
大數(shù)據(jù)及相關(guān)專業(yè)是以計算機(jī)為基礎(chǔ),以挖掘、分析為主,以搭建、工具使用為輔,緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科。其方向有數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、概率論與數(shù)理統(tǒng)計、數(shù)據(jù)挖掘與數(shù)據(jù)分析、數(shù)據(jù)運維與開發(fā)、算法與數(shù)據(jù)結(jié)構(gòu)、計算機(jī)網(wǎng)絡(luò)、并行計算等多個專業(yè)方向。目前全國各類院校已陸續(xù)開始圍繞大數(shù)據(jù)專業(yè)建設(shè)展開研究并申報大數(shù)據(jù)專業(yè)。
2016年,教育部批準(zhǔn)北京大學(xué)、對外經(jīng)貿(mào)大學(xué)、中南大學(xué)率先開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè);2017年,教育部批準(zhǔn)包括中國人民大學(xué)、北京郵電大學(xué)、復(fù)旦大學(xué)在內(nèi)的共計32所高校獲批“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)”;2018年3月,教育部發(fā)布《2017年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果》,共計255所高校獲批開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)”及“大數(shù)據(jù)管理與應(yīng)用專業(yè)”;2019年3月,教育部發(fā)布《2018年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果》,共計228所高校獲批開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)” 及“大數(shù)據(jù)管理與應(yīng)用專業(yè)”。
“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)是2016年教育部公布的新增專業(yè)。2017年共有62所職業(yè)院校獲批“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè),2018年共有148所職業(yè)院校獲批“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè),2019年度新增195所高職院校獲批“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)。截止目前,總計405所高職院校成功申請該專業(yè)。
第二章 教學(xué)平臺
紅亞大數(shù)據(jù)教學(xué)平臺基于高校的教學(xué)場景,運用云計算技術(shù),集課程實驗、算法實戰(zhàn)、數(shù)據(jù)科研、考試于一體的實訓(xùn)平臺,平臺課程共計800多個任務(wù)。學(xué)生可通過瀏覽器訪問使用,可在學(xué)校任何一個網(wǎng)絡(luò)可達(dá)的場所進(jìn)行學(xué)習(xí)。
系統(tǒng)課程學(xué)習(xí)模式包括實驗平臺、項目路徑和職業(yè)路徑,滿足不同場景的教學(xué)需求。在教學(xué)管理方面,平臺自帶人工智能課程推薦功能,可為學(xué)生提供個性化課程推薦及AI課程助手,助力學(xué)生定向就業(yè)。還可以通過大數(shù)據(jù)分析,自動生成學(xué)業(yè)報告,為學(xué)生就業(yè)提供橋梁,并作為教師教學(xué)的得力助手,為高校的學(xué)生能力培養(yǎng)及教師的工作提供強(qiáng)有力的支持。
2.1 學(xué)習(xí)模式
2.1.1 實驗平臺
該模式以知識體系為核心,將大數(shù)據(jù)內(nèi)容按照不同類型的知識模塊進(jìn)行分類。如大數(shù)據(jù)基礎(chǔ)體系下包含了:Linux基礎(chǔ)、編程基礎(chǔ)、數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)庫基礎(chǔ)等課程;大數(shù)據(jù)進(jìn)階體系包含了:Hadoop、Spark數(shù)據(jù)處理、R語言、Python數(shù)據(jù)處理、SAS數(shù)據(jù)分析等課程;該模式圍繞一個內(nèi)容展開了多方面知識的學(xué)習(xí),與現(xiàn)在教育方式一致,保留了師生們傳統(tǒng)的學(xué)習(xí)授課方法。不僅如此,為滿足學(xué)校的已有的課程教學(xué)資源,老師可以自定義實驗內(nèi)容及實驗鏡像,將文本類、實操類、視頻類課件上傳到教學(xué)平臺上滿足教學(xué)需求。
2.1.2 職業(yè)路徑
該模式以職業(yè)崗位需求為核心,綜合分析國內(nèi)眾多企業(yè)的大數(shù)據(jù)相關(guān)人才崗位需求,如大數(shù)據(jù)運維工程師、大數(shù)據(jù)研發(fā)工程師、大數(shù)據(jù)架構(gòu)工程師,經(jīng)過采集、篩選、對比、定模等一系列的流程,將崗位技能需求落實到具體的知識點,圍繞一個崗位展開多方面相關(guān)技術(shù)的學(xué)習(xí)。
教師在后臺可以將實驗按照所需知識點的難易程度設(shè)計成一套流程體系。學(xué)生按照流程開始實驗,將每一模塊的技能牢牢掌握后,到最后具備勝任該職業(yè)的能力,可為自身職業(yè)發(fā)展提供有效幫助。
2.1.3 項目路徑
項目路徑學(xué)習(xí)模式是以還原企業(yè)的真實項目完成過程為設(shè)計思路,將大數(shù)據(jù)技能知識點與實際項目案例相結(jié)合,讓學(xué)生能夠真實的體會到每個知識點在實際項目中的具體作用。
將一個項目拆分成多個實驗,多個實驗間共同使用同一實驗環(huán)境,以實現(xiàn)項目的連貫性和真實性。項目提供整套的實驗環(huán)境及配套工具,用戶在切換實驗時對應(yīng)的實驗環(huán)境不會改變,在下一個實驗會繼續(xù)使用上一實驗的實驗環(huán)境,并最終完成該項目。具體項目案例包括大數(shù)據(jù)集群運維項目、圖書館管理系統(tǒng)的設(shè)計與實現(xiàn)、IBM離職率分析等。
2.2 練習(xí)算法
2.2.1 算法集
算法集提供了一個環(huán)境,用戶可以在里面寫代碼、運行代碼、查看結(jié)果,并在其中可視化數(shù)據(jù),并與平臺中的數(shù)據(jù)集功能進(jìn)行交互式使用,可直接調(diào)用平臺當(dāng)中的數(shù)據(jù)集用于算法在實際數(shù)據(jù)中的實踐測試。鑒于這些優(yōu)點,它能幫助他們便捷地執(zhí)行各種端到端任務(wù),如數(shù)據(jù)清洗、統(tǒng)計建模、構(gòu)建/訓(xùn)練機(jī)器學(xué)習(xí)模型等。
算法集的一個特色是允許把代碼寫入獨立的cell中,然后單獨執(zhí)行。這樣做意味著用戶可以在測試項目時單獨測試特定代碼塊,無需從頭開始執(zhí)行代碼。雖然其他的IDE環(huán)境(如RStudio)也提供了這種功能,但就個人使用情況來看,算法集的單元結(jié)構(gòu)是設(shè)計的最好的。
算法集的優(yōu)勢還體現(xiàn)在靈活性和交互性上,除了最基礎(chǔ)的Python,它還允許用戶在上面運行R語言。由于它比IDE平臺更具交互性,教師也更樂于在各種教程中用它來展示代碼。
2.2.2 數(shù)據(jù)集
數(shù)據(jù)集功能提供數(shù)量眾多的大數(shù)據(jù)數(shù)據(jù)集,包括互聯(lián)網(wǎng)、零售、電商、醫(yī)療等相關(guān)數(shù)據(jù)集,數(shù)據(jù)集中的數(shù)據(jù)可直接與算法集中的算法進(jìn)行交互使用,為算法提供所需數(shù)據(jù)的調(diào)用支撐。
教師可根據(jù)數(shù)據(jù)集的內(nèi)容、格式、數(shù)量等為學(xué)生設(shè)定開放式課題,使用真實的數(shù)據(jù)集進(jìn)行大數(shù)據(jù)項目案例處理分析,深度理解掌握大數(shù)據(jù)技術(shù)是如何處理這些數(shù)據(jù)的,例如,教師給定一份數(shù)據(jù)讓學(xué)生進(jìn)行預(yù)測實驗,學(xué)生需設(shè)計算法進(jìn)行清洗與預(yù)測等。
平臺提供開放式上傳功能,支持用戶將自己的數(shù)據(jù)上傳至平臺當(dāng)中,并可設(shè)定是否與他人共用,可幫助用戶解決數(shù)據(jù)存放管理問題,實現(xiàn)用戶數(shù)據(jù)的開放式共享。
2.3 在線考試
2.3.1 理論考核
理論考核采用在線考核模式,將單選題、多選題、判斷題、填空題、簡答題添加在試卷上,每一道題的題目、正選、分值等內(nèi)容可由管理員自行設(shè)置,簡答題題采用關(guān)鍵詞進(jìn)行自動判分,同時也可以由教師手動判分。
2.3.2 實踐測評
實踐測評考核模式是以實驗操作過程為考核點,也稱之為實操題考核模式,由教師在管理端設(shè)置考核步驟、分值權(quán)重,平臺提供配套的實驗考試環(huán)境。學(xué)生在實際操作過程中遇到的考核點,需要根據(jù)實際結(jié)果去填寫,到最后統(tǒng)一匯總分?jǐn)?shù)。該模式突破了傳統(tǒng)的考核模式,通過實操的方式來加深印象,鞏固大數(shù)據(jù)知識。
2.4 智能教務(wù)
2.4.1 教學(xué)進(jìn)度分析
課程實驗具有核全局開關(guān)功能,打開全局考核后,進(jìn)行所有實驗時都必須完成實驗當(dāng)中設(shè)定的每一步考核才能查看下一步。接著,系統(tǒng)不僅自動檢測到正在進(jìn)行實驗,也可以手動設(shè)定實驗狀態(tài)分析(也可以手動設(shè)置分析目標(biāo))。查看分析結(jié)果時可查看每個班級的學(xué)生在進(jìn)行每個實驗時完成度,查看每個實驗的每個步驟的通過率、完成率、完成進(jìn)度、實驗總結(jié)信息等。
教學(xué)進(jìn)度分析功能可通過智能化的手段,有效幫助教師分析并掌握整個班級的學(xué)習(xí)情況,根據(jù)學(xué)生完成實驗的進(jìn)度過程進(jìn)行授課,選擇重點難點部分進(jìn)行針對性講解,有效降低教師授課壓力,高效完成授課任務(wù)。
2.4.2 教學(xué)計劃管理
管理員在后臺可以一次性布置全部的教學(xué)計劃,規(guī)定上課時間與學(xué)習(xí)課程,隨后學(xué)生通過在前端查看,即可了解到每一天的課程安排。
2.4.3 實驗報告管理
教師通過此功能查看學(xué)生的實驗報告,支持預(yù)覽和批閱等功能,后臺自動統(tǒng)計學(xué)生學(xué)習(xí)數(shù)據(jù),展示出每個步驟的學(xué)習(xí)通過時間、成績正確率、班級排名等信息,并將實驗數(shù)據(jù)與學(xué)生的實驗報告有機(jī)結(jié)合,形成完成的實驗報告。此功能相較于傳統(tǒng)的實驗報告,增加了學(xué)生的學(xué)習(xí)數(shù)據(jù)統(tǒng)計功能,可大大的減輕教師的負(fù)擔(dān),同時為教師了解班級整體的學(xué)習(xí)狀況提供的有力的支持。
2.5 平臺管理
2.5.1 用戶管理
為滿足教師方便的管理班級學(xué)院,平臺提供用戶組織管理功能。其中用戶管理顯示平臺用戶的信息列表,管理端可對平臺用戶信息進(jìn)行編輯與刪除,根據(jù)信息進(jìn)行用戶模糊篩選,便于管理平臺用戶;角色管理顯示平臺現(xiàn)有角色,用戶可編輯新的角色并賦予角色權(quán)限;組織結(jié)構(gòu)管理顯示平臺現(xiàn)有的組織機(jī)構(gòu),管理端可以也可根據(jù)層級分步添加組織、學(xué)院、系別、專業(yè)、班級,對同級別下的機(jī)構(gòu)進(jìn)行排序。
2.5.2 資源管理
用戶可以在此查看版本信息、用戶數(shù)量、實驗數(shù)量,資源監(jiān)控及用戶虛擬機(jī)監(jiān)控。同時后臺資源監(jiān)控中心可查看平臺的用戶數(shù)量、實驗數(shù)量、職業(yè)路徑數(shù)量、項目路徑數(shù)量、算法集數(shù)量、數(shù)據(jù)集數(shù)量、用戶分布、活躍用戶等數(shù)據(jù);實時的CPU、內(nèi)存、硬盤、實例的使用情況和該時刻學(xué)生實驗進(jìn)行的狀態(tài);可對虛擬機(jī)進(jìn)行監(jiān)控所處狀態(tài)。該功能的實現(xiàn)可便捷精準(zhǔn)的反應(yīng)出學(xué)生的問題所在,可對實驗平臺進(jìn)行實時狀態(tài)的查看,又同時提高了老師的教學(xué)質(zhì)量和效率。
第三章 教學(xué)課程庫
3.1 實驗體系
大數(shù)據(jù)實驗體系按照大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)采集、大數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和大數(shù)據(jù)案例組成。
3.1.1 大數(shù)據(jù)基礎(chǔ)
3.1.1.1 Linux基礎(chǔ)
Linux系統(tǒng)是開源軟件,其可靠性得到肯定,是當(dāng)今舉世矚目、發(fā)展最快、應(yīng)用最廣的主流軟件之一。在服務(wù)器平臺、嵌入式系統(tǒng)和云計算系統(tǒng)所運行的操作系統(tǒng)中,Linux占很大比重。大數(shù)據(jù)主流框架Hadoop、Spark都架設(shè)在Linux系統(tǒng)上,所以現(xiàn)在學(xué)習(xí)和應(yīng)用Linux成為眾多用戶和學(xué)生的首選。
Linux基礎(chǔ)32 Linux基礎(chǔ)32 Linux系統(tǒng)概述3 Linux簡介
Linux應(yīng)用領(lǐng)域
Linux優(yōu)勢
字符操作環(huán)境2 使用Shell
字符編輯器VI
Linux文件系統(tǒng)3 Linux文件
ext3文件系統(tǒng)
安裝和卸載文件系統(tǒng)
進(jìn)程管理2 Linux進(jìn)程概述
進(jìn)程控制命令
常用命令介紹5 目錄操作
文件操作
磁盤操作
文本編輯
幫助命令
用戶管理4 Linux用戶賬戶概述
管理用戶和群組
命令行配置
用戶管理器配置
系統(tǒng)監(jiān)控與備份4 顯示系統(tǒng)進(jìn)程
查看硬件信息
查看日志文件
數(shù)據(jù)備份與恢復(fù)
軟件包管理4 RPM概述
RPM包的命令介紹
查看軟件包(檢查軟件包簽名)
軟件包管理工具
管理網(wǎng)絡(luò)服務(wù)4 守護(hù)進(jìn)程服務(wù)
配置FTP服務(wù)
配置郵件服務(wù)器
Apache服務(wù)器
3.1.1.2 編程基礎(chǔ)
編程基礎(chǔ)包含Python基礎(chǔ)、R語言基礎(chǔ)、Scala基礎(chǔ)和Java基礎(chǔ)四大模塊共計81個實驗項目。針對每一個所講解的知識點都進(jìn)行了深入分析,并使用生動形象的情境化舉例,將原本復(fù)雜的、難于理解的知識點和問題進(jìn)行簡化,針對每個知識點,精心設(shè)計了相應(yīng)的問題,讓學(xué)習(xí)者不但能掌握和理解這些知識點,并且還可以清楚地知道在實際工作中如何去運用。
編程基礎(chǔ)81 Python基礎(chǔ)38 Python基礎(chǔ)38 Python介紹
Python開發(fā)環(huán)境搭建
Python基本數(shù)據(jù)類型
Python變量
Python基本輸入輸出
Python模塊
Python運算符與表達(dá)式
Python選擇與循環(huán)結(jié)構(gòu)
Python序列操作
Python列表常用方法
Python元組
Python列表解析式與生成器表達(dá)式
Python字符編碼
Python字符串基本操作
Python字符串格式化
Python字符串方法
Python正則表達(dá)式與re模塊
Python字典創(chuàng)建與使用
Python字典方法
Python集合創(chuàng)建與使用
Python集合常用運算
Python文件基本概念
Python打開與關(guān)閉文件
Python文件對象基本方法
Python數(shù)據(jù)序列化與反序列化
Python文件與文件夾基本操作
Python函數(shù)的定義和調(diào)用
Python函數(shù)參數(shù)
Python變量作用域
Python函數(shù)返回值
Python函數(shù)嵌套定義、閉包、裝飾器
Python類的定義和使用
Python構(gòu)造方法與析構(gòu)方法
Python成員訪問權(quán)限
Python繼承
Python異常概念與常見表現(xiàn)形式
Python常見異常處理結(jié)構(gòu)
Python的raise語句
R語言基礎(chǔ)14 R語言基礎(chǔ)14 R語言開發(fā)環(huán)境搭建
R語言對象與屬性
R語言向量
R語言矩陣和數(shù)組
R語言列表
R語言數(shù)據(jù)框
R語言構(gòu)建子集
lapply函數(shù)
apply函數(shù)
mapply函數(shù)
split函數(shù)
tapply函數(shù)
R語言重復(fù)值處理
R語言排序
Scala基礎(chǔ)16 Scala基礎(chǔ)16 Scala開發(fā)環(huán)境搭建
Scala控制結(jié)構(gòu)和函數(shù)
Scala數(shù)組相關(guān)操作
Scala映射與元組
Scala類與對象
Scala包管理
Scala繼承
Scala文件和正則表達(dá)式
Scala特質(zhì)
Scala運算符(原本為scala操作符)
Scala高階函數(shù)
Scala集合
Scala模式匹配和樣例類
Scala類型參數(shù)
Scala高級類型
Scala隱式轉(zhuǎn)換和隱式參數(shù)
Java基礎(chǔ)15 Java基礎(chǔ)15 Java開發(fā)環(huán)境搭建
Java的類和對象
Java標(biāo)識符、關(guān)鍵字與運算符
Java基本數(shù)據(jù)類型
Java流程控制
Java繼承與多態(tài)
Java抽象類與接口
Java內(nèi)部類
Java異常處理
Java集合類
Java基礎(chǔ)類庫
Java泛型
Java的輸入與輸出
Java數(shù)據(jù)庫操作
3.1.1.3 數(shù)學(xué)基礎(chǔ)
數(shù)字在數(shù)學(xué)體系中穩(wěn)固的位置,而大數(shù)據(jù)技術(shù)也和數(shù)學(xué)緊緊地結(jié)合在一起。數(shù)學(xué)基礎(chǔ)共計信息論、線性代數(shù)、概率論與數(shù)理統(tǒng)計、數(shù)值計算和最優(yōu)化方法五大模塊30個實驗項目。大數(shù)據(jù)技術(shù)本身是一門交叉性學(xué)科,統(tǒng)計方法為核心,所以學(xué)習(xí)數(shù)學(xué)基礎(chǔ)就顯得尤為重要。
數(shù)學(xué)基礎(chǔ)30 信息論6 信息論6 熵
聯(lián)合熵
條件熵
相對熵
互信息
最大熵模型
線性代數(shù)7 線性代數(shù)7 標(biāo)量
向量
張量
范數(shù)
矩陣
特征分解
幾種常用距離計算
概率論與數(shù)理統(tǒng)計8 概率論與數(shù)理統(tǒng)計8 隨機(jī)變量
概率分布
貝葉斯公式
期望
方差
協(xié)方差
常見分布函數(shù)
最大似然估計
數(shù)值計算3 數(shù)值計算3 數(shù)值計算概述
上溢和下溢
計算復(fù)雜性與NP問題
最優(yōu)化方法6 最優(yōu)化方法6 最優(yōu)化理論概述
最優(yōu)化問題的數(shù)學(xué)描述
凸集與凸集分離方法
梯度下降算法
啟發(fā)式優(yōu)化方法
牛頓法和擬牛頓法
3.1.1.4 數(shù)據(jù)庫基礎(chǔ)
數(shù)據(jù)庫已是當(dāng)今信息社會須臾不可脫離的重要工具,數(shù)據(jù)庫的教學(xué)也就成為計算機(jī)科學(xué)與技術(shù)專業(yè)的一門必修課程。在大數(shù)據(jù)技術(shù)中,數(shù)據(jù)庫種類繁多,包括了Exce、MySql、Oracle等等,學(xué)習(xí)數(shù)據(jù)庫基礎(chǔ)是為大數(shù)據(jù)的存儲做準(zhǔn)備。
數(shù)據(jù)庫基礎(chǔ)54 excel6 Excle6 Excel函數(shù)與公式
Excel數(shù)據(jù)統(tǒng)計與匯總
VBA程序基礎(chǔ)
VBA數(shù)據(jù)類型
VBA流程控制
VBA綜合應(yīng)用
mysql11 Mysql11 MySQL簡介與安裝
MySQL創(chuàng)建連接
MySQL操作數(shù)據(jù)庫
MySQL操作數(shù)據(jù)表
MySQL操作數(shù)據(jù)
MySQL條件限定與正則表達(dá)式
MySQL表的連接
MySQL排序、分組與過濾
MySQL結(jié)果合并
MySQL函數(shù)
MySQL導(dǎo)入與導(dǎo)出
oracle8 Oracle8 Oracle安裝與卸載
Oracle數(shù)據(jù)類型(文本)
表的創(chuàng)建與管理
簡單查詢
單行函數(shù)
分組統(tǒng)計查詢
多表查詢
Sybase PowerDesigner設(shè)計工具
mongodb8 MongoDB8 MongoDB簡介與安裝
MongoDB創(chuàng)建連接
MongoDB操作數(shù)據(jù)庫
MongoDB操作集合
MongoDB操作文檔
MongoDB條件操作符與正則表達(dá)式
MongoDB之Limit與Skip方法
MongoDB排序與聚合
redis+memcache11 Redis10 Redis簡介、安裝與配置
Redis命令(包括Redis鍵)
Redis數(shù)據(jù)類型
Redis基數(shù)統(tǒng)計
Redis服務(wù)器與連接
memcached簡介與安裝
memcached連接
memcached存儲
memcached查找
memcached統(tǒng)計
SQLite(10) SQLite10 SQLite簡介與安裝
SQLite操作數(shù)據(jù)庫
SQLite操作數(shù)據(jù)表
SQLite操作數(shù)據(jù)
SQLite條件限定與通配符
SQLite表的連接
SQLite排序、分組與過濾
SQLite結(jié)果合并
SQLite之Explain細(xì)節(jié)描述
SQLite函數(shù)
3.1.2 大數(shù)據(jù)采集
3.1.2.1 Python爬蟲
Python爬蟲是一段自動抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對于我們有價值的信息,可使用Python爬蟲對數(shù)據(jù)進(jìn)行采集。
Python基礎(chǔ)知識41 Python基礎(chǔ)簡介4 Python語言概述
為何學(xué)習(xí)Python語言
Python主要應(yīng)用領(lǐng)域
Python開發(fā)環(huán)境搭建
初識Python7 Python基本數(shù)據(jù)類型
Python變量
Python基本輸入輸出
Python模塊
Python運算符與表達(dá)式
Python選擇與循環(huán)結(jié)構(gòu)
Python猜數(shù)字游戲
列表與元組4 Python序列操作
Python列表常用方法
Python元組
Python列表解析式與生成器表達(dá)式
字符串與正則表達(dá)式5 Python字符編碼
Python字符串基本操作
Python字符串格式化
Python字符串方法
Python正則表達(dá)式與re模塊
字典2 Python字典創(chuàng)建與使用
Python字典方法
集合2 Python集合創(chuàng)建與使用
Python集合常用運算
文件操作5 Python文件基本概念
Python打開與關(guān)閉文件
Python文件對象基本方法
Python數(shù)據(jù)序列化與反序列化
Python文件與文件夾基本操作
函數(shù)5 Python函數(shù)的定義和調(diào)用
Python函數(shù)參數(shù)
Python變量作用域
Python函數(shù)返回值
Python函數(shù)嵌套定義、閉包、裝飾器
面向?qū)ο? Python類的定義和使用
Python構(gòu)造方法與析構(gòu)方法
Python成員訪問權(quán)限
Python繼承
異常處理結(jié)構(gòu)3 Python異常概念與常見表現(xiàn)形式
Python常見異常處理結(jié)構(gòu)
Python的raise語句
Python 爬蟲19 爬蟲初識3 爬蟲簡介
爬蟲應(yīng)用場景
爬蟲基本工作原理
網(wǎng)絡(luò)請求基礎(chǔ)6 TCP/IP協(xié)議
HTTP請求格式
HTTP常用請求頭
響應(yīng)狀態(tài)碼
瀏覽器發(fā)送HTTP請求的過程
cookie和session
使用Python發(fā)送網(wǎng)絡(luò)請求5 Requests模塊介紹
使用Requests發(fā)送post請求
使用Requests發(fā)送get請求
使用Requests發(fā)送帶Header請求
使用Requests發(fā)送帶參數(shù)請求
Python爬蟲實戰(zhàn)5 XPATH介紹及節(jié)點選擇
LXML介紹及使用
對抗反爬蟲措施
網(wǎng)站數(shù)據(jù)爬取實驗
IP代理數(shù)據(jù)爬取
3.1.2.2 Flume數(shù)據(jù)抽取
Flume 是一個分布式,可靠且可用的系統(tǒng),用于有效地從許多不同的源收集、聚合和移動大量日志數(shù)據(jù)到一個集中式的數(shù)據(jù)存儲區(qū)。Flume是在數(shù)據(jù)采集中有比不可少的一個環(huán)節(jié)。
Flume7 Flume簡介
Flume架構(gòu)與工作原理
Flume安裝與配置
案例:Avro
案例:Spool
案例:Exec
案例:Syslogtcp
3.1.2.3 Kafka+zookeeper
Kafka它提供了類似于JMS的特性,但是在設(shè)計實現(xiàn)上完全不同,此外它并不是JMS規(guī)范的實現(xiàn)。kafka對消息保存時根據(jù)Topic進(jìn)行歸類,發(fā)送消息者成為Producer,消息接受者成為Consumer,此外kafka集群有多個kafka實例組成,每個實例(server)成為broker。無論是kafka集群,還是producer和consumer都依賴于zookeeper來保證系統(tǒng)可用性集群保存一些meta信息。Kakfa也是數(shù)據(jù)采集的中一個重要環(huán)節(jié)。
ZooKeeper7 ZooKeeper7 Zookeeper簡介
Zookeeper工作原理
Zookeeper安裝與配置
Zookeeper基本操作實例
集群管理
共享鎖
隊列管理
Kafka4 Kafka簡介
Kafka工作原理
Kafka安裝與配置
生產(chǎn)者消費者實例
Kafka案例
3.1.2.4 ELK
ELK為數(shù)據(jù)的收集、傳輸、存儲、分析和警告提供了一整套解決方案,并且都是開源軟件,之間互相配合使用,完美銜接,高效的滿足了很多場合的應(yīng)用。目前主流的一種日志系統(tǒng)。
ELK10 ELK10 ELK簡介
安裝與配置Elasticsearch
安裝與配置Logstash
安裝與配置Kibana
處理JSON格式Nginx日志
處理Nginx日志
處理Apache日志
處理Twitterdingyue
紐約交通事故數(shù)據(jù)分析
美國聯(lián)邦選舉委員競選捐款數(shù)據(jù)分析
3.1.3 大數(shù)據(jù)存儲
3.1.3.1 HDFS存儲
HDFS 主要是為了應(yīng)對海量數(shù)據(jù)的存儲,由于數(shù)據(jù)量非常大,因此一臺服務(wù)器是解決不能夠應(yīng)付的,需要一個集群來存儲這些數(shù)據(jù)。在這個集群中,存在一個 NameNode 節(jié)點,該節(jié)點用于管理元數(shù)據(jù),即用戶上傳的文件位于哪個服務(wù)器上,都多少個副本等信息。此外,還有多個 DataNode 節(jié)點,這些節(jié)點就是文件存儲位置。
Hadoop基礎(chǔ)4 Hadoop初識簡介4 Hadoop介紹
Hadoop體系架構(gòu)
Hadoop軟件安裝及配置
單節(jié)點偽分布式安裝
分布式存儲HDFS5 分布式存儲HDFS5 HDFS安裝
HDFS的相關(guān)概念
HDFS的文件存儲機(jī)制
HDFS的數(shù)據(jù)存儲管理
HDFS的數(shù)據(jù)的讀寫過程
3.1.3.2 HBase存儲
HBase是一種NoSQL數(shù)據(jù)庫,這意味著它不像傳統(tǒng)的RDBMS數(shù)據(jù)庫那樣支持SQL作為查詢語言。HBase是一種分布式存儲的數(shù)據(jù)庫,技術(shù)上來講,它更像是分布式存儲而不是分布式數(shù)據(jù)庫,它缺少很多RDBMS系統(tǒng)的特性,比如列類型,輔助索引,觸發(fā)器,和高級查詢語言等待。
HBase6 HBase6 HBase簡介
HBase的shell應(yīng)用v2.0
使用Hive操作HBase
HBase的JavaAPI應(yīng)用
HBase學(xué)生選課案例
HBase微博案例
3.1.4 數(shù)據(jù)處理
3.1.4.1 Pandas數(shù)據(jù)處理
Pandas是基于NumPy的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。Pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
使用pandas進(jìn)行數(shù)據(jù)處理13 基礎(chǔ)概念4 Series和DataFrame簡介
DataFrame常用屬性方法
數(shù)據(jù)訪問
文件讀取(原讀寫文件)
數(shù)據(jù)清洗3 pandas缺失值處理
pandas重復(fù)值處理
pandas異常值處理
數(shù)據(jù)集成2 使用鍵參數(shù)的DataFrame合并
軸向連接
數(shù)據(jù)變換4 利用函數(shù)或映射進(jìn)行數(shù)據(jù)轉(zhuǎn)換
替換值
重命名軸索引
離散化和面元
3.1.4.2 R語言數(shù)據(jù)處理
R語言在處理數(shù)據(jù)的過程中,經(jīng)常需要根據(jù)需求從完整的實驗設(shè)計和數(shù)據(jù)中篩選、整理出可以直接使用的部分,這就涉及到數(shù)據(jù)整理和變換工作。常用的數(shù)據(jù)整理和變換主要包括以下幾類:選取特定分析變量、篩選滿足條件的數(shù)據(jù)、按照某個變量排序、對數(shù)據(jù)進(jìn)行分組和匯總。
R語言數(shù)據(jù)處理17 R語言數(shù)據(jù)處理12 R語言數(shù)據(jù)導(dǎo)入
R語言數(shù)據(jù)導(dǎo)出
R語言重復(fù)值處理
R語言缺失值處理
R語言空格值處理和字段抽取
R語言記錄抽取和隨機(jī)抽樣
R語言記錄合并
R語言字段匹配
R語言數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)分組
日期格式處理與日期抽取
虛擬變量
3.1.4.3 SAS數(shù)據(jù)處理
SAS數(shù)據(jù)處理系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問、數(shù)據(jù)管理、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析四個步驟,一下實驗可以滿足這個四個大任務(wù)的使用。
SAS數(shù)據(jù)分析(34) SAS基礎(chǔ)簡介4 SAS基礎(chǔ)簡介4 SAS概述
SAS的特點及模塊組成
SAS軟件基本介紹-SAS_Studio安裝過程
SAS數(shù)據(jù)導(dǎo)入導(dǎo)出4 SAS數(shù)據(jù)導(dǎo)入導(dǎo)出4 讀數(shù)據(jù)和生成數(shù)據(jù)集
寫數(shù)據(jù)
導(dǎo)入數(shù)據(jù)
導(dǎo)出數(shù)據(jù)
條件判斷和循環(huán)語句3 條件判斷和循環(huán)語句3 SAS語句的基本組成
條件判斷語句
循環(huán)語句
SAS數(shù)據(jù)分析綜合應(yīng)用5 SAS數(shù)據(jù)分析綜合應(yīng)用5 建立營銷響應(yīng)模型
預(yù)測股票價格
建立信用評分模型
預(yù)測門店銷售額
人口教育情況分析
3.1.4.4 Spark數(shù)據(jù)處理
Spark是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。所以使用Spark進(jìn)行數(shù)據(jù)分析比Hadoop的MR快很多。
Spark數(shù)據(jù)處理(82) Spark基礎(chǔ)19 Spark簡介5 Spark介紹
Spark體系架構(gòu)
Spark安裝與配置
Spark運行模式
Spark生態(tài)系統(tǒng)BDAS
Spark核心概念4 RDD彈性分布式數(shù)據(jù)集
RDD的依賴關(guān)系
RDD共享變量
Spark優(yōu)化
RDD編程10 創(chuàng)建RDD
轉(zhuǎn)化操作
行動操作
惰性求值
傳遞參數(shù)
持久化
Pair_RDD的創(chuàng)建
Pair_RDD的轉(zhuǎn)化操作
Pair_RDD的行動操作
數(shù)據(jù)分區(qū)
數(shù)據(jù)讀取與存儲13 文件系統(tǒng)2 Amazon_S3的讀取與存儲
HDFS中的讀取與存儲
數(shù)據(jù)庫4 Cassandra
Elasticsearch
HBase
Java_JDBC連接
文件格式7 文本文件的讀取與存儲
JSON文件的讀取與存儲
CSV與TSV文件的讀取與存儲
序列文件的讀取與存儲
對象文件的讀取與存儲
Hadoop的輸入輸出讀寫
壓縮文件的讀取與存儲
Spark程序結(jié)構(gòu)4 Spark程序結(jié)構(gòu)4 Spark架構(gòu)設(shè)計
Spark算子分類
Spark核心組件
Spark程序執(zhí)行基本流程
Spark流式計算6 Spark流式計算6 Spark_Streaming介紹
Spark_Streaming架構(gòu)
Spark_Streaming部署
Spark_Streaming編程
Spark_Streaming性能調(diào)優(yōu)
Flume、Kafka與Spark Streamng結(jié)合使用
Spark SQL9 Spark SQL9 Spark_SQL介紹
Spark_SQL架構(gòu)
DataFrame
Spark_SQL的Shell
Spark_SQL的UDF使用
JDBC操作MySQL
Spark_SQL性能調(diào)優(yōu)
網(wǎng)站日志分析實例
Spark與機(jī)器學(xué)習(xí)13 Spark Mllib13 特征提取和轉(zhuǎn)化
降維操作
協(xié)同過濾算法原理及使用
FP-growth算法及使用
Spark機(jī)器學(xué)習(xí)的優(yōu)勢和潛力
Spark_MLlib的數(shù)據(jù)類型
線性回歸算法原理與使用
邏輯回歸算法的原理及使用
支持向量機(jī)算法原理與使用
樸素貝葉斯算法原理與使用
決策樹算法原理與使用
隨機(jī)森林算法原理與使用
K-Means算法原理與使用
GraphX7 GraphX7 GraphX簡介
Graphx常用數(shù)據(jù)結(jié)構(gòu)
GraphX圖算法
GraphX屬性圖
GraphX圖操作符
GraphX-Pregel-API
PageRank算法實戰(zhàn)
案例分析11 案例分析11 網(wǎng)絡(luò)日志分析
電商廣告案例
實時路況案例
黑名單案例
性別預(yù)測案例
年齡預(yù)測案例
垃圾郵件案例
圖片分類案例
電影推薦案例
推薦系統(tǒng)案例
金融數(shù)據(jù)分析案例
3.1.4.5 Impala與Storm
Impala它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義,但由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性。相比之下,Impala的最大特點也是最大賣點就是它的快速。
Impala3 Impala3 impala簡介
數(shù)據(jù)庫語句
impala table操作
Storm5 Storm5 Storm簡介
Storm架構(gòu)與運行原理
Storm安裝與配置
Storm入門實例
Storm日志分析實戰(zhàn)
3.1.4.6 MapReduce
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念"Map(映射)“和"Reduce(歸約)”,是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。
MapReduce編程模型7 MapReduce編程模型7 MapReduce簡介
MapReduce架構(gòu)
MapReduce接口類
MapReduce代碼編程
MapReduce經(jīng)典案例—WordCount
分布式資源調(diào)度系統(tǒng)YARN的安裝
MapReduce和YARN命令
3.1.5 數(shù)據(jù)分析
3.1.5.1 Hive數(shù)據(jù)分析
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行。 其優(yōu)點是學(xué)習(xí)成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
數(shù)據(jù)倉庫Hive6 Hadoop數(shù)據(jù)倉庫Hive6 Hive簡介
Hive-DDL
Hive-DML
Hive UDFV
Hive數(shù)據(jù)清洗項目
Hive統(tǒng)計UV項目
3.1.5.2 Python數(shù)據(jù)分析
Python數(shù)據(jù)處理需要完成數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)探索、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)規(guī)模化和自動化的過程。主要內(nèi)容包括:Python基礎(chǔ)知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數(shù)據(jù),如何獲取與存儲數(shù)據(jù),各種數(shù)據(jù)清洗與分析技術(shù),數(shù)據(jù)可視化方法,如何從網(wǎng)站和API中提取數(shù)據(jù)等技能。
Python相關(guān)算法23 分類與預(yù)測6 決策樹
K近鄰分類算法
支持向量機(jī)
Python隨機(jī)森林
Logistic回歸分析
人工智能網(wǎng)絡(luò)
常用聚類分析算法3 K-Means聚類算法
系統(tǒng)聚類算法
DBSCAN聚類算法
關(guān)聯(lián)規(guī)則算法2 Apriori算法簡介
Apriori算法應(yīng)用
協(xié)同過濾算法2 基于用戶的協(xié)同過濾算法
基于物品的協(xié)同過濾算法
時間序列數(shù)據(jù)分析4 時間序列預(yù)處理
平穩(wěn)時間序列分析
非平穩(wěn)時間序列分析
Python主要時序模式算法
離群點檢測方法4 離群點檢測概述
基于密度的離群點檢測方法
基于聚類的離群點檢測方法
基于距離的離群點檢測方法
數(shù)據(jù)降維2 數(shù)據(jù)降維概述
常用降維方法-1.機(jī)器學(xué)習(xí)簡介
常用降維方法-2.機(jī)器學(xué)習(xí)數(shù)學(xué)預(yù)備知識
常用降維方法-3.常用降維方法的目的
常用降維方法-4.常用降維方法解讀
模型調(diào)優(yōu)與實戰(zhàn)8 模型評估與調(diào)優(yōu)3 模型評估和調(diào)優(yōu)的意義
評估指標(biāo)
模型調(diào)優(yōu)建議與注意事項
數(shù)據(jù)分析與挖掘?qū)崙?zhàn)5 電子商務(wù)的智能推薦
財政收入分析
電商產(chǎn)品評價分析
電力竊漏識別分析
電器使用情況分析
3.1.5.3 Pig數(shù)據(jù)分析
Pig是一種數(shù)據(jù)流語言和運行環(huán)境,用于檢索非常大的數(shù)據(jù)集。為大型數(shù)據(jù)集的處理提供了一個更高層次的抽象。Pig包括兩部分:一是用于描述數(shù)據(jù)流的語言,稱為Pig Latin;二是用于運行Pig Latin程序的執(zhí)行環(huán)境。
Pig語言7 Pig簡介
Pig的安裝與運行
命令行交互工具Grunt
Pig數(shù)據(jù)模型
Pig Latin基礎(chǔ)知識
Pig Latin關(guān)系操作
Pig Latin高級應(yīng)用
3.1.5.4 R語言數(shù)據(jù)分析
R語言提供數(shù)據(jù)分析功能,主要課程包括了R語言的基礎(chǔ)進(jìn)階部分、R語言數(shù)據(jù)分析部分以及R語言案例。
R語言基礎(chǔ)18 R語言簡介3 R語言概述與應(yīng)用領(lǐng)域
為何學(xué)習(xí)R語言
R語言開發(fā)環(huán)境搭建
R語言數(shù)據(jù)結(jié)構(gòu)6 R語言數(shù)據(jù)類型
Array數(shù)組和factor因子
List列表和DataFrame數(shù)據(jù)框
R語言程序結(jié)構(gòu)
R語言向量化計算
對象改值3 就地改值
邏輯值取子集
缺失信息
R的記號體系2 值的選取
發(fā)牌實例和洗牌實例
S類系統(tǒng)4 S類系統(tǒng)簡介與屬性
泛型函數(shù)
S類系統(tǒng)方法
類、S3與調(diào)試
R語言數(shù)據(jù)分析11 R語言數(shù)據(jù)分析11 基本統(tǒng)計
對比分析
分組分析
分布分析
交叉分析
結(jié)構(gòu)分析
相關(guān)分析
簡單線性回歸分析
多重線性回歸分析
RFM分析
矩陣分析
R語言數(shù)據(jù)分析綜合應(yīng)用10 R語言數(shù)據(jù)分析綜合應(yīng)用10 建立銷售響應(yīng)模型
預(yù)測銷售額
水質(zhì)評估
財政收入分析預(yù)測模型
騎車數(shù)據(jù)可視化分析
房價指數(shù)的分析與預(yù)測
電商評論情感分析
航空公司價值分析
游戲玩家付費行為預(yù)測
用戶留存分析實戰(zhàn)
3.1.6 數(shù)據(jù)挖掘
3.1.6.1 SAS和R數(shù)據(jù)挖掘
SAS和R語言可以在基礎(chǔ)的教學(xué)和分析上進(jìn)行數(shù)據(jù)的挖掘,主要課程如下。
SAS數(shù)據(jù)挖掘6 SAS數(shù)據(jù)挖掘6 主成分分析
因子分析
聚類分析
判別分析
相關(guān)分析
生存分析
R語言數(shù)據(jù)挖掘11 R語言數(shù)據(jù)挖掘11 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘常見問題
數(shù)據(jù)挖掘流程
分類預(yù)測基本流程
R語言數(shù)據(jù)預(yù)處理(一)
R語言數(shù)據(jù)預(yù)處理(二)-轉(zhuǎn)換
R語言決策樹分類方法
R語言高級分類方法
R語言聚類分析與關(guān)聯(lián)分析
智能推薦
時間序列
離群點檢測
R語言網(wǎng)頁數(shù)據(jù)抓取3 R語言網(wǎng)頁數(shù)據(jù)抓取3 HTML數(shù)據(jù)抓取
JSON數(shù)據(jù)抓取
使用Google分析網(wǎng)頁結(jié)構(gòu)
3.1.6.2 Mahout
Mahout是Apache Software Foundation(ASF)旗下的一個開源項目。提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用Apache Hadoop庫。 Mahout可以有效地擴(kuò)展到云中。
Mahout5 Mahout5 Mahout簡介
推薦算法
聚類算法
分類算法
使用Mahout構(gòu)建職位推薦案例
3.1.7 數(shù)據(jù)可視化
3.1.7.1 Matplotlib可視化
Matplotlib可能是 Python 2D-繪圖領(lǐng)域使用最廣泛的套件。它能讓使用者很輕松地將數(shù)據(jù)圖形化,并且提供多樣化的輸出格式。下面的課程將會探索 matplotlib 的常見用法。
可視化技術(shù)與matplotlib6 可視化與Matplotlib6 繪制折線圖
繪制散點圖
繪制餅狀圖
繪制柱狀圖
繪圖區(qū)域分割
結(jié)合pandas進(jìn)行數(shù)據(jù)可視化
3.1.7.2 SAS和R可視化
R語言使用dplyr、tidyr、reshape2 等包的數(shù)據(jù)操作方法; base、lattice 和ggplot2包的圖形語法進(jìn)行可視化展示。SAS可視化文本分析綜合運用自然語言處理、機(jī)器學(xué)習(xí)和語言規(guī)則,從非結(jié)構(gòu)化數(shù)據(jù)中獲取價值。該課程可解決各行業(yè)面臨的業(yè)務(wù)難題,包括:管理和解釋記錄、評估風(fēng)險和欺詐、以及通過客戶反饋及早發(fā)現(xiàn)問題。
SAS數(shù)據(jù)可視化7 SAS數(shù)據(jù)可視化7 圖形繪制
條形圖
餅圖
散點圖
箱型圖
R語言數(shù)可視化8 R語言數(shù)據(jù)可視化8 R語言餅圖
R語言散點圖
R語言折線圖
R語言柱形圖
R語言直方圖
R語言箱線圖
R語言樹形圖
R語言地圖和熱力圖
3.1.7.3 可視化工具
可視化除了編程語言之外還可已使用Echart、NodeBox、Inkscape等這樣的工具進(jìn)行可視化處理。
可視化工具6 可視化工具:python
可視化工具:Echart
可視化工具:NodeBox
可視化工具:Inkscape
可視化工具:Open Layers
可視化工具:Leaflet
3.1.8 大數(shù)據(jù)案例
大數(shù)據(jù)正在改變我們的世界。互聯(lián)網(wǎng)發(fā)展以及移動通信市場和相關(guān)技術(shù)的迅速擴(kuò)張也已創(chuàng)建大量的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)可用性和數(shù)據(jù)應(yīng)用對商業(yè)和更廣泛的社會領(lǐng)域帶來了巨大影響。有效使用大數(shù)據(jù)有助于公司更精準(zhǔn)地對重要信息進(jìn)行分析很終提高運營效率、減少成本、降低風(fēng)險、加快創(chuàng)新、增加收入。本平臺詳細(xì)介紹了大數(shù)據(jù)策略的規(guī)劃和執(zhí)行配以不同行業(yè)里不計其數(shù)的現(xiàn)實案例加以闡述。
Hadoop項目案例8 Hadoop項目案例8 QQ好友推薦算法
PageRank算法
Tf-Idf算法
數(shù)據(jù)關(guān)聯(lián)案例
ETL案例
PV UV統(tǒng)計案例
用戶流失和新增案例
Hadoop總結(jié)
大數(shù)據(jù)案例(34) 大數(shù)據(jù)案例34 數(shù)據(jù)分析生命周期概述6 數(shù)據(jù)分析概述
發(fā)現(xiàn)
數(shù)據(jù)準(zhǔn)備
模型規(guī)劃
模型建立
溝通與實施
數(shù)據(jù)采集2 數(shù)據(jù)采集的原理
數(shù)據(jù)采集的實驗步驟
數(shù)據(jù)清洗2 數(shù)據(jù)清洗的原理
數(shù)據(jù)清洗的實驗步驟
可視化工具6 可視化工具:python
可視化工具:Echart
可視化工具:NodeBox
可視化工具:Inkscape
可視化工具:Open Layers
可視化工具:Leaflet
數(shù)據(jù)建模2 數(shù)據(jù)建模的原理
數(shù)據(jù)分析方法與過程
模型評估與優(yōu)化2 模型-數(shù)據(jù)與實驗環(huán)境介紹
模型-數(shù)據(jù)分析方法與過程
出租車數(shù)據(jù)分析2 出租車-數(shù)據(jù)與實驗環(huán)境介紹
出租車-數(shù)據(jù)分析方法與過程
音樂分類2 音樂-數(shù)據(jù)與實驗環(huán)境介紹
音樂-數(shù)據(jù)分析方法與過程
知識圖譜制作2 知識圖譜-數(shù)據(jù)與實驗環(huán)境介紹
知識圖譜-數(shù)據(jù)分析方法與過程
電影評論情感分析2 電影-數(shù)據(jù)與實驗環(huán)境介紹
電影-數(shù)據(jù)分析方法與過程
金融數(shù)據(jù)分析2 金融-數(shù)據(jù)與實驗環(huán)境介紹
金融-數(shù)據(jù)分析方法與過程
大型商場銷售額預(yù)測2 銷售-數(shù)據(jù)與實驗環(huán)境介紹
銷售-數(shù)據(jù)分析方法與過程
NBA籃球比賽結(jié)果分析預(yù)測2 籃球-數(shù)據(jù)與實驗環(huán)境介紹
籃球-數(shù)據(jù)分析方法與過程
3.2 教學(xué)資源
為滿足教學(xué)需求,針對紅亞大數(shù)據(jù)教學(xué)平臺重點實驗提供配套的PPT講義及視頻講解,從實驗知識介紹、實驗?zāi)康摹嶒炘怼嶒炌卣埂嶒炦^程等內(nèi)容展開詳細(xì)的介紹。教材建設(shè)
紅亞科技與全國高校大數(shù)據(jù)專家、出版社共同出版了一套國家“高等教育十三五規(guī)劃”大數(shù)據(jù)教材,包括Hadoop、Spark、R語言、SAS、大數(shù)據(jù)綜合案例技術(shù)應(yīng)用實踐教材。本套教材與大數(shù)據(jù)實訓(xùn)教學(xué)平臺相輔相成,形成完整的教學(xué)資源,覆蓋理論、實訓(xùn)、實踐、實戰(zhàn)類型,可有效的解決大數(shù)據(jù)教學(xué)資源不夠完善的問題。
第四章 數(shù)據(jù)安全科研保障箱
數(shù)據(jù)安全科研實驗箱是在建立在學(xué)生具備完善的數(shù)據(jù)安全基礎(chǔ)知識的層面上的,在學(xué)生掌握了一定的數(shù)據(jù)安全攻擊防御學(xué)科知識的同時,亦可進(jìn)行學(xué)科性的知識拓展研究;在一定程度上可延伸學(xué)生的學(xué)習(xí)和知識掌握能力;同時更加全面的提高了學(xué)生的綜合知識能力。
數(shù)據(jù)安全科研實驗實驗箱集成了四種處理器,包括A8處理器、M4處理器、Z32處理器、FPGA編程板,可通過編程實現(xiàn)如下科研項目:SM2密碼算法與實現(xiàn)、12684液晶屏串行顯示實驗、SLE4428邏輯加密卡實驗、SM3密碼雜湊算法程序設(shè)計。