高校大數據專業教學實訓平臺建設

第一章 大數據發展背景

1.1 國家政策

? 2017年1月

工業和信息化部正式發布了《大數據產業發展規劃(2016-2020年)》,明確了“十三五”時期大數據產業的發展思路、原則和目標,將引導大數據產業持續健康發展,有力支撐制造強國和網絡強國建設。

? 2018年9月

工信部公示“2018年大數據產業發展試點示范項目名單”,公布了包括大數據存儲管理、大數據分析挖掘、大數據安全保障、產業創新大數據應用、跨行業大數據融合應用、民生服務大數據應用、大數據測試評估、大數據重點標準研制及應用、政務數據共享開放平臺及公共數據共享開放平臺等10個方向200個項目。

? 2019年11月

為進一步落實《國務院關于印發促進大數據發展行動綱要的通知》和《大數據產業發展規劃(2016~2020年)》,推進實施國家大數據戰略,務實推動大數據技術、產業創新發展,我國工業和信息化部將組織開展2020年大數據產業發展試點示范項目申報工作。

1.2 行業現狀

據相關資料顯示,隨著互聯網、移動互聯網、物聯網等信息通信技術及產業的不斷發展,全球數據量呈爆發式增長態勢。至此,IDC研究報告指出,根據ZDNET的統計預計到2020年,中國產生的數據總量將超過8.5ZB,是2013年的10倍。

此外,值得一提的是,大數據市場空間巨大的同時,其產業規模也有望迎來快速增長。據前瞻產業研究院發布的《中國大數據產業發展前景與投資戰略規劃分析報告》統計數據顯示,2015年我國大數據產業規模已達2800億元,截止至2017年我國大數據產業規模增長至4700億元,規模增速進一步提高至30.6%,初步測算2018年我國大數據產業規模將達6200億元左右,同比增長31.9%。并預測在2020年我國大數據產業規模增長突破萬億元,達到了10100億元,同比增長26.3%。

2015-2020年我國大數據產業規模統計及增長情況預測

數據來源:前瞻產業研究院整理

由此可知,隨著來自政策、技術以及市場等各方面的力量推進之下,大數據產業的發展潛力絕不能小覷。對此,業內人士還預期稱,我國大數據產業正在從起步階段步入黃金期,2020年中國有望成世界第一數據資源大國。

1.3 專業背景

大數據及相關專業是以計算機為基礎,以挖掘、分析為主,以搭建、工具使用為輔,緊密面向行業應用的一門綜合性學科。其方向有數據科學與大數據技術、概率論與數理統計、數據挖掘與數據分析、數據運維與開發、算法與數據結構、計算機網絡、并行計算等多個專業方向。目前全國各類院校已陸續開始圍繞大數據專業建設展開研究并申報大數據專業。

2016年,教育部批準北京大學、對外經貿大學、中南大學率先開設“數據科學與大數據技術”專業;2017年,教育部批準包括中國人民大學、北京郵電大學、復旦大學在內的共計32所高校獲批“數據科學與大數據技術專業”;2018年3月,教育部發布《2017年度普通高等學校本科專業備案和審批結果》,共計255所高校獲批開設“數據科學與大數據技術專業”及“大數據管理與應用專業”;2019年3月,教育部發布《2018年度普通高等學校本科專業備案和審批結果》,共計228所高校獲批開設“數據科學與大數據技術專業” 及“大數據管理與應用專業”。

“大數據技術與應用”專業是2016年教育部公布的新增專業。2017年共有62所職業院校獲批“大數據技術與應用”專業,2018年共有148所職業院校獲批“大數據技術與應用”專業,2019年度新增195所高職院校獲批“大數據技術與應用”專業。截止目前,總計405所高職院校成功申請該專業。

第二章 教學平臺

紅亞大數據教學平臺基于高校的教學場景,運用云計算技術,集課程實驗、算法實戰、數據科研、考試于一體的實訓平臺,平臺課程共計800多個任務。學生可通過瀏覽器訪問使用,可在學校任何一個網絡可達的場所進行學習。

系統課程學習模式包括實驗平臺、項目路徑和職業路徑,滿足不同場景的教學需求。在教學管理方面,平臺自帶人工智能課程推薦功能,可為學生提供個性化課程推薦及AI課程助手,助力學生定向就業。還可以通過大數據分析,自動生成學業報告,為學生就業提供橋梁,并作為教師教學的得力助手,為高校的學生能力培養及教師的工作提供強有力的支持。

2.1 學習模式

2.1.1 實驗平臺

該模式以知識體系為核心,將大數據內容按照不同類型的知識模塊進行分類。如大數據基礎體系下包含了:Linux基礎、編程基礎、數學基礎、數據庫基礎等課程;大數據進階體系包含了:Hadoop、Spark數據處理、R語言、Python數據處理、SAS數據分析等課程;該模式圍繞一個內容展開了多方面知識的學習,與現在教育方式一致,保留了師生們傳統的學習授課方法。不僅如此,為滿足學校的已有的課程教學資源,老師可以自定義實驗內容及實驗鏡像,將文本類、實操類、視頻類課件上傳到教學平臺上滿足教學需求。

2.1.2 職業路徑

該模式以職業崗位需求為核心,綜合分析國內眾多企業的大數據相關人才崗位需求,如大數據運維工程師、大數據研發工程師、大數據架構工程師,經過采集、篩選、對比、定模等一系列的流程,將崗位技能需求落實到具體的知識點,圍繞一個崗位展開多方面相關技術的學習。

教師在后臺可以將實驗按照所需知識點的難易程度設計成一套流程體系。學生按照流程開始實驗,將每一模塊的技能牢牢掌握后,到最后具備勝任該職業的能力,可為自身職業發展提供有效幫助。

2.1.3 項目路徑

項目路徑學習模式是以還原企業的真實項目完成過程為設計思路,將大數據技能知識點與實際項目案例相結合,讓學生能夠真實的體會到每個知識點在實際項目中的具體作用。

將一個項目拆分成多個實驗,多個實驗間共同使用同一實驗環境,以實現項目的連貫性和真實性。項目提供整套的實驗環境及配套工具,用戶在切換實驗時對應的實驗環境不會改變,在下一個實驗會繼續使用上一實驗的實驗環境,并最終完成該項目。具體項目案例包括大數據集群運維項目、圖書館管理系統的設計與實現、IBM離職率分析等。

2.2 練習算法

2.2.1 算法集

算法集提供了一個環境,用戶可以在里面寫代碼、運行代碼、查看結果,并在其中可視化數據,并與平臺中的數據集功能進行交互式使用,可直接調用平臺當中的數據集用于算法在實際數據中的實踐測試。鑒于這些優點,它能幫助他們便捷地執行各種端到端任務,如數據清洗、統計建模、構建/訓練機器學習模型等。

算法集的一個特色是允許把代碼寫入獨立的cell中,然后單獨執行。這樣做意味著用戶可以在測試項目時單獨測試特定代碼塊,無需從頭開始執行代碼。雖然其他的IDE環境(如RStudio)也提供了這種功能,但就個人使用情況來看,算法集的單元結構是設計的最好的。

算法集的優勢還體現在靈活性和交互性上,除了最基礎的Python,它還允許用戶在上面運行R語言。由于它比IDE平臺更具交互性,教師也更樂于在各種教程中用它來展示代碼。

2.2.2 數據集

數據集功能提供數量眾多的大數據數據集,包括互聯網、零售、電商、醫療等相關數據集,數據集中的數據可直接與算法集中的算法進行交互使用,為算法提供所需數據的調用支撐。

教師可根據數據集的內容、格式、數量等為學生設定開放式課題,使用真實的數據集進行大數據項目案例處理分析,深度理解掌握大數據技術是如何處理這些數據的,例如,教師給定一份數據讓學生進行預測實驗,學生需設計算法進行清洗與預測等。

平臺提供開放式上傳功能,支持用戶將自己的數據上傳至平臺當中,并可設定是否與他人共用,可幫助用戶解決數據存放管理問題,實現用戶數據的開放式共享。

2.3 在線考試

2.3.1 理論考核

理論考核采用在線考核模式,將單選題、多選題、判斷題、填空題、簡答題添加在試卷上,每一道題的題目、正選、分值等內容可由管理員自行設置,簡答題題采用關鍵詞進行自動判分,同時也可以由教師手動判分。

2.3.2 實踐測評

實踐測評考核模式是以實驗操作過程為考核點,也稱之為實操題考核模式,由教師在管理端設置考核步驟、分值權重,平臺提供配套的實驗考試環境。學生在實際操作過程中遇到的考核點,需要根據實際結果去填寫,到最后統一匯總分數。該模式突破了傳統的考核模式,通過實操的方式來加深印象,鞏固大數據知識。

2.4 智能教務

2.4.1 教學進度分析

課程實驗具有核全局開關功能,打開全局考核后,進行所有實驗時都必須完成實驗當中設定的每一步考核才能查看下一步。接著,系統不僅自動檢測到正在進行實驗,也可以手動設定實驗狀態分析(也可以手動設置分析目標)。查看分析結果時可查看每個班級的學生在進行每個實驗時完成度,查看每個實驗的每個步驟的通過率、完成率、完成進度、實驗總結信息等。

教學進度分析功能可通過智能化的手段,有效幫助教師分析并掌握整個班級的學習情況,根據學生完成實驗的進度過程進行授課,選擇重點難點部分進行針對性講解,有效降低教師授課壓力,高效完成授課任務。

2.4.2 教學計劃管理

管理員在后臺可以一次性布置全部的教學計劃,規定上課時間與學習課程,隨后學生通過在前端查看,即可了解到每一天的課程安排。

2.4.3 實驗報告管理

教師通過此功能查看學生的實驗報告,支持預覽和批閱等功能,后臺自動統計學生學習數據,展示出每個步驟的學習通過時間、成績正確率、班級排名等信息,并將實驗數據與學生的實驗報告有機結合,形成完成的實驗報告。此功能相較于傳統的實驗報告,增加了學生的學習數據統計功能,可大大的減輕教師的負擔,同時為教師了解班級整體的學習狀況提供的有力的支持。

2.5 平臺管理

2.5.1 用戶管理

為滿足教師方便的管理班級學院,平臺提供用戶組織管理功能。其中用戶管理顯示平臺用戶的信息列表,管理端可對平臺用戶信息進行編輯與刪除,根據信息進行用戶模糊篩選,便于管理平臺用戶;角色管理顯示平臺現有角色,用戶可編輯新的角色并賦予角色權限;組織結構管理顯示平臺現有的組織機構,管理端可以也可根據層級分步添加組織、學院、系別、專業、班級,對同級別下的機構進行排序。

2.5.2 資源管理

用戶可以在此查看版本信息、用戶數量、實驗數量,資源監控及用戶虛擬機監控。同時后臺資源監控中心可查看平臺的用戶數量、實驗數量、職業路徑數量、項目路徑數量、算法集數量、數據集數量、用戶分布、活躍用戶等數據;實時的CPU、內存、硬盤、實例的使用情況和該時刻學生實驗進行的狀態;可對虛擬機進行監控所處狀態。該功能的實現可便捷精準的反應出學生的問題所在,可對實驗平臺進行實時狀態的查看,又同時提高了老師的教學質量和效率。

第三章 教學課程庫

3.1 實驗體系

大數據實驗體系按照大數據基礎、大數據采集、大數據存儲、數據處理、數據分析、數據挖掘、數據可視化、深度學習、機器學習和大數據案例組成。

3.1.1 大數據基礎

3.1.1.1 Linux基礎

Linux系統是開源軟件,其可靠性得到肯定,是當今舉世矚目、發展最快、應用最廣的主流軟件之一。在服務器平臺、嵌入式系統和云計算系統所運行的操作系統中,Linux占很大比重。大數據主流框架Hadoop、Spark都架設在Linux系統上,所以現在學習和應用Linux成為眾多用戶和學生的首選。

Linux基礎32 Linux基礎32 Linux系統概述3 Linux簡介

Linux應用領域

Linux優勢

字符操作環境2 使用Shell

字符編輯器VI

Linux文件系統3 Linux文件

ext3文件系統

安裝和卸載文件系統

進程管理2 Linux進程概述

進程控制命令

常用命令介紹5 目錄操作

文件操作

磁盤操作

文本編輯

幫助命令

用戶管理4 Linux用戶賬戶概述

管理用戶和群組

命令行配置

用戶管理器配置

系統監控與備份4 顯示系統進程

查看硬件信息

查看日志文件

數據備份與恢復

軟件包管理4 RPM概述

RPM包的命令介紹

查看軟件包(檢查軟件包簽名)

軟件包管理工具

管理網絡服務4 守護進程服務

配置FTP服務

配置郵件服務器

Apache服務器

3.1.1.2 編程基礎

編程基礎包含Python基礎、R語言基礎、Scala基礎和Java基礎四大模塊共計81個實驗項目。針對每一個所講解的知識點都進行了深入分析,并使用生動形象的情境化舉例,將原本復雜的、難于理解的知識點和問題進行簡化,針對每個知識點,精心設計了相應的問題,讓學習者不但能掌握和理解這些知識點,并且還可以清楚地知道在實際工作中如何去運用。

編程基礎81 Python基礎38 Python基礎38 Python介紹

Python開發環境搭建

Python基本數據類型

Python變量

Python基本輸入輸出

Python模塊

Python運算符與表達式

Python選擇與循環結構

Python序列操作

Python列表常用方法

Python元組

Python列表解析式與生成器表達式

Python字符編碼

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正則表達式與re模塊

Python字典創建與使用

Python字典方法

Python集合創建與使用

Python集合常用運算

Python文件基本概念

Python打開與關閉文件

Python文件對象基本方法

Python數據序列化與反序列化

Python文件與文件夾基本操作

Python函數的定義和調用

Python函數參數

Python變量作用域

Python函數返回值

Python函數嵌套定義、閉包、裝飾器

Python類的定義和使用

Python構造方法與析構方法

Python成員訪問權限

Python繼承

Python異常概念與常見表現形式

Python常見異常處理結構

Python的raise語句

R語言基礎14 R語言基礎14 R語言開發環境搭建

R語言對象與屬性

R語言向量

R語言矩陣和數組

R語言列表

R語言數據框

R語言構建子集

lapply函數

apply函數

mapply函數

split函數

tapply函數

R語言重復值處理

R語言排序

Scala基礎16 Scala基礎16 Scala開發環境搭建

Scala控制結構和函數

Scala數組相關操作

Scala映射與元組

Scala類與對象

Scala包管理

Scala繼承

Scala文件和正則表達式

Scala特質

Scala運算符(原本為scala操作符)

Scala高階函數

Scala集合

Scala模式匹配和樣例類

Scala類型參數

Scala高級類型

Scala隱式轉換和隱式參數

Java基礎15 Java基礎15 Java開發環境搭建

Java的類和對象

Java標識符、關鍵字與運算符

Java基本數據類型

Java流程控制

Java繼承與多態

Java抽象類與接口

Java內部類

Java異常處理

Java集合類

Java基礎類庫

Java泛型

Java的輸入與輸出

Java數據庫操作

3.1.1.3 數學基礎

數字在數學體系中穩固的位置,而大數據技術也和數學緊緊地結合在一起。數學基礎共計信息論、線性代數、概率論與數理統計、數值計算和最優化方法五大模塊30個實驗項目。大數據技術本身是一門交叉性學科,統計方法為核心,所以學習數學基礎就顯得尤為重要。

數學基礎30 信息論6 信息論6 熵

聯合熵

條件熵

相對熵

互信息

最大熵模型

線性代數7 線性代數7 標量

向量

張量

范數

矩陣

特征分解

幾種常用距離計算

概率論與數理統計8 概率論與數理統計8 隨機變量

概率分布

貝葉斯公式

期望

方差

協方差

常見分布函數

最大似然估計

數值計算3 數值計算3 數值計算概述

上溢和下溢

計算復雜性與NP問題

最優化方法6 最優化方法6 最優化理論概述

最優化問題的數學描述

凸集與凸集分離方法

梯度下降算法

啟發式優化方法

牛頓法和擬牛頓法

3.1.1.4 數據庫基礎

數據庫已是當今信息社會須臾不可脫離的重要工具,數據庫的教學也就成為計算機科學與技術專業的一門必修課程。在大數據技術中,數據庫種類繁多,包括了Exce、MySql、Oracle等等,學習數據庫基礎是為大數據的存儲做準備。

數據庫基礎54 excel6 Excle6 Excel函數與公式

Excel數據統計與匯總

VBA程序基礎

VBA數據類型

VBA流程控制

VBA綜合應用

mysql11 Mysql11 MySQL簡介與安裝

MySQL創建連接

MySQL操作數據庫

MySQL操作數據表

MySQL操作數據

MySQL條件限定與正則表達式

MySQL表的連接

MySQL排序、分組與過濾

MySQL結果合并

MySQL函數

MySQL導入與導出

oracle8 Oracle8 Oracle安裝與卸載

Oracle數據類型(文本)

表的創建與管理

簡單查詢

單行函數

分組統計查詢

多表查詢

Sybase PowerDesigner設計工具

mongodb8 MongoDB8 MongoDB簡介與安裝

MongoDB創建連接

MongoDB操作數據庫

MongoDB操作集合

MongoDB操作文檔

MongoDB條件操作符與正則表達式

MongoDB之Limit與Skip方法

MongoDB排序與聚合

redis+memcache11 Redis10 Redis簡介、安裝與配置

Redis命令(包括Redis鍵)

Redis數據類型

Redis基數統計

Redis服務器與連接

memcached簡介與安裝

memcached連接

memcached存儲

memcached查找

memcached統計

SQLite(10) SQLite10 SQLite簡介與安裝

SQLite操作數據庫

SQLite操作數據表

SQLite操作數據

SQLite條件限定與通配符

SQLite表的連接

SQLite排序、分組與過濾

SQLite結果合并

SQLite之Explain細節描述

SQLite函數

3.1.2 大數據采集

3.1.2.1 Python爬蟲

Python爬蟲是一段自動抓取互聯網信息的程序,從互聯網上抓取對于我們有價值的信息,可使用Python爬蟲對數據進行采集。

Python基礎知識41 Python基礎簡介4 Python語言概述

為何學習Python語言

Python主要應用領域

Python開發環境搭建

初識Python7 Python基本數據類型

Python變量

Python基本輸入輸出

Python模塊

Python運算符與表達式

Python選擇與循環結構

Python猜數字游戲

列表與元組4 Python序列操作

Python列表常用方法

Python元組

Python列表解析式與生成器表達式

字符串與正則表達式5 Python字符編碼

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正則表達式與re模塊

字典2 Python字典創建與使用

Python字典方法

集合2 Python集合創建與使用

Python集合常用運算

文件操作5 Python文件基本概念

Python打開與關閉文件

Python文件對象基本方法

Python數據序列化與反序列化

Python文件與文件夾基本操作

函數5 Python函數的定義和調用

Python函數參數

Python變量作用域

Python函數返回值

Python函數嵌套定義、閉包、裝飾器

面向對象4 Python類的定義和使用

Python構造方法與析構方法

Python成員訪問權限

Python繼承

異常處理結構3 Python異常概念與常見表現形式

Python常見異常處理結構

Python的raise語句

Python 爬蟲19 爬蟲初識3 爬蟲簡介

爬蟲應用場景

爬蟲基本工作原理

網絡請求基礎6 TCP/IP協議

HTTP請求格式

HTTP常用請求頭

響應狀態碼

瀏覽器發送HTTP請求的過程

cookie和session

使用Python發送網絡請求5 Requests模塊介紹

使用Requests發送post請求

使用Requests發送get請求

使用Requests發送帶Header請求

使用Requests發送帶參數請求

Python爬蟲實戰5 XPATH介紹及節點選擇

LXML介紹及使用

對抗反爬蟲措施

網站數據爬取實驗

IP代理數據爬取

3.1.2.2 Flume數據抽取

Flume 是一個分布式,可靠且可用的系統,用于有效地從許多不同的源收集、聚合和移動大量日志數據到一個集中式的數據存儲區。Flume是在數據采集中有比不可少的一個環節。

Flume7 Flume簡介

Flume架構與工作原理

Flume安裝與配置

案例:Avro

案例:Spool

案例:Exec

案例:Syslogtcp

3.1.2.3 Kafka+zookeeper

Kafka它提供了類似于JMS的特性,但是在設計實現上完全不同,此外它并不是JMS規范的實現。kafka對消息保存時根據Topic進行歸類,發送消息者成為Producer,消息接受者成為Consumer,此外kafka集群有多個kafka實例組成,每個實例(server)成為broker。無論是kafka集群,還是producer和consumer都依賴于zookeeper來保證系統可用性集群保存一些meta信息。Kakfa也是數據采集的中一個重要環節。

ZooKeeper7 ZooKeeper7 Zookeeper簡介

Zookeeper工作原理

Zookeeper安裝與配置

Zookeeper基本操作實例

集群管理

共享鎖

隊列管理

Kafka4 Kafka簡介

Kafka工作原理

Kafka安裝與配置

生產者消費者實例

Kafka案例

3.1.2.4 ELK

ELK為數據的收集、傳輸、存儲、分析和警告提供了一整套解決方案,并且都是開源軟件,之間互相配合使用,完美銜接,高效的滿足了很多場合的應用。目前主流的一種日志系統。

ELK10 ELK10 ELK簡介

安裝與配置Elasticsearch

安裝與配置Logstash

安裝與配置Kibana

處理JSON格式Nginx日志

處理Nginx日志

處理Apache日志

處理Twitterdingyue

紐約交通事故數據分析

美國聯邦選舉委員競選捐款數據分析

3.1.3 大數據存儲

3.1.3.1 HDFS存儲

HDFS 主要是為了應對海量數據的存儲,由于數據量非常大,因此一臺服務器是解決不能夠應付的,需要一個集群來存儲這些數據。在這個集群中,存在一個 NameNode 節點,該節點用于管理元數據,即用戶上傳的文件位于哪個服務器上,都多少個副本等信息。此外,還有多個 DataNode 節點,這些節點就是文件存儲位置。

Hadoop基礎4 Hadoop初識簡介4 Hadoop介紹

Hadoop體系架構

Hadoop軟件安裝及配置

單節點偽分布式安裝

分布式存儲HDFS5 分布式存儲HDFS5 HDFS安裝

HDFS的相關概念

HDFS的文件存儲機制

HDFS的數據存儲管理

HDFS的數據的讀寫過程

3.1.3.2 HBase存儲

HBase是一種NoSQL數據庫,這意味著它不像傳統的RDBMS數據庫那樣支持SQL作為查詢語言。HBase是一種分布式存儲的數據庫,技術上來講,它更像是分布式存儲而不是分布式數據庫,它缺少很多RDBMS系統的特性,比如列類型,輔助索引,觸發器,和高級查詢語言等待。

HBase6 HBase6 HBase簡介

HBase的shell應用v2.0

使用Hive操作HBase

HBase的JavaAPI應用

HBase學生選課案例

HBase微博案例

3.1.4 數據處理

3.1.4.1 Pandas數據處理

Pandas是基于NumPy的一種工具,該工具是為了解決數據分析任務而創建的。Pandas納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。Pandas提供了大量能使我們快速便捷地處理數據的函數和方法。

使用pandas進行數據處理13 基礎概念4 Series和DataFrame簡介

DataFrame常用屬性方法

數據訪問

文件讀取(原讀寫文件)

數據清洗3 pandas缺失值處理

pandas重復值處理

pandas異常值處理

數據集成2 使用鍵參數的DataFrame合并

軸向連接

數據變換4 利用函數或映射進行數據轉換

替換值

重命名軸索引

離散化和面元

3.1.4.2 R語言數據處理

R語言在處理數據的過程中,經常需要根據需求從完整的實驗設計和數據中篩選、整理出可以直接使用的部分,這就涉及到數據整理和變換工作。常用的數據整理和變換主要包括以下幾類:選取特定分析變量、篩選滿足條件的數據、按照某個變量排序、對數據進行分組和匯總。

R語言數據處理17 R語言數據處理12 R語言數據導入

R語言數據導出

R語言重復值處理

R語言缺失值處理

R語言空格值處理和字段抽取

R語言記錄抽取和隨機抽樣

R語言記錄合并

R語言字段匹配

R語言數據標準化

數據分組

日期格式處理與日期抽取

虛擬變量

3.1.4.3 SAS數據處理

SAS數據處理系統主要完成以數據為中心的四大任務:數據訪問、數據管理、數據呈現、數據分析四個步驟,一下實驗可以滿足這個四個大任務的使用。

SAS數據分析(34) SAS基礎簡介4 SAS基礎簡介4 SAS概述

SAS的特點及模塊組成

SAS軟件基本介紹-SAS_Studio安裝過程

SAS數據導入導出4 SAS數據導入導出4 讀數據和生成數據集

寫數據

導入數據

導出數據

條件判斷和循環語句3 條件判斷和循環語句3 SAS語句的基本組成

條件判斷語句

循環語句

SAS數據分析綜合應用5 SAS數據分析綜合應用5 建立營銷響應模型

預測股票價格

建立信用評分模型

預測門店銷售額

人口教育情況分析

3.1.4.4 Spark數據處理

Spark是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。所以使用Spark進行數據分析比Hadoop的MR快很多。

Spark數據處理(82) Spark基礎19 Spark簡介5 Spark介紹

Spark體系架構

Spark安裝與配置

Spark運行模式

Spark生態系統BDAS

Spark核心概念4 RDD彈性分布式數據集

RDD的依賴關系

RDD共享變量

Spark優化

RDD編程10 創建RDD

轉化操作

行動操作

惰性求值

傳遞參數

持久化

Pair_RDD的創建

Pair_RDD的轉化操作

Pair_RDD的行動操作

數據分區

數據讀取與存儲13 文件系統2 Amazon_S3的讀取與存儲

HDFS中的讀取與存儲

數據庫4 Cassandra

Elasticsearch

HBase

Java_JDBC連接

文件格式7 文本文件的讀取與存儲

JSON文件的讀取與存儲

CSV與TSV文件的讀取與存儲

序列文件的讀取與存儲

對象文件的讀取與存儲

Hadoop的輸入輸出讀寫

壓縮文件的讀取與存儲

Spark程序結構4 Spark程序結構4 Spark架構設計

Spark算子分類

Spark核心組件

Spark程序執行基本流程

Spark流式計算6 Spark流式計算6 Spark_Streaming介紹

Spark_Streaming架構

Spark_Streaming部署

Spark_Streaming編程

Spark_Streaming性能調優

Flume、Kafka與Spark Streamng結合使用

Spark SQL9 Spark SQL9 Spark_SQL介紹

Spark_SQL架構

DataFrame

Spark_SQL的Shell

Spark_SQL的UDF使用

JDBC操作MySQL

Spark_SQL性能調優

網站日志分析實例

Spark與機器學習13 Spark Mllib13 特征提取和轉化

降維操作

協同過濾算法原理及使用

FP-growth算法及使用

Spark機器學習的優勢和潛力

Spark_MLlib的數據類型

線性回歸算法原理與使用

邏輯回歸算法的原理及使用

支持向量機算法原理與使用

樸素貝葉斯算法原理與使用

決策樹算法原理與使用

隨機森林算法原理與使用

K-Means算法原理與使用

GraphX7 GraphX7 GraphX簡介

Graphx常用數據結構

GraphX圖算法

GraphX屬性圖

GraphX圖操作符

GraphX-Pregel-API

PageRank算法實戰

案例分析11 案例分析11 網絡日志分析

電商廣告案例

實時路況案例

黑名單案例

性別預測案例

年齡預測案例

垃圾郵件案例

圖片分類案例

電影推薦案例

推薦系統案例

金融數據分析案例

3.1.4.5 Impala與Storm

Impala它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。已有的Hive系統雖然也提供了SQL語義,但由于Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性。相比之下,Impala的最大特點也是最大賣點就是它的快速。

Impala3 Impala3 impala簡介

數據庫語句

impala table操作

Storm5 Storm5 Storm簡介

Storm架構與運行原理

Storm安裝與配置

Storm入門實例

Storm日志分析實戰

3.1.4.6 MapReduce

MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)“和"Reduce(歸約)”,是它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。

MapReduce編程模型7 MapReduce編程模型7 MapReduce簡介

MapReduce架構

MapReduce接口類

MapReduce代碼編程

MapReduce經典案例—WordCount

分布式資源調度系統YARN的安裝

MapReduce和YARN命令

3.1.5 數據分析

3.1.5.1 Hive數據分析

Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

數據倉庫Hive6 Hadoop數據倉庫Hive6 Hive簡介

Hive-DDL

Hive-DML

Hive UDFV

Hive數據清洗項目

Hive統計UV項目

3.1.5.2 Python數據分析

Python數據處理需要完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據等技能。

Python相關算法23 分類與預測6 決策樹

K近鄰分類算法

支持向量機

Python隨機森林

Logistic回歸分析

人工智能網絡

常用聚類分析算法3 K-Means聚類算法

系統聚類算法

DBSCAN聚類算法

關聯規則算法2 Apriori算法簡介

Apriori算法應用

協同過濾算法2 基于用戶的協同過濾算法

基于物品的協同過濾算法

時間序列數據分析4 時間序列預處理

平穩時間序列分析

非平穩時間序列分析

Python主要時序模式算法

離群點檢測方法4 離群點檢測概述

基于密度的離群點檢測方法

基于聚類的離群點檢測方法

基于距離的離群點檢測方法

數據降維2 數據降維概述

常用降維方法-1.機器學習簡介

常用降維方法-2.機器學習數學預備知識

常用降維方法-3.常用降維方法的目的

常用降維方法-4.常用降維方法解讀

模型調優與實戰8 模型評估與調優3 模型評估和調優的意義

評估指標

模型調優建議與注意事項

數據分析與挖掘實戰5 電子商務的智能推薦

財政收入分析

電商產品評價分析

電力竊漏識別分析

電器使用情況分析

3.1.5.3 Pig數據分析

Pig是一種數據流語言和運行環境,用于檢索非常大的數據集。為大型數據集的處理提供了一個更高層次的抽象。Pig包括兩部分:一是用于描述數據流的語言,稱為Pig Latin;二是用于運行Pig Latin程序的執行環境。

Pig語言7 Pig簡介

Pig的安裝與運行

命令行交互工具Grunt

Pig數據模型

Pig Latin基礎知識

Pig Latin關系操作

Pig Latin高級應用

3.1.5.4 R語言數據分析

R語言提供數據分析功能,主要課程包括了R語言的基礎進階部分、R語言數據分析部分以及R語言案例。

R語言基礎18 R語言簡介3 R語言概述與應用領域

為何學習R語言

R語言開發環境搭建

R語言數據結構6 R語言數據類型

Array數組和factor因子

List列表和DataFrame數據框

R語言程序結構

R語言向量化計算

對象改值3 就地改值

邏輯值取子集

缺失信息

R的記號體系2 值的選取

發牌實例和洗牌實例

S類系統4 S類系統簡介與屬性

泛型函數

S類系統方法

類、S3與調試

R語言數據分析11 R語言數據分析11 基本統計

對比分析

分組分析

分布分析

交叉分析

結構分析

相關分析

簡單線性回歸分析

多重線性回歸分析

RFM分析

矩陣分析

R語言數據分析綜合應用10 R語言數據分析綜合應用10 建立銷售響應模型

預測銷售額

水質評估

財政收入分析預測模型

騎車數據可視化分析

房價指數的分析與預測

電商評論情感分析

航空公司價值分析

游戲玩家付費行為預測

用戶留存分析實戰

3.1.6 數據挖掘

3.1.6.1 SAS和R數據挖掘

SAS和R語言可以在基礎的教學和分析上進行數據的挖掘,主要課程如下。

SAS數據挖掘6 SAS數據挖掘6 主成分分析

因子分析

聚類分析

判別分析

相關分析

生存分析

R語言數據挖掘11 R語言數據挖掘11 數據挖掘簡介

數據挖掘常見問題

數據挖掘流程

分類預測基本流程

R語言數據預處理(一)

R語言數據預處理(二)-轉換

R語言決策樹分類方法

R語言高級分類方法

R語言聚類分析與關聯分析

智能推薦

時間序列

離群點檢測

R語言網頁數據抓取3 R語言網頁數據抓取3 HTML數據抓取

JSON數據抓取

使用Google分析網頁結構

3.1.6.2 Mahout

Mahout是Apache Software Foundation(ASF)旗下的一個開源項目。提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用Apache Hadoop庫。 Mahout可以有效地擴展到云中。

Mahout5 Mahout5 Mahout簡介

推薦算法

聚類算法

分類算法

使用Mahout構建職位推薦案例

3.1.7 數據可視化

3.1.7.1 Matplotlib可視化

Matplotlib可能是 Python 2D-繪圖領域使用最廣泛的套件。它能讓使用者很輕松地將數據圖形化,并且提供多樣化的輸出格式。下面的課程將會探索 matplotlib 的常見用法。

可視化技術與matplotlib6 可視化與Matplotlib6 繪制折線圖

繪制散點圖

繪制餅狀圖

繪制柱狀圖

繪圖區域分割

結合pandas進行數據可視化

3.1.7.2 SAS和R可視化

R語言使用dplyr、tidyr、reshape2 等包的數據操作方法; base、lattice 和ggplot2包的圖形語法進行可視化展示。SAS可視化文本分析綜合運用自然語言處理、機器學習和語言規則,從非結構化數據中獲取價值。該課程可解決各行業面臨的業務難題,包括:管理和解釋記錄、評估風險和欺詐、以及通過客戶反饋及早發現問題。

SAS數據可視化7 SAS數據可視化7 圖形繪制

條形圖

餅圖

散點圖

箱型圖

R語言數可視化8 R語言數據可視化8 R語言餅圖

R語言散點圖

R語言折線圖

R語言柱形圖

R語言直方圖

R語言箱線圖

R語言樹形圖

R語言地圖和熱力圖

3.1.7.3 可視化工具

可視化除了編程語言之外還可已使用Echart、NodeBox、Inkscape等這樣的工具進行可視化處理。

可視化工具6 可視化工具:python

可視化工具:Echart

可視化工具:NodeBox

可視化工具:Inkscape

可視化工具:Open Layers

可視化工具:Leaflet

3.1.8 大數據案例

大數據正在改變我們的世界。互聯網發展以及移動通信市場和相關技術的迅速擴張也已創建大量的數據包括結構化數據和非結構化數據。數據可用性和數據應用對商業和更廣泛的社會領域帶來了巨大影響。有效使用大數據有助于公司更精準地對重要信息進行分析很終提高運營效率、減少成本、降低風險、加快創新、增加收入。本平臺詳細介紹了大數據策略的規劃和執行配以不同行業里不計其數的現實案例加以闡述。

Hadoop項目案例8 Hadoop項目案例8 QQ好友推薦算法

PageRank算法

Tf-Idf算法

數據關聯案例

ETL案例

PV UV統計案例

用戶流失和新增案例

Hadoop總結

大數據案例(34) 大數據案例34 數據分析生命周期概述6 數據分析概述

發現

數據準備

模型規劃

模型建立

溝通與實施

數據采集2 數據采集的原理

數據采集的實驗步驟

數據清洗2 數據清洗的原理

數據清洗的實驗步驟

可視化工具6 可視化工具:python

可視化工具:Echart

可視化工具:NodeBox

可視化工具:Inkscape

可視化工具:Open Layers

可視化工具:Leaflet

數據建模2 數據建模的原理

數據分析方法與過程

模型評估與優化2 模型-數據與實驗環境介紹

模型-數據分析方法與過程

出租車數據分析2 出租車-數據與實驗環境介紹

出租車-數據分析方法與過程

音樂分類2 音樂-數據與實驗環境介紹

音樂-數據分析方法與過程

知識圖譜制作2 知識圖譜-數據與實驗環境介紹

知識圖譜-數據分析方法與過程

電影評論情感分析2 電影-數據與實驗環境介紹

電影-數據分析方法與過程

金融數據分析2 金融-數據與實驗環境介紹

金融-數據分析方法與過程

大型商場銷售額預測2 銷售-數據與實驗環境介紹

銷售-數據分析方法與過程

NBA籃球比賽結果分析預測2 籃球-數據與實驗環境介紹

籃球-數據分析方法與過程

3.2 教學資源

為滿足教學需求,針對紅亞大數據教學平臺重點實驗提供配套的PPT講義及視頻講解,從實驗知識介紹、實驗目的、實驗原理、實驗拓展、實驗過程等內容展開詳細的介紹。教材建設

紅亞科技與全國高校大數據專家、出版社共同出版了一套國家“高等教育十三五規劃”大數據教材,包括Hadoop、Spark、R語言、SAS、大數據綜合案例技術應用實踐教材。本套教材與大數據實訓教學平臺相輔相成,形成完整的教學資源,覆蓋理論、實訓、實踐、實戰類型,可有效的解決大數據教學資源不夠完善的問題。

第四章 數據安全科研保障箱

數據安全科研實驗箱是在建立在學生具備完善的數據安全基礎知識的層面上的,在學生掌握了一定的數據安全攻擊防御學科知識的同時,亦可進行學科性的知識拓展研究;在一定程度上可延伸學生的學習和知識掌握能力;同時更加全面的提高了學生的綜合知識能力。

數據安全科研實驗實驗箱集成了四種處理器,包括A8處理器、M4處理器、Z32處理器、FPGA編程板,可通過編程實現如下科研項目:SM2密碼算法與實現、12684液晶屏串行顯示實驗、SLE4428邏輯加密卡實驗、SM3密碼雜湊算法程序設計。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容