Machine Learning 學習大綱

在這里更新一個機器學習所需要基礎知識、語言基礎、工具方法和項目概要,方便以后遞進和深入學習。

機器學習高等數學基礎

數據分析

1)常數e
2)導數
3)梯度
4)Taylor
5)gini系數
6)信息熵與組合數
7)梯度下降
8)牛頓法

概率論

1)線性空間及線性變換
2)矩陣的基本概念
3)狀態轉移矩陣
4)特征向量
5)矩陣的相關乘法
6)矩陣的QR分解
7)對稱矩陣、正交矩陣、正定矩陣
8)矩陣的SVD分解
9)矩陣的求導
10)矩陣映射/投影

線性代數及矩陣

1)線性空間及線性變換
2)矩陣的基本概念
3)狀態轉移矩陣
4)特征向量
5)矩陣的相關乘法
6)矩陣的QR分解
7)對稱矩陣、正交矩陣、正定矩陣
8)矩陣的SVD分解
9)矩陣的求導
10)矩陣映射/投影

凸優化

1)凸優化基本概念
2)凸集
3)凸函數
4)凸優化問題標準形式
5)凸優化之Lagerange對偶化
6)凸優化之牛頓法、梯度下降法求解

Python語言基礎

容器

1)列表:list
2)元組:tuple
3)字典: dict
4)數組: Array
5)切片
6)列表推導式
7)淺拷貝和深拷貝

函數

1)lambda表達式
2)遞歸函數及尾遞歸優化

3)常用內置函數/高階函數
4)項目案例:約瑟夫環問題

常用庫

1)時間庫
2)并發庫
3)科學計算庫
4)Matplotlib可視化繪圖庫
5)鎖和線程
6)多線程編程

機器學習算法

監督學習

1)邏輯回歸
2)softmax分類
3)條件隨機場
4)支持向量機svm
5)決策樹
6)隨機森林
7)GBDT
8)集成學習

非監督學習

1)高斯混合模型
2)聚類
3)PCA
4)密度估計
5)LSI
6)LDA
7)雙聚類
8)降維算法

數據處理與模型調優

1)特征提取
2)數據預處理
3)數據降維
4)模型參數調優
5)模型持久化
6)模型可視化
7)優化算法:坐標軸下降法和最小角回歸法
8)數據挖掘關聯規則算法
9)感知器模型

數據挖掘

深度學習

1)TensorFlow基本應用
2)BP神經網絡
3)深度學習概述
4)卷積神經網絡(CNN)
5)圖像分類(vgg,resnet)
6)目標檢測(rcnn,fast-rcnn,faster-rcnn,ssd)
7)遞歸神經網絡(RNN)
8)lstm,bi-lstm,多層LSTM
9)無監督學習之AutoEncoder自動編碼器
10)Seq2Seq
11)Seq2Seq with Attension
12)生成對抗網絡
13)irgan
14)finetune及遷移學習
15)孿生網絡
16)小樣本學習

自然語言處理(NLP)

自然語言處理(NLP)是計算機科學領域與人工智能領域中的一個重要方向。它已成為人工智能的核心領域。自然語言處理解決的是“讓機器可以理解自然語言”這一到目前為止都還只是人類獨有的特權,被譽為人工智能皇冠上的明珠,被廣泛應用。本階段從NLP的字、詞和句子全方位多角度的學習NLP,作為NLP的基礎核心技術,對NLP為核心的項目,如聊天機器人,合理用藥系統,寫詩機器人和知識圖譜等提供底層技術。通過學習NLP和深度學習技術,掌握NLP具有代表性的前沿技術。

1)詞(分詞,詞性標注)
2)詞(深度學習之詞向量,字向量)
3)詞(深度學習之實體識別和關系抽取)
4)詞(關鍵詞提取,無用詞過濾)
5)句(句法分析,語義分析)
6)句(自然語言理解,一階邏輯)
7)句(深度學習之文本相似度)

圖像處理(DIP)

數字圖像處理(Digital Image Processing)是通過計算機對圖像進行去除噪聲、增強、復原、分割、提取特征等處理的方法和技術。廣泛的應用于農牧業、林業、環境、軍事、工業和醫學等方面,是人工智能和深度學習的重要研究方向。深度學習作為當前機器學習領域最熱門的技術之一,已經在圖像處理領域獲得了應用,并且展現出巨大的前景。本階段學習了數字圖像的基本數據結構和處理技術,到前沿的深度學習處理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度學習模型,對圖像分類,目標檢測和模式識別等圖像處理主要領域達到先進水平。實際工作中很多項目都可以轉化為本課程的所學的知識去解決,如行人檢測,人臉識別和數字識別。

-圖像基礎:圖像讀,寫,保存,畫圖(線,圓,多邊形,添加文字)
-圖像操作及算數運算:圖像像素讀取,算數運算,ROI區域提取
-圖像顏色空間運算:圖像顏色空間相互轉化
-圖像幾何變換:平移,旋轉,仿射變換,透視變換等
-圖像形態學:腐蝕,膨脹,開/閉運算等
-圖像輪廓:長寬,面積,周長,外接圓,方向,平均顏色,層次輪廓等
-圖像統計學:圖像直方圖
-圖像濾波:高斯濾波,均值濾波,雙邊濾波,拉普拉斯濾波等

項目應用列舉

項目一:公安系統人臉識別、圖像識別
使用深度學習框架從零開始完成人臉檢測的核心技術圖像類別識別的操作,從數據預處理開始一步步構建網絡模型并展開分析與評估,方便大家快速動手進行項目實踐!識別上千種人靚,返回層次化結構的每個人的標簽。

項目二:公安系統圖像檢索
本項目基于卷積神經網在訓練過程中學習出對應的『二值檢索向量』,對全部圖先做了一個分桶操作,每次檢索的時候只取本桶和臨近桶的圖片作比對,而不是在全域做比對,使用這樣的方式提高檢索速度,使用Tensorflow框架建立基于ImageNet的卷積神經網絡,并完成模型訓練以及驗證。

項目三:今日頭條CTR廣告點擊量預估
點擊率預估是廣告技術的核心算法之一,它是很多廣告算法工程師喜愛的戰場。廣告的價值就在于宣傳效果,點擊率是其中最直接的考核方式之一,點擊率越大,證明廣告的潛在客戶越多,價值就越大,因此才會出現了刷點擊率的工具和技術。通過對于點擊量的評估,完成對于潛在用戶的價值挖掘。

項目四:序列分析系統
時間序列分析(Time Series Analysis)是一種動態數據處理的統計方法,主要基于隨機過程理論和數理統計方法,研究隨機數據序列所遵從的統計規律以便用于解決實際問題。主要包括自相關分析等一般的統計分析方法,構建模型從而進行業務推斷。經典的統計分析是假定數據序列具有獨立性,而時間序列分析則側重于研究數據樣本序列之間的依賴關系。時間序列預測一般反應了三種實際變化規律:趨勢變化、周期性變化和隨機性變化。時間序列預測常應用于國民經濟宏觀控制、企業經營管理、市場潛力量預測、天氣預報、水文預報等方面,是應用于金融行業的一種核心算法之一。

項目五:京東聊天機器人/智能客服
聊天機器人/智能客服是一個用來模擬人類對話或者聊天的一個系統,利用深度學習和機器學習等NLP相關算法構建出問題和答案之間的匹配模型,然后可以將其應用到客服等需要在線服務的行業領域中,聊天機器人可以降低公司客服成本,還能夠提高客戶的體驗友好性。 在一個完整的聊天機器人實現過程中,主要包含了一些核心技術,包括但不限于:爬蟲技術、機器學習算法、深度學習算法、NLP領域相關算法。通過實現一個聊天機器人可以幫助我們隊AI整體知識的一個掌握。

項目六:機器人寫詩歌
機器人寫詩歌/小說是一種基于NLP自然語言相關技術的一種應用,在實現過程中可以基于機器學習相關算法或者深度學習相關算法來進行小說/詩歌構建過程。人工智能的一個終極目標就是讓機器人能夠像人類一樣理解文字,并運用文字進行創作,而這個目標大致上主要分為兩個部分,也就是自然語言理解和自然語言生成,其中現階段的主要自然語言生成的運用,自然語言生成主要有兩種不同的方式,分別為基于規則和基于統計,基于規則是指首先了解詞性及語法等規則,再依據這樣的規則寫出文章;而基于統計的本質是根據先前的字句和統計的結果,進而判斷下一個子的生成,例如馬爾科夫模型就是一種常用的基于統計的方法。

項目七:機器翻譯系統
機器翻譯又稱自動翻譯,是指利用計算機將一種自然語言轉換為另外一種自然語言的過程,機器翻譯是人工智能的終極目標之一,具有很高的研究價值,同時機器翻譯也具有比較重要的實用價值,機器翻譯技術在促進政治、經濟、文化交流等方面起到了越來越重要的作用;機器翻譯主要分為以下三個過程:原文分析、原文譯文轉換和譯文生成;機器翻譯的方式有很多種,但是隨著深度學習研究取得比較大的進展,基于人工網絡的機器翻譯也逐漸興起,特別是基于長短時記憶(LSTM)的循環神經網絡(RDD)的應用,為機器翻譯添了一把火。

項目八:垃圾郵件過濾系統
郵件主要可以分為有效郵件和垃圾郵件兩大類,有效郵件指的郵件接收者有意義的郵件,而垃圾郵件轉指那些沒有任何意義的郵件,其內容主要包含賺錢信息、成人廣告、商業或者個人網站廣告、電子雜志等,其中垃圾郵件又可以發為良性垃圾郵件和惡性垃圾郵件,良性垃圾郵件指的就是對收件人影響不大的信息郵件,而惡性垃圾郵件指具有破壞性的電子郵件,比如包含病毒、木馬等惡意程序的郵件。垃圾郵件過濾主要使用使用機器學習、深度學習等相關算法,比如貝葉斯算法、CNN等,識別出所接收到的郵件中那些是垃圾郵件。

項目九:手工數字識別
人認知世界的開始就是從認識數字開始的,深度學習也一樣,數字識別是深度學習的一個很好的切入口,是一個非常經典的原型問題,通過對手寫數字識別功能的實現,可以幫助我們后續對神經網絡的理解和應用。選取手寫數字識別的主要原因是手寫數字具有一定的挑戰性,要求對編程能力及神經網絡思維能力有一定的要求,但同時手寫數字問題的復雜度不高,不需要大量的運算,而且手寫數字也可以作為其它技術的一個基礎,所以以手寫數字識別為基礎,貫穿始終,從而理解深度學習相關的應用知識。

項目十:癌癥篩選檢測
技術可以改變癌癥患者的命運嗎,對于患有乳腺癌患者來說,復發還是痊愈影響這患者的生命,那么怎么來預測患者的患病結果呢,機器學習算法可以幫助我們解決這一難題,本項目應用機器學習logistic回歸模型,來預測乳腺癌患者復發還是正常,有效的預測出醫學難題。

項目十一:葡萄酒質量檢測系統
隨著信息科技的快速發展,計算機中的經典算法在葡萄酒產業中得到了廣泛的研究與應用。其中機器學習算法的特點是運用了人工智能技術,在大量的樣本集訓練和學習后可以自動地找出運算所需要的參數和模型。

項目十二:淘寶網購物籃分析推薦算法
購物籃分析(Market Basket Analysis)即非常有名的啤酒尿布故事的一個反應,是通過對購物籃中的商品信息進行分析研究,得出顧客的購買行為,主要目的是找出什么樣的物品會經常出現在一起,也就是那些商品之間是有很大的關聯性的。通過購物籃分析挖掘出來的信息可以用于指導交叉銷售、追加銷售、商品促銷、顧客忠誠度管理、庫存管理和折扣計劃等業務;購物籃分析的最常用應用場景是電商行業,但除此之外,該算法還被應用于信用卡商城、電信與金融服務業、保險業以及醫療行業等。

項目十三:手工實現梯度下降回歸算法
梯度下降法(英語:Gradient descent)是一個一階最優化算法,通常也稱為最速下降法。 要使用梯度下降法找到一個函數的局部極小值,必須向函數上當前點對應梯度(或者是近似梯度)的反方向的規定步長距離點進行迭代搜索。如果相反地向梯度正方向迭代進行搜索,則會接近函數的局部極大值點;這個過程則被稱為梯度上升法。

項目十四:基于TensorFlow實現回歸算法
回歸算法是業界比較常用的一種機器學習算法,通過應用于各種不同的業務場景,是一種成熟而穩定的算法種類;TensorFlow是一種常用于深度學習相關領域的算法工具;隨著深度學習熱度的高漲,TensorFlow的使用也會越來越多,從而使用TensorFlow來實現一個不存在的算法,會加深對TensorFlow的理解和使用;基于TensorFlow的回歸算法的實現有助于后續的TensorFlow框架的理解和應用,并可以促進深度學習相關知識的掌握。

項目十五:合理用藥系統
合理用藥系統,是根據臨床合理用藥專業工作的基本特點和要求,運用NLP和深度學習技術對藥品說明書,臨床路徑等醫學知識進行標準化,結構化處理。如自動提取藥品說明書文本里面的關鍵信息如:藥品相互作用,禁忌,用法用量,適用人群等,實現醫囑自動審查,及時發現不合理用藥問題,幫助醫生、藥師等臨床專業人員在用藥過程中及時有效地掌握和利用醫藥知識,預防藥物不良事件的發生、促進臨床合理用藥工作。

項目十六:行人檢測
行人檢測是利用圖像處理技術和深度學習技術對圖像或者視頻序列中是否存在行人并給予精確定位。學習完行人檢測技術后,對類似的工業缺陷檢測,外觀檢測和醫療影像檢測等目標檢測范疇類的項目可以一通百通。該技術可與行人跟蹤,行人重識別等技術結合,應用于人工智能系統、車輛輔助駕駛系統、智能機器人、智能視頻監控、人體行為分析、智能交通等領域。由于行人兼具剛性和柔性物體的特性 ,外觀易受穿著、尺度、遮擋、姿態和視角等影響,使得行人檢測成為計算機視覺領域中一個既具有研究價值同時又極具挑戰性的熱門課題。

項目十七:時間序列算法模型
拿到一個觀察序列后,首先要對它的平穩性和純隨機性進行檢驗,這兩個重要的檢驗稱為序列的預處理。根據檢驗的結果可以將序列分為不同的類型,對不同的類型我們采用不同的分析方法。
1)移動平均法 (MA)
2)自回歸模型(AR)
AR模型是一種線性預測,即已知N個數據,可由模型推出第N點前面或后面的數據(設推出P點)。
本質類似于插值,其目的都是為了增加有效數據,只是AR模型是由N點遞推,而插值是由兩點(或少數幾點)去推導多點,所以AR模型要比插值方法效果更好。
3)自回歸滑動平均模型(ARMA)
其建模思想可概括為:逐漸增加模型的階數,擬合較高階模型,直到再增加模型的階數而剩余殘差方差不再顯著減小為止。
4)指數平滑法
移動平均法的預測值實質上是以前觀測值的加權和,且對不同時期的數據給予相同的加權。這往往不符合實際情況。
指數平滑法則對移動平均法進行了改進和發展,其應用較為廣泛。
基本思想都是:預測值是以前觀測值的加權和,且對不同的數據給予不同的權,新數據給較大的權,舊數據給較小的權。
根據平滑次數不同,指數平滑法分為:一次指數平滑法、二次指數平滑法和三次指數平滑法等

項目十八:PySpark大數據機器學習框架
Spark由AMPLab實驗室開發,其本質是基于內存的快速迭代框架,“迭代”是機器學習最大的特點,因此非常適合做機器學習。得益于在數據科學中強大的表現,Python是一種解釋型、面向對象、動態數據類型的高級程序設計語言,結合強大的分布式內存計算框架Spark,兩個領域的強者走到一起,自然能碰出更加強大的火花(Spark可以翻譯為火花)。
Spark的Python API幾乎覆蓋了所有Scala API所能提供的功能,只有極少數的一些特性和個別的API方法,暫時還不支持。但通常不影響我們使用Spark Python進行編程。

項目十九:天池、kaggle比賽
2014年3月,阿里巴巴集團董事局主席馬云在北京大學發起“天池大數據競賽”。首屆大賽共有來自全球的7276支隊伍參賽,海外參賽隊伍超過148支。阿里巴巴集團為此開放了5.7億條經過嚴格脫敏處理的數據。2014年賽季的數據提供方為貴陽市政府,參賽者根據交通數據模擬控制紅綠燈時間,尋找減輕道路擁堵的方法。
Kaggle是一個數據分析的競賽平臺,網址:https://www.kaggle.com/企業或者研究者可以將數據、問題描述、期望的指標發布到Kaggle上,以競賽的形式向廣大的數據科學家征集解決方 案,類似于KDD-CUP(國際知識發現和數據挖掘競賽)。Kaggle上的參賽者將數據下載下來,分析數據,然后運用機 器學習、數據挖掘等知識,建立算法模型,解決問題得出結果,最后將結果提交,如果提交的結果符合指標要求并且在參賽者中排名第一,將獲得比賽豐厚的獎金。

項目二十:量化交易
量化交易(Quantitative Trading)是指借助現代統計學和數學的方法,利用計算機技術來進行交易的證券投資方式。量化交易從龐大的歷史數據中海選能帶來超額收益的多種“大概率”事件以制定策略,用數量模型驗證及固化這些規律和策略,然后嚴格執行已固化的策略來指導投資,以求獲得可以持續的、穩定且高于平均收益的超額回報。
量化交易起源于上世紀七十年代的股票市場,之后迅速發展和普及,尤其是在期貨交易市場,程序化逐漸成為主流。有數據顯示,國外成熟市場期貨程序化交易已占據總交易量的70%-80%,而國內則剛剛起步。手工交易中交易者的情緒波動等弊端越來越成為盈利的障礙,而程序化交易天然而成的精準性、100%執行率則為它的盈利帶來了優勢。

企業項目

基于Python數據分析與機器學習案例實戰教程

(1)python數據分析
(2)機器學習經典算法原理詳解
(3)十大經典案例實戰

通過python數據科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的機器學習案例。算法課程注重于原理推導與流程解釋,結合實例通俗講解復雜的機器學習算法,并以實戰為主,所有課時都結合代碼演示。算法與項目相結合,選擇經典kaggle項目,從數據預處理開始一步步代碼實戰帶大家快速入門機器學習。旨在幫助同學們快速上手如何使用python庫來完整機器學習案例。選擇經典案例基于真實數據集,從數據預處理開始到建立機器學習模型以及效果評估,完整的講解如何使用python及其常用庫進行數據的分析和模型的建立。對于每一個面對的挑戰,分析解決問題思路以及如何構造合適的模型并且給出合適評估方法。在每一個案例中,同學們可以快速掌握如何使用pandas進行數據的預處理和分析,使用matplotlib進行可視化的展示以及基于scikit-learn庫的機器學習模型的建立。

1)Python數據分析與機器學習實戰課程簡介
2)Python快速入門
3)Python科學計算庫Numpy
4)Python數據分析處理庫Pandas
5)Python可視化庫Matplotlib
6)回歸算法
7)模型評估
8)K近鄰算法
9)決策樹與隨機森林算法
10)支持向量機
11)貝葉斯算法
12)神經網絡
13)Adaboost算法
14)SVD與推薦
15)聚類算法
16)案例實戰:使用Python庫分析處理Kobe Bryan職業生涯數據
17)案例實戰:信用卡欺詐行為檢測
18)案例實戰:泰坦尼克號獲救預測
19)案例實戰:鳶尾花數據集分析
20)案例實戰:級聯結構的機器學習模型
21)案例實戰:員工離職預測
22)案例實戰:使用神經網絡進行手寫字體識別
23)案例實戰:主成分分析
24)案例實戰:基于NLP的股價預測
25)案例實戰:借貸公司數據分析

人工智能與深度學習實戰

(1)神經網絡必備基礎知識點
(2)深度學習模型
(3)深度學習框架Caffe與Tensorflow
(4)深度學習項目實戰

概述講解深度學習應用與挑戰,由計算機視覺中圖像分類任務開始講解深度學習的常規套路。對于復雜的神經網絡,將其展開成多個小模塊進行逐一攻破,再挑戰整體神經網絡架構。對于深度學習模型形象解讀卷積神經網絡原理,詳解其中涉及的每一個參數,對卷積網絡架構展開分析與評估,對于現階段火爆的對抗生成網絡以及強化學習給出形象解讀,并配合項目實戰實際演示效果。 基于框架實戰,選擇兩款深度學習最火框架,Caffe與Tensorflow,首先講解其基本使用方法,并結合案例演示如何應用框架構造神經網絡模型并完成案例任務。 選擇經典深度學習項目實戰,使用深度學習框架從零開始完成人臉檢測,驗證碼識別,人臉關鍵點定位,垃圾郵件分類,圖像風格轉換,AI自己玩游戲等。

1)深度學習概述與挑戰
2)圖像分類基本原理門
3)深度學習必備基礎知識點
4)神經網絡反向傳播原理
5)神經網絡整體架構
6)神經網絡案例實戰圖像分類任務
7)卷積神經網絡基本原理
8)卷積參數詳解
9)卷積神經網絡案例實戰
10)經典網絡架構分析
11)分類與回歸任務
12)三代物體檢測算法分析
13)數據增強策略
14)TransferLearning
15)網絡架構設計
16) 深度學習框架Caffe網絡結構配置
17)Caffe
18)深度學習項目實戰人臉檢測
19)人臉正負樣本數據源制作
20)人臉檢測網絡架構配置習模型
21)人臉檢測代碼實戰
22)人臉關鍵點定位項目實戰
23)人臉關鍵點定位網絡模型
24)人臉關鍵點定位構建級聯網絡
25)人臉關鍵點定位測試效果與分析
26)Tensorflow框架實戰
27)Tensorflow構建回歸模型
28)Tensorflow構建神經網絡模型
29)Tensorflow深度學習模型
30)Tensorflow打造RNN網絡模型
31)Tensorflow項目實戰驗證識別
32)項目實戰圖像風格轉換
33)QLearning算法原理
34)DQN網絡架構
35)項目實戰DQN網絡讓AI自己玩游戲
36)項目實戰對抗生成網絡等

AI大數據互聯網電影智能推薦

隨著科技的發展,現在視頻的來源和類型多樣性,互聯網視頻內容充斥著整個網絡,如果僅僅是通過翻頁的方法來尋找自己想看的視頻必然會感到疲勞,現在急需一種能智能推薦的工具,推薦系統通過分析用戶對視頻的評分分析,對用戶的興趣進行建模,從而預測用戶的興趣并給用戶進行推薦。
Python是一種面向對象的解釋型計算機程序設計語言,Python具有豐富和強大的庫。它常被昵稱為膠水語言,而大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,企業面臨海量數據的到來,大多選擇把數據從本地遷移至云端,云端將成為最大的非結構化數據存儲場所。本項目主要以客戶咨詢為載體,分析客戶的群體,分布,旨在挖掘客戶的內在需求,幫助企業實現更有價值的營銷。

教務管理系統業務介紹

1)教務管理系統框架講解
2)系統業務邏輯介紹

大數據需求分析

1)明確數據需求
2)大數據分析過程
3)分析難點和解決方案
4)大數據相關技術選型

構建分布式大數據框架

1)Hadoop分布式集群配置
2)ZooKeeper高可用
3)SQOOP數據轉移
4)ETL數據清洗
5)HIVE數據分析
6)HBase數據存儲

基于教務管理系統大數據分析

1)業務數據分析指標設定
2)操作MapReduce分而治之
3)使用Hive進行數據整合抽離
4)使用HBase存儲非結構話數據

大數據可視化

1)可視化技術選型
2)Echarts代碼展示炫酷視圖
3)使用Tableau進行數據可視化展示

電商大數據情感分析與AI推斷實戰項目

本項目從開發的角度以大數據、PHP技術棧為基礎,使用真實商用表結構和脫敏數據,分三步構建商用系統、真實大數據環境、進行推斷分析以及呈現結果。 項目課程的完整性、商業性,可以使學者盡可能完整地體會真實的商業需求和業務邏輯。完整的項目過程,使PHP技術棧的同學得以窺見和學到一個完整商業平臺項目的搭建方法;真實大數據環境的搭建,使呈現、建立大數據的工具應用技術概念儲備;基于大數據平臺的分析需求的實現、呈現,將完整的一次大數據技術棧到分析結果的中線,平鋪直述,為學習大數據并有開發基礎的同學點亮新的能力。

實踐項目研發

1)開發環境的安裝配置
2)表與數據
3)LARAVEL的快速開發實踐
4)批量創建模型
5)萬能控制器與表配置
6)統一視圖的創建

數據分析需求設立

1)定義數據需求
2)分析計算過程
3)分析難點和解決方案
4)大數據技術選型

大數據平臺搭建

1)分布式環境的模擬建立
2)網絡環境的調通
3)身份驗證與集群控制
4)Hadoop環境搭建和要點說明
5)MapReduce與Yarn的搭建和說明

大數據分析腳本編寫

1)MapReduce腳本編寫
2)拆解數據需求
3)Map邏輯詳寫
4)Reduce邏輯詳寫
5)結果整理與輸出

結果可視化

1)可視化需求和技術選型
2)展示頁面的快速鋪設
3)可視化JS上手
4)使用可視化JS展示結果

AI法律咨詢大數據分析與服務智能推薦實戰項目

本項目結合目前流行的大數據框架,在原有成熟業務的前提下,進行大數據分析處理,真實還原企業應用。
項目的業務系統底層主要采用JAVA架構,大數據分析主要采用Hadoop框架,其中包括Kettle實現ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智能算法等框架技術;采用真實大數據集群環境的搭建,讓學員切身感受企業項目的從0到1的過程。

系統業務介紹

1)底層業務實現框架講解
2)功能模塊講解

系統架構設計

1)總體架構分析
2)數據流向
3)各技術選型承載作用
4)部署方案

詳盡實現

1)原始數據處理
2)ETL數據導入
3)MR數據計算
4)Hive數據分析

數據可視化

1)采用Highcharts插件展示客戶偏好曲線圖
2)使用Tableau進行數據分析可視化展示

項目優化

1)ZooKeeper實現HA
2)集群監控的整體聯調

AI大數據基站定位智能推薦商圈分析項目實戰

隨著當今個人手機終端的普及、出行人群中手機擁有率和使用率已達到相當高的比例,根據手機信號在真實地理空間的覆蓋情況,將手機用戶時間序列的手機定位數據,映射至現實地理位置空間位置,即可完整、客觀地還原出手機用戶的現實活動軌跡,從而挖掘出人口空間分布與活動聯系特征信息。
商圈是現代市場中企業市場活動的空間,同時也是商品和服務享用者的區域。商圈劃分為目的之一是研究潛在顧客分布,以制定適宜的商業對策。
本項目以實戰為基礎結合大數據技術Hadoop、.Net技術全棧為基礎,采用真實商業數據,分不同環節構建商用系統、真實大數據環境、進行推斷分析及呈現數據。

一、分析系統業務邏輯講解
1)大數據基站定位智能推薦商圈分析系統介紹
2)數據前期清洗和數據分析目標指標的設定等

二、大數據導入與存儲
1)關系型數據庫基礎知識
2)hive的基本語法
3)hive的架構及設計原理
4)hive安裝部署與案例等
5)Sqoop安裝及使用
6)Sqoop與關系型數據庫進行交互等
7)動手實踐

三、Hbase理論及實戰
1)Hbase簡介、安裝及配置
2)Hbase的數據存儲與數據模型
3)Hbase Shell
4)Hbase 訪問接口
5)Hbase數據備份與恢復方法等
6)動手實踐(數據轉儲與備份)

四、基站數據分析與統計推斷
1)背景與分析推斷目標
2)分析方法與過程推斷
3)動手實踐(分析既定指標數據)

五、數據分析與統計推斷結果的展示(大數據可視化)
1)使用Tableau展示數據分析結果
2)使用HighCharts、ECharts展示數據分析結果

百度云實例

深入理解百度云計算基礎產品/基于百度云彈性計算服務實現基礎架構解決方案

全面介紹BCC(CDS 、EIP)、BLB、RDS、BOS、VPC等百度云彈性計算服務,介紹百度云的安全防護方案,深入介紹傳統架構下如何通過百度云彈性計算服務快速構建更穩定、安全的應用;
認證培訓專家將通過深入淺出,理論和實踐相結合的課程幫助學員深入掌握百度云彈性計算服務。

1)快速體驗百度云服務器BCC的功能全貌
2)基于BCC的云磁盤CDS的操作與管理
3)基于BCC的磁盤快照、自定義鏡像的操作與管理
4)基于自定義鏡像快速生成BCC的實驗
5)基于磁盤快照實現數據備份與恢復的最佳實踐
6)基于百度云安全組完成定義IP+端口的入站和出站訪問策略
7)快速體驗百度云私有網絡VPC的功能全貌
8)基于百度云VPC+VPN快速搭建Stie-to-Stie的混合云架構
9)在百度云VPC網絡下實現NAT地址映射的實踐
10)快速體驗百度云數據庫RDS的功能全貌
11)云數據庫RDS的備份與恢復操作體驗
12)熟悉數據傳輸服務DTS的使用
13)快速體驗百度云負載均衡BLB的功能全貌
14)快速體驗百度云存儲BOS的功能全貌
15)快速體驗百度云數據庫RDS的功能全貌
16)快速體驗百度云內容分發網絡CDN
17)基于BLB、BCC、RDS、BOS和CDN快速部署Discuz論壇實現彈性架構綜合實驗
18)快速體驗百度云安全BSS和DDOS防護服務
19)快速體驗百度云監控BCM

基于百度云的遷移上云實戰

基于百度云彈性計算服務的基礎產品,實現傳統IT架構遷移到百度云上的實戰,為客戶業務上云提升能力,提升客戶上云前的信心,上云中和上云后的技術能力。以真實的客戶案例,結合設計好的動手實驗課提升實戰經驗,介紹了業務上云的過程、方法、工具以及案例等。

1)基于BCC快速部署LNMP基礎環境
2)基于BCC快速部署LAMP基礎環境
3)基于BCC快速部署MySQL數據庫
4)基于BCC快速部署MS SQL數據庫服務
5)基于BCC快速部署Tomcat基礎環境
6)云數據庫RDS結合數據傳輸服務DTS實現數據遷移上云的最佳實踐
7)基于BOS桌面實現BOS的可視化管理
8)基于BOS FS實現BOS服務掛載到本地文件系統
9)基于BOS-Util實現BOS的批量文件操作的演示
10)基于BOS CLI實現BOS文件的單機操作

在百度云平臺上進行開發

全面介紹使用百度云產品進行應用開發,理解百度云主要產品特性,包括BCC、BOS、RDS、SCS在應用開發中的使用,結合實際應用開發案例全面的介紹整個開發流程和百度云產品使用方法,以提升學員開發技能和了解百度云產品開發特點,根據一天或者兩天的課程,提供多個實際動手實驗,認證講師指導實驗,真正做到學以致用,為學員實現上云開發保駕護航。

1)基于百度云OpenAPI實現簡化版控制臺的綜合實驗
2)基于百度云BOS OpenAPI實現簡化版的百度網盤

百度云“天工 · 智能物聯網”與“天像· 智能多媒體”服務平臺介紹與案例分析

百度天工物聯平臺是“一站式、全托管”的物聯網服務平臺,依托百度云基礎產品與服務,提供全棧物聯網核心服務,幫助開發者快速搭建、部署物聯網應用。通過全面介紹天工的IoT Hub、IoT Parser、Rule Engine、IoT Device、BML、BMR、OCR和語音識別等產品與服務,解析天工典型的產品架構方案,應用到工業4.0、車聯網、能源、物流和智能硬件等各行業解決方案。

1)基于百度云LSS快速搭建音視頻直播平臺最佳實踐
2)基于百度云VOD快速搭建音視頻點播平臺最佳實踐
3)體驗百度云音視頻轉碼MCT的轉碼計算服務
4)基于百度云文檔服務DOC體驗文檔存儲、轉碼、分發播放一站式服務體驗
5)基于百度云物接入IoT Hub實現智能設備與百度云端之間建立安全的雙向連接
6)體驗百度云的物管理IoT Device端到端配置實踐

百度云“天智·人工智能”服務平臺介紹與實戰

天智是基于世界領先的百度大腦打造的人工智能平臺,提供了語音技術、文字識別、人臉識別、深度學習和自然語言NLP等一系列人工智能產品及解決方案,幫助各行各業的客戶打造智能化業務系統。本課程力求對百度人工智能服務平臺進行整體、全面的介紹,包括天智平臺與解決方案介紹、主要產品(百度語音、人臉識別、文字識別、百度深度學習、百度機器學習 BML、自然語言NLP等)的介紹、客戶案例分享等。

1)百度機器學習BML-廣告點擊率預估
2)百度識別-文字識別
3)百度識別-人臉識別
4)百度自然語言處理-短文本相似度
5)百度語音-朗讀者
6)百度深度學習-預測用戶感興趣的電影

阿里云實例

-云計算 - 網站建設:部署與發布
阿里云網站建設認證課程教你如何掌握將一個本地已經設計好的靜態網站發布到Internet公共互聯網,綁定域名,完成工信部的ICP備案。

-云計算 - 網站建設:簡單動態網站搭建
阿里云簡單動態網站搭建課程教你掌握如何快速搭建一個WordPress動態網站,并會對網站進行個性化定制,以滿足不同的場景需求。

-云計算 - 云服務器管理維護
阿里云服務器運維管理課程教你掌握快速開通一臺云服務器,并通過管理控制臺方便地進行服務器的管理、服務器配置的變更和升級、數據的備份,并保證其可以正常運轉并按業務需求隨時進行配置的變更。

-云計算 - 云數據庫管理與數據遷移
阿里云云數據庫管理與數據遷移認證課程掌握云數據庫的概念,如何在云端創建數據庫、將自建數據庫遷移至云數據庫MySQL版、數據導入導出,以及云數據庫運維的常用操作。

-云計算 - 云存儲:對象存儲管理與安全
阿里云云儲存認證課程教你掌握安全、高可靠的云存儲的使用,以及在云端存儲下載文件,處理圖片,以及如何保護數據的安全。

-云計算 - 超大流量網站的負載均衡
掌握如何為網站實現負載均衡,以輕松應對超大流量和高負載。

-大數據 - MOOC網站日志分析
本課程可以幫助學員掌握如何收集用戶訪問日志,如何對訪問日志進行分析,如何利用大數據計算服務對數據進行處理,如何以圖表化的形式展示分析后的數據。

-大數據 - 搭建企業級數據分析平臺
模擬電商場景,搭建企業級的數據分析平臺,用來分析商品數據、銷售數據以及用戶行為等。

-大數據 - 基于LBS的熱點店鋪搜索
本課程可以幫助學員掌握如何在分布式計算框架下開發一個類似于手機地圖查找周邊熱點(POI)的功能,掌握GeoHash編碼原理,以及在地理位置中的應用,并能將其應用在其他基于LBS的定位場景中。
課程中完整的演示了整個開發步驟,學員在學完此課程之后,掌握其原理,可以在各種分布式計算框架下完成此功能的開發,比如MapReduce、Spark。

-大數據 - 基于機器學習PAI實現精細化營銷
本課程通過一個簡單案例了解、掌握企業營銷中常見的、也是必需的精準營銷數據處理過程,了解機器學習PAI的具體應用,指導學員掌握大數據時代營銷的利器---通過機器學習實現營銷。

-大數據 - 基于機器學習的客戶流失預警分析
本課程講解了客戶流失的分析方法、流程,同時詳細介紹了機器學習中常用的分類算法、集成學習模型等通用技能,并使用阿里云機器學習PAI實現流失預警分析。可以幫助企業快速、準確識別流失客戶,輔助制定策略進行客戶關懷,達到挽留客戶的目的。

-大數據 - 使用DataV制作實時銷售數據可視化大屏
幫助非專業工程師通過圖形化的界面輕松搭建專業水準的實時可視化數據大屏,以滿足業務展示、業務監控、風險預警等多種業務的展示需求。

-大數據 - 使用MaxCompute進行數據質量核查
通過本案例,學員可了解影響數據質量的因素,出現數據質量問題的類型,掌握通過MaxCompute(DateIDE)設計數據質量監控的方法,最終獨立解決常見的數據質量監控需求。

-大數據 - 使用Quick BI制作圖形化報表
阿里云Quick BI制作圖形化報表認證課程教你掌握將電商運營過程中的數據進行圖表化展現,掌握通過Quick BI將數據制作成各種圖形化報表的方法,同時還將掌握搭建企業級報表門戶的方法。

-大數據 - 使用時間序列分解模型預測商品銷量
使用時間序列分解模型預測商品銷量教你掌握商品銷量預測方法、時間序列分解以及熟悉相關產品的操作演示和項目介紹。

-云安全 - 云平臺使用安全
阿里云云平臺使用安全認證課程教你了解由傳統IT到云計算架構的變遷過程、當前信息安全的現狀和形勢,以及在云計算時代不同系統架構中應該從哪些方面利用云平臺的優勢使用安全風險快速降低90%。

-云安全 - 云上服務器安全
阿里云云上服務器安全認證課程教你了解在互聯網上提供計算功能的服務器主要面臨哪些安全風險,并針對這些風險提供了切實可行的、免費的防護方案。

-云安全 - 云上網絡安全
了解網絡安全的原理和解決辦法,以及應對DDoS攻擊的方法和防護措施,確保云上網絡的安全。

-云安全 - 云上數據安全
了解云上數據的安全隱患,掌握數據備份、數據加密、數據傳輸安全的解決方法。

-安全 - 云上應用安全
了解常見的應用安全風險,SQL注入原理及防護,網站防篡改的解決方案等,確保云上應用的安全。

-云安全 - 云上安全管理
了解云上的安全監控方法,學會使用監控大屏來監控安全風險,并能夠自定義報警規則,確保隨時掌握云上應用的安全情況。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容