流程
- selenium爬取慕課網的課程、章節、評論數據集分別存兩個地方:mysql數據庫[便于后期選裝推薦、預測算法、知識圖譜、后臺]、.csv文件;【需要注意的是慕課網評分不準,需要使用深度學習知識NLP模型進行文本分類、情感分析!!!】
- 將.csv上傳到hdfs中,并使用hive建表后導入.csv數據;
- 9個指標,一半使用spark/scala去做實時計算分析。一半使用hive_sql進行分層離線處理計算,并使用sqoop把hive分析結果導入mysql;
-
最終使用flask+echarts制作可視化統計大屏圖;
1.png
2.png
3.png
7.png
8.png
創新點
NLP模型進行文本分類情感分析、Python爬蟲采集50萬+數據集、可視化大屏、spark+hive離線計算實時計算混合開發雙實現防止被導師噴
注意:如果導師或者你個人還覺的這個項目工作量不夠,可以選裝推薦系統、預測系統、知識圖譜、后臺管理,我保證無縫銜接1秒內安裝+選裝成功!因為下面的系統和現在的可視化系統是姊妹關系,共用數據庫表、CSV等,直接可以對接上!如下↓
1.png
2.png
3.png
4.png
5.png
6.png
10.png
12.png
15.png
23.png
24.png
25.png