流程:
1.DrissionPage采集知音漫客約2萬條國產動漫數據存入mysql數據庫;
2.Mapreduce對采集的動漫數據進行數據清洗、拆分數據項等,轉為.csv文件上傳hadoop的hdfs集群;
3.hive建庫建表導入.csv動漫數據;
4.一半指標使用hive_sql分析得出,一半指標使用Spark之Scala完成;
5.sqoop對分析結果導入mysql數據庫;
6.Flask+echarts搭建可視化大屏;
創新點:Python全新DrissionPage爬蟲使用、海量數據、爬蟲、可視化大屏、離線hive+實時Spark雙實現
可選裝:推薦系統、預測系統、知識圖譜、后臺管理等。
1.png
2.png
3.png
8.png
9.png
10.png
11.png
12.png