流程:
1.Python爬取去哪兒網全站旅游數據約10萬+,存入mysql;
2.使用pandas+numpy/hadoop+mapreduce對mysql中旅游數據進行數據清洗,使用高德API計算地理信息,最終轉為.csv文件上傳hdfs;
3.hive建庫建表導入.csv文件作為數據集;
4.一半指標使用離線hive_sql分析完成,一半指標使用實時Spark之Scala完成;
5.分析結果使用sqoop導入mysql;
6.使用Flask+echarts構建可視化大屏;
創新點:大屏可視化、Python爬蟲、高德地圖、Spark實時計算、Hadoop+Hive離線計算全部實現
選裝(如果覺得功能太簡單或者工作量不夠)-->推薦系統、預測系統、知識圖譜、后臺管理
實現界面如下:
1.png
2.png
4.png
19.png
23.png
25.png
26.png
6.png
7.png
8.png
9.png