介紹
最近在網易云上找歌聽,發現比較熱門的歌曲一般評論數比較多,于是想著用爬蟲去爬歌曲中的評論數,順便找找好聽的歌曲的同時分析熱門歌曲的特點。
首先我根據所有歌單中的歌曲去爬取評論數,并保存評論數超過10000的歌曲,爬取結果按評論數排序,以下各種分析基于截止到2017年2月22日的爬取結果,如下圖所示(排名前50首):
周杰倫同志不負眾望的奪得了排行榜第一的位置!然后前五十很多來自最近一兩年非常紅的綜藝大咖薛之謙和一些老牌歌手,從排名的情況可以簡單看出,一般很紅或者曾經很紅的歌手的歌曲或者風格特殊的歌曲會更容易引發人評論。歌手熱門歌曲數排名如下圖所示:
看了一下排行榜前50,主要分為民謠歌手、熱門歌手、情懷歌手、小眾歌手,根據每個歌手熱門歌曲分析特征(以中文歌曲為主、不考慮版權因素沒有的歌曲):
首先我們來分析一下熱門歌手的一些特點
提取評論數大于10000的歌曲并統計每一個歌手熱門歌曲數,熱門歌曲精確評論數。得到結果如下圖所示(橫軸為熱門歌手的熱門歌曲數,縱軸為歌手歌曲平均熱度
由圖中可以看到周杰倫熱門歌曲數遠遠超過其他人,從抓取到專輯時間來看,第一張同名專輯Jay(2000-11-07)到最新的專輯周杰倫的床邊故事(2016-06-24),跨過了21世紀的第一個十年,平均每張專輯有6首熱門歌曲,而每張專輯一般10首歌左右,這意味著什么呢?也就是說周杰倫每發一張專輯,走過街邊小巷你都能聽到熟悉的聲音。
陳奕迅熱門歌曲主要是經典老歌,如下表所示:
排名上更多都是國語歌,但小編覺得醫生的粵語歌才更能體現一種歲月的感覺。就好比大家都看過的那篇文章《這十年,有多少人從周杰倫到陳奕迅》所講。
其他熱門歌手大部分都是有很強的自我風格的歌手,如林俊杰、BIGBANG、Alan Walke等等,另外一部分有實力但比較小眾,缺乏大舞臺,音樂得不到發現,在經歷過某些事件后得到爆發(如趙雷、鄧紫棋)。如下圖所示(來自趙雷的歌曲《理想》):
由上圖可見,《理想》這首歌創作于2014年,當時每天評論數幾十條左右,隨著時間的推移,2017年趙雷參加了《歌手》演唱了這首歌,隨著而來歌曲每天評論數飆增,最高時達到13401,之后趨于每天平均300左右評論??梢姡粋€好的平臺對一個歌手來說是多么重要。
分析了熱門歌手我們再來分析一下熱門歌曲
為了搞清楚熱門歌手歌曲特點,我爬取了所有熱門歌曲歌詞并進行分詞、去重等處理,得到歌曲特征。以周杰倫為例:
周杰倫的歌曲中很大一部分以描述凄美的場景來表達逝去的愛情為主,歌詞里出現比較多的如回。憶、離開、時間、眼淚、等待、沉默、思念、心碎、歲月、挽回、無奈等等
“回憶”出現的歌詞:
“離開”出現的歌詞:
詞語出現權重直方圖如下圖所示:
結合以上分析,將熱門歌手歌曲類型根據歌詞內容按機器學習相關分類算法進行分類(悲傷、中性、積極),結果如下圖所示(挑選了幾個有代表性的歌手):
從結果可以看出周杰倫主要還是以情歌為主,輔以一些中國風的歌曲和說唱R&B,而薛之謙的歌大部分都是很傷感的歌曲,歌詞如掩飾、難過、害怕、犧牲,而民謠歌手趙雷更多的是緩緩吟唱,歌詞如依依不舍、溫柔、輕吻,許嵩則大部分歌曲都是中國風,有批判現實的、但大部分還是以物述事、借景抒情。
最后分析熱門歌曲評論
一般我們可以認為一首歌的評論能夠反映聽眾對這首歌曲的直觀感受,而網易云音樂上評論多且有趣。例如薛之謙的歌曲《演員》下面的精彩評論:
于是我爬取熱門歌曲下的評論,分析歌曲帶給人的感受。將評論類型分為懷舊、流行、共鳴。分別對應的時間節點為過去、現在、平穩時間點。抓取熱門歌曲評論建立詞向量空間模型進行聚類。得到結果如下圖所示:
其中共鳴評論為表達對歌曲的直接感受的評論,懷舊評論更多是回憶聽這首歌的場景和一些無關歌曲的評論,流行評論可能是明星帶來的明星效應,或者電視節目的宣傳等等的評論,這個結果說明一首熱門的歌曲最重要的還是出彩的詞曲唱,能讓人產生共鳴,找到自己,一些宣傳和明星效應還是輔助。
結論
分析了一下熱門歌曲的一些特征后,我們可以嘗試著去思考一下,在一個信息急速傳播的時代,怎么創作一首歌才能更容易被大眾所接受、喜歡。首先你要紅啊,要能讓大家聽到你的作品;其次你的歌曲要用強烈的區分度和特色;再者你的歌詞能讓人產生共鳴;最后,如果什么xx歌手能演唱你的作品,那你就離出名不遠啦。
?更多債券及大數據金融風控資訊,請關注“itSaiD 它說”