利用R語言做菜鳥級表格分析

在學習了《R語言實戰》第四章及視頻課之后,便想利用所學知識對自己的專業進行表格分析。不管行不行吧,先拿個表格練練手再說。

選取的是某天從網上看到的二線城市的綜合維度表格。

圖片來自網絡

這個表格是圖片,所以第一步是自己輸入為excel表格。

第二步是導入excel文件,我練習了三種辦法:

1. 粘貼 ?read.table(“Clipboard”)

2. 將excel存為csv文件:mydata<-read.table("third.csv",header=FALSE,sep=",")

直接導入excel文件

library(readxl)

setwd("E:\\")

mydata<-read_excel("third.xlsx")

文件導入很順利,但出現以下問題:

1.計算機無法將所有內容當做數值型參數,即使我特定的選取了某些列,來計算平均值等也無法輸出。除非把表頭的字符都省掉,比如mydata<-mydata[-1]這個語句,把第一列去掉。

如果重新手動輸入,也可以建立一個沒有字符的數據框。暫時只用了本輪漲幅、人口規模、所在省人口,人均GDP這四個指標。

輸出如下:

這樣當然可以計算平均值。


然后試著做了一下線性分析:選取第一列本輪漲幅,和第二列人口規模


線性分析的截距還看不出來,

散點圖如下:可見這些二線城市人口規模比較集中,但漲幅有高有低。

再然后練習了一下結對的散點圖

>pairs(mydata[,1:4])

>plot


好像也不存在線性關系。第二列的散點圖比較垂直,是因為這些二線城市的人口規模多集中在800-1000萬的人口之間。

繼續努力,這篇遲點改進,比如加入其它指標,或者分析其它關系。所以算是未完待續吧。

如果能指正本小白,為什么導入excel表后,header第一行和第一列都是字符的情況下,如何算出平均數等,那就太好了,感恩~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容