在學習了《R語言實戰》第四章及視頻課之后,便想利用所學知識對自己的專業進行表格分析。不管行不行吧,先拿個表格練練手再說。
選取的是某天從網上看到的二線城市的綜合維度表格。
這個表格是圖片,所以第一步是自己輸入為excel表格。
第二步是導入excel文件,我練習了三種辦法:
1. 粘貼 ?read.table(“Clipboard”)
2. 將excel存為csv文件:mydata<-read.table("third.csv",header=FALSE,sep=",")
直接導入excel文件
library(readxl)
setwd("E:\\")
mydata<-read_excel("third.xlsx")
文件導入很順利,但出現以下問題:
1.計算機無法將所有內容當做數值型參數,即使我特定的選取了某些列,來計算平均值等也無法輸出。除非把表頭的字符都省掉,比如mydata<-mydata[-1]這個語句,把第一列去掉。
如果重新手動輸入,也可以建立一個沒有字符的數據框。暫時只用了本輪漲幅、人口規模、所在省人口,人均GDP這四個指標。
輸出如下:
這樣當然可以計算平均值。
然后試著做了一下線性分析:選取第一列本輪漲幅,和第二列人口規模
線性分析的截距還看不出來,
散點圖如下:可見這些二線城市人口規模比較集中,但漲幅有高有低。
再然后練習了一下結對的散點圖
>pairs(mydata[,1:4])
>plot
好像也不存在線性關系。第二列的散點圖比較垂直,是因為這些二線城市的人口規模多集中在800-1000萬的人口之間。
繼續努力,這篇遲點改進,比如加入其它指標,或者分析其它關系。所以算是未完待續吧。
如果能指正本小白,為什么導入excel表后,header第一行和第一列都是字符的情況下,如何算出平均數等,那就太好了,感恩~