R語(yǔ)言-13數(shù)據(jù)標(biāo)準(zhǔn)化與初步統(tǒng)計(jì)

將數(shù)據(jù)標(biāo)準(zhǔn)化或中心化

#標(biāo)準(zhǔn)化,減去均值再除以均方根,scale設(shè)為FALSE的時(shí)候是中心化,也就不除均方根
scmean <- scale(allmean[,2:17], center = TRUE, scale = TRUE)

求第2列的方差、平均值

sd(data[,2])
mean(data[,2])

簡(jiǎn)單分類(lèi)統(tǒng)計(jì)

引入plyr包
library(plyr)

按pic列和audios列分類(lèi)統(tǒng)計(jì)
count(data1, c(data1$pic,data1$audios))
按pic列分類(lèi),對(duì)reposts_count列求和,計(jì)算帶有不同圖片數(shù)的轉(zhuǎn)發(fā)次數(shù)和
a <- aggregate(data$reposts_count, data[13], sum) #data[13]為pic_num列
求帶1、2、3等不同圖片數(shù)的微博的平均reposts_count數(shù)
ave_count <- (a$x)/(count(data$pic_num)$freq)
將得到的新列添加至原有表中,并繪圖

a <- cbind(a$pic_num,round(ave_count,0)) #round保留0個(gè)小數(shù)
a <- data.frame(a) #如果要plot,則要先轉(zhuǎn)換成數(shù)據(jù)框
plot(a$pic_num,a$ave_reposts_count)

利用aggregate函數(shù)根據(jù)某列值分組,對(duì)多列求平均
根據(jù)第5列值分組,對(duì)5至11列應(yīng)用foo函數(shù),foo函數(shù)的作用是求平均值并保留小數(shù)點(diǎn)后2位

foo <- function(x){a<- mean(x);a<-round(a,2);return(a)}
part2 <-aggregate(c[5:11], by=list(sample=c[,5]), foo)

利用apply函數(shù)進(jìn)行數(shù)據(jù)初步分類(lèi)統(tǒng)計(jì)并繪制頻數(shù)分布直方圖

i = c(4,5,6,9,12,13,14,15,16,17,18,19) #i存儲(chǔ)需要處理的列數(shù)
apply(data[,i],2,mean)   #對(duì)第i列以列的方式求平均數(shù)
apply(data[,i],2,summary)
par(mfrow=c(2,3))  #把畫(huà)布分為兩行三列,mfrow表示以行優(yōu)先填充
a <- i[1:6];b <- i[7:15]
names(data[2])  #獲取第二列的索引名
for(i in a) {hist(sort(data[,i]), col='lightblue',main=paste('The distribution of ',names(data[i])),ylab="count",xlab=names(data[i]),labels=TRUE,xlim=c(0,200000),ylim=c(0,3000));+
plot(density(data[,i]),main='',xlab='',ylab='',xaxt='n',yaxt='n')} #循環(huán)繪制hist密度分布圖

apply和lapply常遇錯(cuò)誤

#apply常發(fā)生dim(X)的值必需是正數(shù),
dimnames(x)[[1]] <- letters[1:8]
#lapply常用于數(shù)組
foo <- function(x){if(x!=0){round(log(x),0)}else{x=x}} #不加else的內(nèi)容,對(duì)數(shù)組lapply時(shí),x=0時(shí)經(jīng)過(guò)此函數(shù)x將轉(zhuǎn)換成null
topic <- unlist(lapply(data$topic,foo))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • http://blog.sina.com.cn/s/blog_6bc5205e0102vma9.html inst...
    付德剛Q閱讀 3,070評(píng)論 0 3
  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類(lèi): pyspark.sql...
    mpro閱讀 9,487評(píng)論 0 13
  • 教程一:視頻截圖(Tutorial 01: Making Screencaps) 首先我們需要了解視頻文件的一些基...
    90后的思維閱讀 4,744評(píng)論 0 3
  • 每個(gè)人都喜歡聽(tīng)到贊美,在顧客面前贊美導(dǎo)購(gòu)可以使導(dǎo)購(gòu)獲得自信,也可以讓顧客更相信導(dǎo)購(gòu),一舉兩得,何樂(lè)而不為呢?
    f961ff2e749a閱讀 179評(píng)論 0 0
  • 巒嶂煙沉,且霧雨山浮,林嵐搖蔚。 一江兩岸,三亭四閣,幾十里蘭香蕙。 燕子歸來(lái),剪尾影、空裁風(fēng)細(xì)。 鐘鼓樓宇,佇水...
    劉小地閱讀 937評(píng)論 23 54