查看數(shù)據(jù)基本情況
data<-read.csv("/Users/xxx/Desktop/whitewine.csv",sep=",",header = TRUE)
head(data)
class(data)
str(data)
library(mice)
library(VIM)
md.pattern(data)
aggr(data,prop=F,numbers=T)
可以看出缺失兩個,那么就要去掉
data<-data[-which(is.na(data[,2])),] aggr(data,prop=F,numbers=T)
單變量分析
由于我們最關(guān)注葡萄酒質(zhì)量分布情況,所以對質(zhì)量進(jìn)行單變量分析
ggplot(aes(x=quality),data=data) + geom_bar()+scale_x_continuous(lim=c(3,9),breaks = seq(3,9,1))
呈正態(tài)分布,很好
雙變量分析
ggplot(data,aes(x=quality,y=density,group=quality))+geom_boxplot() ?
糟糕,看到了離群值,刪去
ylim1<-boxplot.stats(data$density)$stats[c(1, 5)]
ggplot(data = data,aes(x=quality,y=density,group=quality))+geom_boxplot()+
coord_cartesian(ylim = ylim1)
多變量分析
ggplot(aes(x = alcohol, y = density, color = factor(quality)), data = data) +
? geom_jitter(alpha = 0.2) +
? scale_color_brewer(palette = "Blues") +
? geom_smooth(method = "lm", se = FALSE,size=1) +
? ylim(0.985, 1.005) +
? labs(y = 'Density',x = 'Alcohol') +
? ggtitle("density VS alcohol VS quality")
由于quality是等序變量,所以用不同顏色的漸變表示
ggplot(data,aes(x=alcohol,y=density,colour=factor(quality)))+geom_point()+facet_wrap(~quality)
想要原始數(shù)據(jù),就在下面點個喜歡吧,然后留言就可以了~
6.1日更:最近事多沒上簡書,忽然發(fā)現(xiàn)好多人要數(shù)據(jù)集。
由于原創(chuàng)不易,你點個喜歡,然后就可以私信向我要數(shù)據(jù)集了,算是對我的支持吧。