觀察其變量。
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
整個數據集有13個變量,1599個觀察值。
單變量分析
## 3 4 5 6 7 8
## 10 53 681 638 199 18
紅葡萄酒分布在最好和最差的比較少,而分布在中間的比較多。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
大多數葡萄酒的固定酸度位于7-9(g/dm3)之間。中位數為7.9g/dm3,平均值為8.32g/dm^3。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
大多數可溶性酸度都位于0.3-1.8(g/dm^3)之間。而從兩張直方圖中我猜想揮發性酸度可能和可溶性酸度和質量之間可能存在很深的關系。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
##
## 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14
## 132 33 50 30 29 20 24 22 33 30 35 15 27 18 21
## 0.15 0.16 0.17 0.18 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29
## 19 9 16 22 21 25 33 27 25 51 27 38 20 19 21
## 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44
## 30 30 32 25 24 13 20 19 14 28 29 16 29 15 23
## 0.45 0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59
## 22 19 18 23 68 20 13 17 14 13 12 8 9 9 8
## 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 0.71 0.72 0.73 0.74
## 9 2 1 10 9 7 14 2 11 4 2 1 1 3 4
## 0.75 0.76 0.78 0.79 1
## 1 3 1 1 1
檸檬酸相對于其他兩種酸的含量較少,可以看出大多數都處在0-0.5(g/dm^3)之間。
從圖中可以看出,糖量有一些異常值,對異常值進行處理,把圖像放大。
糖量大部分都在1-4(g/dm^3)之間。
查閱資料中發現,糖酸比是影響評價指標的一個重要因素,糖酸比指總糖和總算的比值。所以我將定義一個新的變量糖酸比。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1053 0.2117 0.2482 0.2854 0.3008 2.0807
新定義的變量糖酸比(ratio)在繪制直方圖時發現存在異常值。將異常值進行處理,將圖像放大。
將糖酸比的圖放大之后,可以看出糖酸比大多數位于0.2-0.3之間,和質量之間可能存在著聯系。
改變長尾數據,游離二氧化硫呈現近似正態分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
游離二氧化硫大部分值在7-21(mg/dm^3)之間。
改變長尾數據,總二氧化硫的數量呈現一個比較好的正態分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
總二氧化硫的數量大多在22-70(mg/dm^3)之間。
pH值呈現很好的正太分布,大多數都位于3.2-3.5之間。呈現酸性。整個pH值變化不大,而評分是依據味覺來判定的,可能嘗不出來酸度的變化。
硫酸鹽的含量大部分在0.5-0.8(mg/dm^3)之間。 硫酸鹽是添加劑,是作為保鮮劑使用的,添加量和其中糖的含量有關系,所以這項指標可能和評分沒有直接相關。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
酒精含量大多數位于8-12之間,中位數為10.2,平均值為10.42。酒精含量大部分區別不大,但是酒精含量是由葡萄酒發酵程度決定的,所以酒精含量的變化應當和最終的評分有密切的關系。
單變量分析小結
在數據集中有1599種紅酒,具有11個特征,即11個輸入變量,包括:固定酸度、揮發酸度、檸檬酸、殘糖、氯化物、游離二氧化硫、二氧化硫總量、密度、pH、硫酸鹽、酒精。以及一個有序因子,即輸出變量質量。 其中質量分為3、4、5、6、7、8這幾個級別。 其他意見; * 大多數紅酒的評級在5、6、7之間。 * 酒精含量的中位數為10.2。 * PH值大多位于3.2-3.5之間。
數據集的主要特征是質量和酒精。可能酒精和其他變量的組合可以更好的預測質量。
在進行糖酸比的繪圖的時候,我將其中一部分過大的數據去除了,因為那一部分的糖酸比似乎過大了。 在進行游離二氧化硫和二氧化硫總量的繪圖的時候,將長尾數據通過log轉換為近似正態分布的數據,是為了更好的看出該數據的特征。
雙變量分析
從數據圖中可以看出,酒精似乎和質量的相關性較強,而所創建的新變量糖酸比似乎和質量的相關性不高。但是還是想看看這些變量和質量的一些關系。
首先先畫出質量與酒精濃度的圖。
隨著酒精濃度的增加,似乎一個酒精濃度能對應很多個質量的酒精,但將其過度繪制后,能看出酒精和質量具有一定的相關性。
經過散點圖的繪制,發現單純的散點圖并不能特別清楚的表現變量之間的關系,而質量又是分等級的,所以將其作為分類變量,進行進一步的處理。
##
## Calls:
## m1: lm(formula = I(quality) ~ I(alcohol), data = wr)
## m2: lm(formula = I(quality) ~ I(ratio), data = wr)
## m3: lm(formula = I(quality) ~ I(free.sulfur.dioxide), data = wr)
## m4: lm(formula = I(quality) ~ I(total.sulfur.dioxide), data = wr)
## m5: lm(formula = I(quality) ~ I(total.sulfur.dioxide), data = wr)
## m6: lm(formula = I(quality) ~ I(pH), data = wr)
##
## =============================================================================================
## m1 m2 m3 m4 m5 m6
## ---------------------------------------------------------------------------------------------
## (Intercept) 1.875*** 5.668*** 5.698*** 5.847*** 5.847*** 6.636***
## (0.175) (0.040) (0.037) (0.034) (0.034) (0.433)
## I(alcohol) 0.361***
## (0.017)
## I(ratio) -0.111
## (0.123)
## I(free.sulfur.dioxide) -0.004*
## (0.002)
## I(total.sulfur.dioxide) -0.005*** -0.005***
## (0.001) (0.001)
## I(pH) -0.302*
## (0.131)
## ---------------------------------------------------------------------------------------------
## R-squared 0.2 0.0 0.0 0.0 0.0 0.0
## adj. R-squared 0.2 -0.0 0.0 0.0 0.0 0.0
## sigma 0.7 0.8 0.8 0.8 0.8 0.8
## F 468.3 0.8 4.1 56.7 56.7 5.3
## p 0.0 0.4 0.0 0.0 0.0 0.0
## Log-likelihood -1721.1 -1926.2 -1924.6 -1898.8 -1898.8 -1924.0
## Deviance 805.9 1041.6 1039.5 1006.5 1006.5 1038.7
## AIC 3448.1 3858.4 3855.2 3803.5 3803.5 3853.9
## BIC 3464.2 3874.6 3871.3 3819.7 3819.7 3870.1
## N 1599 1599 1599 1599 1599 1599
## =============================================================================================
從上述圖中可以看出。質量會隨著酒精濃度,硫酸鹽的添加量以及pH值的變化而變化。其中,在質量為5的時候,不呈現酒精濃度反而下降了,因為這是專家主觀測試,而且還存在很多異常值,所以這個下降可以忽略掉。 我通過查閱資料獲得的糖酸比這一屬性似乎與質量評比沒有關系。可能是因為這是專家主觀評審,而糖酸比是需要機器測定的,用來客觀評價葡萄酒的,所以可能是在這個數據中沒有關聯的原因。 然而,糖分和酸度應該對口感都有影響,所以,我針對這幾個變量在繪制其箱線圖,看看他們的關系。
##
## Calls:
## m7: lm(formula = I(quality) ~ I(alcohol), data = wr)
## m8: lm(formula = I(quality) ~ I(volatile.acidity), data = wr)
## m9: lm(formula = I(quality) ~ I(citric.acid), data = wr)
## m10: lm(formula = I(quality) ~ I(residual.sugar), data = wr)
##
## ===================================================================
## m7 m8 m9 m10
## -------------------------------------------------------------------
## (Intercept) 1.875*** 6.566*** 5.382*** 5.616***
## (0.175) (0.058) (0.034) (0.042)
## I(alcohol) 0.361***
## (0.017)
## I(volatile.acidity) -1.761***
## (0.104)
## I(citric.acid) 0.938***
## (0.101)
## I(residual.sugar) 0.008
## (0.014)
## -------------------------------------------------------------------
## R-squared 0.2 0.2 0.1 0.0
## adj. R-squared 0.2 0.2 0.1 -0.0
## sigma 0.7 0.7 0.8 0.8
## F 468.3 287.4 86.3 0.3
## p 0.0 0.0 0.0 0.6
## Log-likelihood -1721.1 -1794.3 -1884.6 -1926.5
## Deviance 805.9 883.2 988.8 1042.0
## AIC 3448.1 3594.6 3775.2 3859.0
## BIC 3464.2 3610.8 3791.3 3875.1
## N 1599 1599 1599 1599
## ===================================================================
從上述圖中可以看出,揮發性酸度與質量呈現比較強的反比關系,似乎是變量之中關系最強的,而檸檬酸與質量呈現正比關系,查閱資料可知,揮發性酸度過高會導致不愉快的醋味,檸檬酸可以增加葡萄酒的新鮮度和風味,這些都是能通過嗅覺及味覺感受出來的,所以可能被作為了專家評分的標準之一。
雙變量分析小結
我觀察到質量與酒精濃度、硫酸鹽的含量以及檸檬酸的含量呈正比關系,而與揮發性酸度及pH值呈反比關系。
其中質量和揮發性酸度有很強的負相關關系,此外,質量與酒精也有比較強的正相關關系。
觀察到糖酸比這個屬性似乎與質量沒有關聯。并且糖量這個屬性似乎與質量也沒有什么關系,可能是含糖量太少,以致嘗不出甜味的緣故。
檸檬酸和pH值有較強的反比關系。可能是檸檬酸的酸性較弱,其存在會提高葡萄酒的pH值。
多變量分析
在這張圖中,當酒精濃度比較低時,不管揮發性酸如何變化,質量都不高,當揮發性酸比較高時,不管酒精濃度如何變化,質量也不會高。只有在兩者都在比較好的區間內,質量才會比較好。
再繪制其他相關特征的圖
從以上圖可以看出,三個變量之間的關聯性不大,在揮發性酸和酒精濃度極高或極低的時候,基本上評分就取決于這兩者。在只有在兩者都居中時,評分才會收到其他因素的影響。 因此,專家的評分可能是根據以下的線索,如果酒精濃度和揮發性酸出現問題的時候,會直接根據這兩個因素給予評分,當這兩個因素沒有太大問題的時候,就會考慮其他的加分項和減分項。
多變量分析小結
第三個變量的加入對最后的判斷似乎影響不大。只有其中的某個值偏大或偏小的時候,評分才會受到這個值的影響。
最終圖及總結
圖1
大部分評分都在中間的5和6之中,相對較低和較高的評分都比較少,專家評分可能是根據某一項或幾項特征特別好或不好來進行加減分的,而大部分酒都沒有突出的地方。
圖2
具有較高質量的紅酒有較高的酒精濃度或較低的揮發性酸,而低質量的紅酒則酒精濃度比較低或揮發性酸比較高。
圖3
這張圖表示,單一變量的影響遠遠大于兩個變量的共同影響,只有在酒精濃度不低,揮發性酸不高的情況下,質量才會比較不錯。因此說明在一個變量出現很大問題的情況下,不管其他變量如何變化,質量都不會有太大的變化,因此專家評分的邏輯可能是這樣的,當一個變量很差的時候,不管其他變量如何好,基本上評分不會太高,而只有當其他變量都一般甚至特別好的時候,一個變量特別好才會使評分比較好。
反思總結
紅酒數據集包括12個變量,1599瓶紅酒的信息。 一開始我進行了每個變量的分析,然后把其中的一些變量和質量放在一起進行分析,最后進行了兩個變量和紅酒質量的分析,試圖尋找其中的相關性。 在一開始我進行單一變量分析的時候,引入了一個新的變量:糖酸比(ratio),但是在進行相關性分析的時候,發現這個變量和最后的評分基本沒有相關性可言,我認識到客觀評價可能和主觀評價的結果有一定區別,所以放棄了這個變量,將構成這個變量的幾個變量重新和紅酒質量進行相關性分析,找出來與紅酒質量相關性比較大的變量:揮發性酸(volatile.acidity)。 在進行雙變量分析的過程中,我一開始使用的散點圖進行分析,但是沒能很好的發現變量之間的相互關系,后來把質量看成一個分類變量,用箱線圖進行分析,雙變量之間的相互關系就有了一個比較清楚的可以表示出來的圖。 在進行多變量之間的關系的時候,發現不管那三個變量,都沒有很清晰的關系,后來我考慮到質量是一個主觀的評價,所以我做出了大膽的假設:當一個變量很差的時候,不管其他變量如何好,基本上評分不會太高,而只有當其他變量都一般甚至特別好的時候,一個變量特別好才會使評分比較好。并且圖中表示的關系也能夠證明我的假設。 在分析過程中,對本來很多不太了解的統計學知識比如r2,比如箱線圖有了更深一層次的了解。成功的自學了如何在R中創建函數。在研究變量之間相互關系的時候,發現了新創建的變量糖酸比和和糖量的關系非常大,而含糖量和最后的質量評分關系卻不大,我猜想這可能和人的味覺有關,人能夠清晰地感知酸但是可能對甜要超過一定限度才會清楚的感知到,可能人們感到酸時,酸只有很小的一部分,而感到甜時,糖已經有很多了。這也可能是揮發性酸能很大程度影響最后評分的原因。 對于未來的工作方面,我需要加強統計學方面的學習,對于統計學很多方面知識的不熟悉導致分析過程不太順利,甚至影響到了最后的結果,所以,統計學等數學知識是我急需補充的。另外,編程的能力也需要大大提高,對于ggplot這個庫還需要更多的學習,以便畫圖時候更加輕松。
參考資料:R for Data Science