R for Data Science
tidy流處理數據的方便,我想這與管道符%>% 的使用,數據處理動詞化,有著很重要的關系。
自己之所以寫這些,主要是考慮只有把東西講出來,才能真正學會。通過筆記的形式,讓自己真正把R數據處理的能力提高。
summarise()函數
其實我平時對這個函數的使用不是很多,主要是因為不太做數據歸納及歸納作圖的事情。但是這個函數我覺得強大之處就是和group_by()函數連用。
elays <- flights %>%
group_by(dest) %>%
summarise(
count = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE)
) %>%
filter(count > 20, dest != "HNL")
上面這段代碼,用到了管道符 %>%, 可以理解為“then”(然后)這側重于轉換,而不是正在轉換的內容,這使代碼更易于閱讀。而和group_by()結合,將一個整體數據分割成預想的數據樣式,而不重新創建新的變量,減少內存的占用量。
count()用來總結數據,同時也可以再summarize里面創建新的變量。
相較于summarize函數,我個人平時使用頻率高的主要是table()函數,只是單純看一下數據的量的多少,個人習慣。
歡迎指正