R語言基礎(chǔ)系列:
tidyverse是一組處理與可視化R包的集合,它們共享通用數(shù)據(jù)表示和API設(shè)計。
tidyverse中的包修改的相當(dāng)頻繁,可以通過運行tidyverse_update()
函數(shù)來檢查是否有更新,并選擇是否更新。
library(tidyverse) #單個命令加載了幾十個包
tidyverse_packages(include_self = TRUE) #查看其中的包
[1] "broom" "cli" "crayon" "dbplyr" "dplyr"
[6] "dtplyr" "forcats" "googledrive" "googlesheets4" "ggplot2"
[11] "haven" "hms" "httr" "jsonlite" "lubridate"
[16] "magrittr" "modelr" "pillar" "purrr" "readr"
[21] "readxl" "reprex" "rlang" "rstudioapi" "rvest"
[26] "stringr" "tibble" "tidyr" "xml2" "tidyverse"
核心包 | 功能 |
---|---|
ggplot2 | 可視化數(shù)據(jù) |
dplyr | 數(shù)據(jù)操作語法,可以用它解決大部分數(shù)據(jù)處理問題 |
tidyr | 清理數(shù)據(jù) |
readr | 讀入表格數(shù)據(jù) |
purr | 提供一個完整一致的工具集增強R的函數(shù)編程 |
tibble | 新一代數(shù)據(jù)框 |
stringr | 提供函數(shù)集用來處理字符數(shù)據(jù) |
forcats | 提供有用工具用來處理因子問題 |
常見功能及對應(yīng)的包和函數(shù)
1. 數(shù)據(jù)導(dǎo)入
- readr:read_csv(), read_tsv(), read_delim()
- readxl:read_xls(), read_xlsx()
- haven:打開SAS 、SPSS、Stata等外部數(shù)據(jù)
- BDI:定義R和數(shù)據(jù)庫管理系統(tǒng)(DBMS)之間的通用接口
- httr:httr的目的是為curl包提供一個包裝器,根據(jù)現(xiàn)代Web API的需求進行定制
- jsonlite:針對統(tǒng)計數(shù)據(jù)和Web優(yōu)化的快速JSON解析器和生成器
- rvest:rvest幫助從網(wǎng)頁中獲取信息
- xxxml2:用于XML
??:read.table()是R自帶的,而read_table()是readr包有的
2. 數(shù)據(jù)整理
- tibble:對data.frame的改進
- tidyr:清洗數(shù)據(jù)
3. 數(shù)據(jù)轉(zhuǎn)換
- dplyr:處理數(shù)據(jù)
- lubridate:處理時間數(shù)據(jù)
- stringr:處理字符串類型
- forcats:處理因子變量
4. 數(shù)據(jù)可視化
- ggplot2:高級數(shù)據(jù)可視化
5. 編程
- magrittr:使代碼更具可讀性的管道
- purr:通過提供一些完整連貫用于函數(shù)和向量的工具集,增強R的函數(shù)編程
6. 處理特定數(shù)據(jù)格式
- hms:輕松閱讀時間
7. 建模
- modelr:提供的功能可以幫助我們在建模時創(chuàng)建優(yōu)雅的管道
- broom:輕松地將模型提取為整潔的數(shù)據(jù)