NHANES數(shù)據(jù)庫介紹及使用(四)--真的不從描述性分析開始學(xué)嗎?

最近在忙GWAS里imputation的事情,更新一直拖到了現(xiàn)在。還是要說一句抱歉,不過可以分享的內(nèi)容又變多了,先挖個坑,過幾天填~

1. NHANES中描述分布及正態(tài)性
我們還是以官方教程提供的數(shù)據(jù)和代碼為參考,同時加上簡單隨機(jī)抽樣代碼以及Nhanes中復(fù)雜多階段概率抽樣代碼,便于大家比較

  • dataset鏈接地址
https://wwwn.cdc.gov/nchs/data/tutorials/analysis_data.sas7bdat
  • SAS代碼
PROC UNIVARIATE normal data=ANALYSIS_DATA; /*常見簡單隨機(jī)抽樣數(shù)據(jù)Univariate過程*/
where ridageyr >= 20;
VAR lbxtc;   
title "Distribution of cholesterol: NHANES 1999-2002";           
run;

PROC UNIVARIATE normal data=ANALYSIS_DATA; /*Nhanes中官方推薦的Univariate過程*/
where ridageyr >= 20;
VAR lbxtc;  
freq wtmec4yr;  
title "Distribution of cholesterol: NHANES 1999-2002";           
run;
  • 結(jié)果展示


    簡單隨機(jī)抽樣數(shù)據(jù)Univariate過程結(jié)果

    Nhanes中官方推薦的Univariate過程
  • 一點(diǎn)總結(jié)
    有朋友應(yīng)該已經(jīng)發(fā)現(xiàn)區(qū)別了,代碼里面多了freq這一句,之后輸出的結(jié)果均數(shù)、中位數(shù)略有差距,正態(tài)性檢驗(yàn)的結(jié)果基本一致(非正態(tài),不過正態(tài)性檢驗(yàn)對于正態(tài)性要求比較高,稍微偏離正態(tài)P值就會<0.05)


2. NHANES中均數(shù)計(jì)算

  • dataset和之前一樣
  • SAS代碼
proc surveymeans data=ANALYSIS_DATA;  missing min max median mean clm;  /*clm表示輸出mean的95%置信區(qū)間*/
    stratum sdmvstra;
    cluster sdmvpsu;
    weight wtmec4yr; 
    var  lbxtc;  
run;
  • 結(jié)果輸出



  • 一點(diǎn)總結(jié)
    surveymeans輸出是mean,standard error以及95% CI,并不是常見的mean,standard deviation。standard error與standard deviation是完全不同的概念,前者會小很多,不要誤用

3. NHANES中頻率計(jì)算

  • dataset(進(jìn)行變量賦值)
data ANALYSIS_DATA_1;
set ANALYSIS_DATA;
where ridageyr >= 20;
age = .;
if 20 LE ridageyr LE 39 then age=1;
if 40 LE ridageyr LE 59 then age=2;   
if ridageyr GE 60 then age=3;  
race=.;
if ridreth1=3 then race=1;
if ridreth1=4 then race=2; 
if ridreth1=1 then race=3;
if ridreth1=2 or ridreth1=5 then race=4;
run;
  • SAS代碼
proc surveyfreq data=ANALYSIS_DATA_1;
    stratum sdmvstra;
    cluster sdmvpsu;
    weight wtmec4yr; 
    tables age*race/nototal nowt  nocellpercent col row ;
run;
  • 結(jié)果輸出


  • 一點(diǎn)總結(jié)
    因?yàn)橛玫膕urvey過程,仍然會有standard error的結(jié)果輸出

4. 參考內(nèi)容

https://wwwn.cdc.gov/nchs/nhanes/tutorials/samplecode.asp

大家對于教程有什么建議或者意見可以寫評論或者發(fā)私信,我看到后再調(diào)整更新內(nèi)容。這期對內(nèi)容做了一點(diǎn)調(diào)整,相對來說概念更少,更多的是可以實(shí)操的例子。

后期Nhanes更新的初步規(guī)劃是t檢驗(yàn)、方差分析及卡方→線性回歸和logistic回歸→cox回歸→不同周期數(shù)據(jù)集合并及注意事項(xiàng)……
中間會穿插GWAS的內(nèi)容,主要是數(shù)據(jù)前處理的部分,第一期是Windows電腦Linux系統(tǒng)及常見工具(plink, bcftools, vcftools, vcfcooker, eagle, minimac4)安裝

不要忘了點(diǎn)贊哈~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。