【轉(zhuǎn)載】基因芯片(Affymetrix)分析1:芯片質(zhì)量分析

TAIR,NASCarray 和 EBI 都有一些公開的免費(fèi)芯片數(shù)據(jù)可以下載。本專題使用的數(shù)據(jù)來自NASCarray(Exp350),也可以用FTP直接下載。下載其中的CEL文件即可(.CEL.gz),下載后解壓縮到同一文件夾內(nèi)。該實(shí)驗(yàn)有1個對照和3個處理,各有2個重復(fù),共8張芯片(8個CEL文件)。

為什么要進(jìn)行芯片質(zhì)量分析?不是每個人做了實(shí)驗(yàn)都會得到高質(zhì)量的數(shù)據(jù),花了錢不一定就有回報(bào),這道理大家都懂。

芯片實(shí)驗(yàn)有可能失敗,失敗的原因可能是技術(shù)上的(包括片子本身的質(zhì)量),也可能是實(shí)驗(yàn)設(shè)計(jì)方面的。芯片質(zhì)量分析主要檢測前者。

1R軟件包安裝

使用到兩個軟件包:affy,simpleaffy:

library(BiocInstaller)biocLite(c("affy","simpleaffy"))

另外還需要兩個輔助軟件包:tcltk和scales。tcltk一般R基礎(chǔ)安裝包都已經(jīng)裝有。

install.packages(c("tcltk","scales"))

2讀取CEL文件

載入affy軟件包:

library(affy)library(tcltk)

選取CEL文件。以下兩種方法任選一種即可。

第一種方法是通過選取目錄獲得某個目錄內(nèi)(包括子目錄)的所有cel文件:

# 用choose.dir函數(shù)選擇文件夾

dir<-tk_choose.dir(caption="Select folder")

# 列出CEL文件,保存到變量?

cel.files<-list.files(path=dir, pattern=".+\\.cel$", ignore.case=TRUE, full.names=TRUE, recursive=TRUE)

# 查看文件名basename(cel.files)

第二種方法是通過文件選取選擇目錄內(nèi)部分或全部cel文件:

# 建立文件過濾器

filters<-matrix(c("CEL file",".[Cc][Ee][Ll]","All",".*"),ncol=2,byrow= T)

# 使用tk_choose.files函數(shù)選擇文件

cel.files<-tk_choose.files(caption="Select CELs",multi=TRUE,filters= filters,index=1)

# 注意:較老版本的tk函數(shù)有bug,列表的第一個文件名可能是錯的

basename(cel.files)


## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"

## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"

## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"

## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"

## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"

## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"

## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"

## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"

讀取CEL文件數(shù)據(jù)使用ReadAffy函數(shù),它的參數(shù)為:

# Not run. 函數(shù)說明,請不要運(yùn)行下面代碼ReadAffy(...,filenames=character(0),widget=getOption("BioC")$affy$use.widgets,compress=getOption("BioC")$affy$compress.cel,celfile.path=NULL,sampleNames=NULL,phenoData=NULL,description=NULL,notes="",rm.mask=FALSE,rm.outliers=FALSE,rm.extra=FALSE,verbose=FALSE,sd=FALSE,cdfname=NULL)

除文件名外我們使用函數(shù)的默認(rèn)參數(shù)讀取CEL文件:

data.raw<-ReadAffy(filenames= cel.files)

讀入芯片的默認(rèn)樣品名稱是文件名,用sampleNames函數(shù)查看或修改:

sampleNames(data.raw)

## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"

## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"

## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"

## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"

## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"

## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"

## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"

## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"

sampleNames(data.raw)<-paste("CHIP",1:length(cel.files),sep="-")sampleNames(data.raw)

## [1] "CHIP-1" "CHIP-2" "CHIP-3" "CHIP-4" "CHIP-5" "CHIP-6" "CHIP-7" "CHIP-8"

3查看芯片的基本信息

Phenotypic data數(shù)據(jù)可能有用,可以修改成你需要的內(nèi)容,用pData函數(shù)查看和修改:

pData(data.raw)

##? ? ? ? sample

## CHIP-1? ? ? 1

## CHIP-2? ? ? 2

## CHIP-3? ? ? 3

## CHIP-4? ? ? 4

## CHIP-5? ? ? 5

## CHIP-6? ? ? 6

## CHIP-7? ? ? 7

## CHIP-8? ? ? 8

pData(data.raw)$Treatment<-gl(2,1,length=length(cel.files),labels=c("CK","T"))pData(data.raw)

##? ? ? ? sample Treatment

## CHIP-1? ? ? 1? ? ? ? CK

## CHIP-2? ? ? 2? ? ? ? T

## CHIP-3? ? ? 3? ? ? ? CK

## CHIP-4? ? ? 4? ? ? ? T

## CHIP-5? ? ? 5? ? ? ? CK

## CHIP-6? ? ? 6? ? ? ? T

## CHIP-7? ? ? 7? ? ? ? CK

## CHIP-8? ? ? 8? ? ? ? T

PM和MM查看:

# Perfect-match probespm.data<-pm(data.raw)head(pm.data)

##? ? ? ? CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8

## 501131? 127.0? 166.3? 112.0? 139.8? 111.3? 85.5? 126.3? 102.8

## 251604? 118.5? 105.0? 82.0? 101.5? 94.0? 81.3? 103.8? 103.0

## 261891? 117.0? 90.5? 113.0? 101.8? 99.3? 107.0? 85.3? 85.3

## 230387? 140.5? 113.5? 94.8? 137.5? 117.3? 112.5? 124.3? 114.0

## 217334? 227.3? 192.5? 174.0? 192.8? 162.3? 163.3? 235.0? 195.8

## 451116? 135.0? 122.0? 86.8? 93.3? 83.8? 87.3? 97.3? 83.5

# Mis-match probesmm.data<-mm(data.raw)head(mm.data)

##? ? ? ? CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8

## 501843? 89.0? 88.0? 80.5? 91.0? 77.0? 75.0? 79.0? 72.0

## 252316? 134.3? 77.3? 77.0? 107.8? 98.5? 75.0? 99.5? 71.3

## 262603? 119.3? 90.5? 82.0? 86.3? 93.0? 89.3? 94.5? 83.8

## 231099? 123.5? 94.5? 76.5? 95.0? 89.3? 87.8? 95.5? 91.5

## 218046? 110.3? 93.0? 74.8? 100.5? 86.0? 89.5? 104.5? 102.3

## 451828? 127.5? 77.0? 80.3? 94.5? 72.3? 79.0? 86.3? 67.8

4顯示芯片掃描圖像(灰度)

# 芯片數(shù)量n.cel<-length(cel.files)par(mfrow=c(ceiling(n.cel/2),2))par(mar=c(0.5,0.5,2,0.5))# 設(shè)置調(diào)色板顏色為灰度pallette.gray<-c(rep(gray(0:10/10),times=seq(1,41,by=4)))# 通過for循環(huán)逐個作圖for(iin1:n.cel)image(data.raw[, i],col= pallette.gray)

如果芯片圖像有斑塊現(xiàn)象就很可能是壞片。

5對灰度值做簡單統(tǒng)計(jì)分析

5.1箱線圖

par(mfrow=c(1,1))par(mar=c(4,4,3,0.5))par(cex=0.7)if(n.cel>40)par(cex=0.5)# rainbow是R的一個函數(shù),用于產(chǎn)生彩虹色cols<-rainbow(n.cel*1.2)boxplot(data.raw,col= cols,xlab="Sample",ylab="Log intensity")

5.2histogram曲線

par(mar=c(4,4,0.5,0.5))hist(data.raw,lty=1:3,col= cols)legend("topright",legend=sampleNames(data.raw),lty=1:3,col= cols,box.col="transparent",xpd=TRUE)

6MA-plot分析

par(mfrow=c(ceiling(n.cel/2),2))par(mar=c(3,3,2,0.5))par(tcl=0.2)par(mgp=c(2,0.5,0))require(scales)col<-alpha("seagreen",alpha=0.01)MAplot(data.raw,col= col,loess.col="red",cex=0.9)

IQR差別大的芯片可能有問題,但芯片能不能用得看具體情況(參考其他指標(biāo))而定。

7RNA降解分析

par(mfrow=c(1,1))par(mar=c(4,4,3,0.5))

RNAdeg<-AffyRNAdeg(data.raw)

summaryAffyRNAdeg(RNAdeg)

##? ? ? ? ? CHIP-1? CHIP-2? CHIP-3? CHIP-4? CHIP-5? CHIP-6? CHIP-7

## slope? 1.71e+00 1.67e+00 1.82e+00 1.9e+00 1.60e+00 1.73e+00 1.72e+00

## pvalue 2.31e-10 5.11e-11 4.74e-11 3.0e-11 2.84e-11 3.39e-12 1.31e-10

##? ? ? ? ? CHIP-8

## slope? 1.61e+00

## pvalue 7.84e-11

plotAffyRNAdeg(RNAdeg,cols= cols)

legend("topleft",legend=sampleNames(data.raw),lty=1,col= cols,box.col="transparent",xpd=TRUE)

box()

理想狀況下各樣品的線(分段)是平行的。從上面圖上看芯片1可能有點(diǎn)問題。

8用simpleaffy包進(jìn)行分析

library(simpleaffy)

# 計(jì)算芯片質(zhì)量數(shù)據(jù)

qc.data<-qc(data.raw)

# 平均背景值,如果太大則表示可能有問題

(avbg.data<-as.data.frame(sort(avbg(qc.data))))

##? ? ? ? sort(avbg(qc.data))

## CHIP-8? ? ? ? ? ? ? 60.74

## CHIP-5? ? ? ? ? ? ? 63.53

## CHIP-2? ? ? ? ? ? ? 63.71

## CHIP-3? ? ? ? ? ? ? 63.92

## CHIP-7? ? ? ? ? ? ? 63.92

## CHIP-6? ? ? ? ? ? ? 66.59

## CHIP-1? ? ? ? ? ? ? 78.95

## CHIP-4? ? ? ? ? ? ? 79.61

# 樣品的scale factor(sfs.data<-sort(sfs(qc.data)))

## [1] 0.5689 0.6235 0.6905 0.6920 0.7660 0.8179 0.8191 0.8386

# affy建議每個樣品間的sf差異不能超過3倍max(sfs.data)/min(sfs.data)

## [1] 1.474

# 表達(dá)基因所占的比例,太小則表示有問題as.data.frame(percent.present(qc.data))

##? ? ? ? ? ? ? ? percent.present(qc.data)

## CHIP-1.present? ? ? ? ? ? ? ? ? ? 58.27

## CHIP-2.present? ? ? ? ? ? ? ? ? ? 62.10

## CHIP-3.present? ? ? ? ? ? ? ? ? ? 62.98

## CHIP-4.present? ? ? ? ? ? ? ? ? ? 60.95

## CHIP-5.present? ? ? ? ? ? ? ? ? ? 58.02

## CHIP-6.present? ? ? ? ? ? ? ? ? ? 59.35

## CHIP-7.present? ? ? ? ? ? ? ? ? ? 62.66

## CHIP-8.present? ? ? ? ? ? ? ? ? ? 62.30

# 內(nèi)參基因的表達(dá)比例ratios(qc.data)

##? ? ? ? actin3/actin5 actin3/actinM gapdh3/gapdh5 gapdh3/gapdhM

## CHIP-1? ? ? ? 0.3860? ? -0.297736? ? ? ? 0.3118? ? ? -0.9426

## CHIP-2? ? ? ? 0.3999? ? -0.179446? ? ? ? 0.3333? ? ? -0.6741

## CHIP-3? ? ? ? 0.3891? ? -0.005161? ? ? ? 0.5414? ? ? -0.7286

## CHIP-4? ? ? ? 0.4889? ? -0.152291? ? ? ? 0.5449? ? ? -0.7081

## CHIP-5? ? ? ? 0.2049? ? -0.348223? ? ? ? 0.4260? ? ? -0.6383

## CHIP-6? ? ? ? 0.4554? ? -0.039076? ? ? ? 0.2426? ? ? -0.8057

## CHIP-7? ? ? ? 0.5528? ? -0.226408? ? ? ? 0.4426? ? ? -0.5121

## CHIP-8? ? ? ? 0.4545? ? -0.152246? ? ? ? 0.2308? ? ? -0.8548

9代碼的運(yùn)行環(huán)境(Session Info)

sessionInfo()

## R version 3.1.0 (2014-04-10)

## Platform: x86_64-pc-linux-gnu (64-bit)

##

## locale:

##? [1] LC_CTYPE=zh_CN.UTF-8? ? ? LC_NUMERIC=C

##? [3] LC_TIME=zh_CN.UTF-8? ? ? ? LC_COLLATE=zh_CN.UTF-8

##? [5] LC_MONETARY=zh_CN.UTF-8? ? LC_MESSAGES=zh_CN.UTF-8

##? [7] LC_PAPER=zh_CN.UTF-8? ? ? LC_NAME=C

##? [9] LC_ADDRESS=C? ? ? ? ? ? ? LC_TELEPHONE=C

## [11] LC_MEASUREMENT=zh_CN.UTF-8 LC_IDENTIFICATION=C

##

## attached base packages:

## [1] parallel? tcltk? ? stats? ? graphics? grDevices utils? ? datasets

## [8] methods? base

##

## other attached packages:

##? [1] simpleaffy_2.41.0? ? gcrma_2.37.0? ? ? ? genefilter_1.47.0

##? [4] scales_0.2.4? ? ? ? ath1121501cdf_2.14.0 affy_1.43.0

##? [7] Biobase_2.25.0? ? ? BiocGenerics_0.11.0? zblog_0.1.0

## [10] knitr_1.5

##

## loaded via a namespace (and not attached):

##? [1] affyio_1.33.0? ? ? ? annotate_1.43.2? ? ? AnnotationDbi_1.27.3

##? [4] BiocInstaller_1.15.2? Biostrings_2.33.3? ? colorspace_1.2-4

##? [7] DBI_0.2-7? ? ? ? ? ? evaluate_0.5.3? ? ? ? formatR_0.10

## [10] GenomeInfoDb_1.1.2? ? highr_0.3? ? ? ? ? ? IRanges_1.99.2

## [13] munsell_0.4.2? ? ? ? plyr_1.8.1? ? ? ? ? ? preprocessCore_1.27.0

## [16] Rcpp_0.11.1? ? ? ? ? RSQLite_0.11.4? ? ? ? S4Vectors_0.0.2

## [19] splines_3.1.0? ? ? ? stats4_3.1.0? ? ? ? ? stringr_0.6.2

## [22] survival_2.37-7? ? ? tools_3.1.0? ? ? ? ? XML_3.98-1.1

## [25] xtable_1.7-3? ? ? ? ? XVector_0.5.3? ? ? ? zlibbioc_1.11.1

版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,117評論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,860評論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,128評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,291評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,025評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,421評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,477評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,642評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,177評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,970評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,157評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,717評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,410評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,821評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,053評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,896評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,157評論 2 375

推薦閱讀更多精彩內(nèi)容