TAIR,NASCarray 和 EBI 都有一些公開的免費(fèi)芯片數(shù)據(jù)可以下載。本專題使用的數(shù)據(jù)來自NASCarray(Exp350),也可以用FTP直接下載。下載其中的CEL文件即可(.CEL.gz),下載后解壓縮到同一文件夾內(nèi)。該實(shí)驗(yàn)有1個對照和3個處理,各有2個重復(fù),共8張芯片(8個CEL文件)。
為什么要進(jìn)行芯片質(zhì)量分析?不是每個人做了實(shí)驗(yàn)都會得到高質(zhì)量的數(shù)據(jù),花了錢不一定就有回報(bào),這道理大家都懂。
芯片實(shí)驗(yàn)有可能失敗,失敗的原因可能是技術(shù)上的(包括片子本身的質(zhì)量),也可能是實(shí)驗(yàn)設(shè)計(jì)方面的。芯片質(zhì)量分析主要檢測前者。
使用到兩個軟件包:affy,simpleaffy:
library(BiocInstaller)biocLite(c("affy","simpleaffy"))
另外還需要兩個輔助軟件包:tcltk和scales。tcltk一般R基礎(chǔ)安裝包都已經(jīng)裝有。
install.packages(c("tcltk","scales"))
載入affy軟件包:
library(affy)library(tcltk)
選取CEL文件。以下兩種方法任選一種即可。
第一種方法是通過選取目錄獲得某個目錄內(nèi)(包括子目錄)的所有cel文件:
# 用choose.dir函數(shù)選擇文件夾
dir<-tk_choose.dir(caption="Select folder")
# 列出CEL文件,保存到變量?
cel.files<-list.files(path=dir, pattern=".+\\.cel$", ignore.case=TRUE, full.names=TRUE, recursive=TRUE)
# 查看文件名basename(cel.files)
第二種方法是通過文件選取選擇目錄內(nèi)部分或全部cel文件:
# 建立文件過濾器
filters<-matrix(c("CEL file",".[Cc][Ee][Ll]","All",".*"),ncol=2,byrow= T)
# 使用tk_choose.files函數(shù)選擇文件
cel.files<-tk_choose.files(caption="Select CELs",multi=TRUE,filters= filters,index=1)
# 注意:較老版本的tk函數(shù)有bug,列表的第一個文件名可能是錯的
basename(cel.files)
## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"
## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"
## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"
## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"
## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"
## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"
## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"
## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"
讀取CEL文件數(shù)據(jù)使用ReadAffy函數(shù),它的參數(shù)為:
# Not run. 函數(shù)說明,請不要運(yùn)行下面代碼ReadAffy(...,filenames=character(0),widget=getOption("BioC")$affy$use.widgets,compress=getOption("BioC")$affy$compress.cel,celfile.path=NULL,sampleNames=NULL,phenoData=NULL,description=NULL,notes="",rm.mask=FALSE,rm.outliers=FALSE,rm.extra=FALSE,verbose=FALSE,sd=FALSE,cdfname=NULL)
除文件名外我們使用函數(shù)的默認(rèn)參數(shù)讀取CEL文件:
data.raw<-ReadAffy(filenames= cel.files)
讀入芯片的默認(rèn)樣品名稱是文件名,用sampleNames函數(shù)查看或修改:
sampleNames(data.raw)
## [1] "NRID9780_Zarka_2-1_MT-0HCA(SOIL)_Rep1_ATH1.CEL"
## [2] "NRID9781_Zarka_2-2_MT-0HCB(SOIL)_Rep2_ATH1.CEL"
## [3] "NRID9782_Zarka_2-3_MT-1HCA(SOIL)_Rep1_ATH1.CEL"
## [4] "NRID9783_Zarka_2-4_MT-1HCB(SOIL)_Rep2_ATH1.CEL"
## [5] "NRID9784_Zarka_2-5_MT-24HCA(SOIL)_Rep1_ATH1.CEL"
## [6] "NRID9785_Zarka_2-6_MT-24HCB(SOIL)_Rep2_ATH1.CEL"
## [7] "NRID9786_Zarka_2-7_MT-7DCA(SOIL)_Rep1_ATH1.CEL"
## [8] "NRID9787_Zarka_2-8_MT-7DCB(SOIL)_Rep2_ATH1.CEL"
sampleNames(data.raw)<-paste("CHIP",1:length(cel.files),sep="-")sampleNames(data.raw)
## [1] "CHIP-1" "CHIP-2" "CHIP-3" "CHIP-4" "CHIP-5" "CHIP-6" "CHIP-7" "CHIP-8"
Phenotypic data數(shù)據(jù)可能有用,可以修改成你需要的內(nèi)容,用pData函數(shù)查看和修改:
pData(data.raw)
##? ? ? ? sample
## CHIP-1? ? ? 1
## CHIP-2? ? ? 2
## CHIP-3? ? ? 3
## CHIP-4? ? ? 4
## CHIP-5? ? ? 5
## CHIP-6? ? ? 6
## CHIP-7? ? ? 7
## CHIP-8? ? ? 8
pData(data.raw)$Treatment<-gl(2,1,length=length(cel.files),labels=c("CK","T"))pData(data.raw)
##? ? ? ? sample Treatment
## CHIP-1? ? ? 1? ? ? ? CK
## CHIP-2? ? ? 2? ? ? ? T
## CHIP-3? ? ? 3? ? ? ? CK
## CHIP-4? ? ? 4? ? ? ? T
## CHIP-5? ? ? 5? ? ? ? CK
## CHIP-6? ? ? 6? ? ? ? T
## CHIP-7? ? ? 7? ? ? ? CK
## CHIP-8? ? ? 8? ? ? ? T
PM和MM查看:
# Perfect-match probespm.data<-pm(data.raw)head(pm.data)
##? ? ? ? CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8
## 501131? 127.0? 166.3? 112.0? 139.8? 111.3? 85.5? 126.3? 102.8
## 251604? 118.5? 105.0? 82.0? 101.5? 94.0? 81.3? 103.8? 103.0
## 261891? 117.0? 90.5? 113.0? 101.8? 99.3? 107.0? 85.3? 85.3
## 230387? 140.5? 113.5? 94.8? 137.5? 117.3? 112.5? 124.3? 114.0
## 217334? 227.3? 192.5? 174.0? 192.8? 162.3? 163.3? 235.0? 195.8
## 451116? 135.0? 122.0? 86.8? 93.3? 83.8? 87.3? 97.3? 83.5
# Mis-match probesmm.data<-mm(data.raw)head(mm.data)
##? ? ? ? CHIP-1 CHIP-2 CHIP-3 CHIP-4 CHIP-5 CHIP-6 CHIP-7 CHIP-8
## 501843? 89.0? 88.0? 80.5? 91.0? 77.0? 75.0? 79.0? 72.0
## 252316? 134.3? 77.3? 77.0? 107.8? 98.5? 75.0? 99.5? 71.3
## 262603? 119.3? 90.5? 82.0? 86.3? 93.0? 89.3? 94.5? 83.8
## 231099? 123.5? 94.5? 76.5? 95.0? 89.3? 87.8? 95.5? 91.5
## 218046? 110.3? 93.0? 74.8? 100.5? 86.0? 89.5? 104.5? 102.3
## 451828? 127.5? 77.0? 80.3? 94.5? 72.3? 79.0? 86.3? 67.8
# 芯片數(shù)量n.cel<-length(cel.files)par(mfrow=c(ceiling(n.cel/2),2))par(mar=c(0.5,0.5,2,0.5))# 設(shè)置調(diào)色板顏色為灰度pallette.gray<-c(rep(gray(0:10/10),times=seq(1,41,by=4)))# 通過for循環(huán)逐個作圖for(iin1:n.cel)image(data.raw[, i],col= pallette.gray)
如果芯片圖像有斑塊現(xiàn)象就很可能是壞片。
par(mfrow=c(1,1))par(mar=c(4,4,3,0.5))par(cex=0.7)if(n.cel>40)par(cex=0.5)# rainbow是R的一個函數(shù),用于產(chǎn)生彩虹色cols<-rainbow(n.cel*1.2)boxplot(data.raw,col= cols,xlab="Sample",ylab="Log intensity")
par(mar=c(4,4,0.5,0.5))hist(data.raw,lty=1:3,col= cols)legend("topright",legend=sampleNames(data.raw),lty=1:3,col= cols,box.col="transparent",xpd=TRUE)
par(mfrow=c(ceiling(n.cel/2),2))par(mar=c(3,3,2,0.5))par(tcl=0.2)par(mgp=c(2,0.5,0))require(scales)col<-alpha("seagreen",alpha=0.01)MAplot(data.raw,col= col,loess.col="red",cex=0.9)
IQR差別大的芯片可能有問題,但芯片能不能用得看具體情況(參考其他指標(biāo))而定。
par(mfrow=c(1,1))par(mar=c(4,4,3,0.5))
RNAdeg<-AffyRNAdeg(data.raw)
summaryAffyRNAdeg(RNAdeg)
##? ? ? ? ? CHIP-1? CHIP-2? CHIP-3? CHIP-4? CHIP-5? CHIP-6? CHIP-7
## slope? 1.71e+00 1.67e+00 1.82e+00 1.9e+00 1.60e+00 1.73e+00 1.72e+00
## pvalue 2.31e-10 5.11e-11 4.74e-11 3.0e-11 2.84e-11 3.39e-12 1.31e-10
##? ? ? ? ? CHIP-8
## slope? 1.61e+00
## pvalue 7.84e-11
plotAffyRNAdeg(RNAdeg,cols= cols)
legend("topleft",legend=sampleNames(data.raw),lty=1,col= cols,box.col="transparent",xpd=TRUE)
box()
理想狀況下各樣品的線(分段)是平行的。從上面圖上看芯片1可能有點(diǎn)問題。
library(simpleaffy)
# 計(jì)算芯片質(zhì)量數(shù)據(jù)
qc.data<-qc(data.raw)
# 平均背景值,如果太大則表示可能有問題
(avbg.data<-as.data.frame(sort(avbg(qc.data))))
##? ? ? ? sort(avbg(qc.data))
## CHIP-8? ? ? ? ? ? ? 60.74
## CHIP-5? ? ? ? ? ? ? 63.53
## CHIP-2? ? ? ? ? ? ? 63.71
## CHIP-3? ? ? ? ? ? ? 63.92
## CHIP-7? ? ? ? ? ? ? 63.92
## CHIP-6? ? ? ? ? ? ? 66.59
## CHIP-1? ? ? ? ? ? ? 78.95
## CHIP-4? ? ? ? ? ? ? 79.61
# 樣品的scale factor(sfs.data<-sort(sfs(qc.data)))
## [1] 0.5689 0.6235 0.6905 0.6920 0.7660 0.8179 0.8191 0.8386
# affy建議每個樣品間的sf差異不能超過3倍max(sfs.data)/min(sfs.data)
## [1] 1.474
# 表達(dá)基因所占的比例,太小則表示有問題as.data.frame(percent.present(qc.data))
##? ? ? ? ? ? ? ? percent.present(qc.data)
## CHIP-1.present? ? ? ? ? ? ? ? ? ? 58.27
## CHIP-2.present? ? ? ? ? ? ? ? ? ? 62.10
## CHIP-3.present? ? ? ? ? ? ? ? ? ? 62.98
## CHIP-4.present? ? ? ? ? ? ? ? ? ? 60.95
## CHIP-5.present? ? ? ? ? ? ? ? ? ? 58.02
## CHIP-6.present? ? ? ? ? ? ? ? ? ? 59.35
## CHIP-7.present? ? ? ? ? ? ? ? ? ? 62.66
## CHIP-8.present? ? ? ? ? ? ? ? ? ? 62.30
# 內(nèi)參基因的表達(dá)比例ratios(qc.data)
##? ? ? ? actin3/actin5 actin3/actinM gapdh3/gapdh5 gapdh3/gapdhM
## CHIP-1? ? ? ? 0.3860? ? -0.297736? ? ? ? 0.3118? ? ? -0.9426
## CHIP-2? ? ? ? 0.3999? ? -0.179446? ? ? ? 0.3333? ? ? -0.6741
## CHIP-3? ? ? ? 0.3891? ? -0.005161? ? ? ? 0.5414? ? ? -0.7286
## CHIP-4? ? ? ? 0.4889? ? -0.152291? ? ? ? 0.5449? ? ? -0.7081
## CHIP-5? ? ? ? 0.2049? ? -0.348223? ? ? ? 0.4260? ? ? -0.6383
## CHIP-6? ? ? ? 0.4554? ? -0.039076? ? ? ? 0.2426? ? ? -0.8057
## CHIP-7? ? ? ? 0.5528? ? -0.226408? ? ? ? 0.4426? ? ? -0.5121
## CHIP-8? ? ? ? 0.4545? ? -0.152246? ? ? ? 0.2308? ? ? -0.8548
9代碼的運(yùn)行環(huán)境(Session Info)
sessionInfo()
## R version 3.1.0 (2014-04-10)
## Platform: x86_64-pc-linux-gnu (64-bit)
##
## locale:
##? [1] LC_CTYPE=zh_CN.UTF-8? ? ? LC_NUMERIC=C
##? [3] LC_TIME=zh_CN.UTF-8? ? ? ? LC_COLLATE=zh_CN.UTF-8
##? [5] LC_MONETARY=zh_CN.UTF-8? ? LC_MESSAGES=zh_CN.UTF-8
##? [7] LC_PAPER=zh_CN.UTF-8? ? ? LC_NAME=C
##? [9] LC_ADDRESS=C? ? ? ? ? ? ? LC_TELEPHONE=C
## [11] LC_MEASUREMENT=zh_CN.UTF-8 LC_IDENTIFICATION=C
##
## attached base packages:
## [1] parallel? tcltk? ? stats? ? graphics? grDevices utils? ? datasets
## [8] methods? base
##
## other attached packages:
##? [1] simpleaffy_2.41.0? ? gcrma_2.37.0? ? ? ? genefilter_1.47.0
##? [4] scales_0.2.4? ? ? ? ath1121501cdf_2.14.0 affy_1.43.0
##? [7] Biobase_2.25.0? ? ? BiocGenerics_0.11.0? zblog_0.1.0
## [10] knitr_1.5
##
## loaded via a namespace (and not attached):
##? [1] affyio_1.33.0? ? ? ? annotate_1.43.2? ? ? AnnotationDbi_1.27.3
##? [4] BiocInstaller_1.15.2? Biostrings_2.33.3? ? colorspace_1.2-4
##? [7] DBI_0.2-7? ? ? ? ? ? evaluate_0.5.3? ? ? ? formatR_0.10
## [10] GenomeInfoDb_1.1.2? ? highr_0.3? ? ? ? ? ? IRanges_1.99.2
## [13] munsell_0.4.2? ? ? ? plyr_1.8.1? ? ? ? ? ? preprocessCore_1.27.0
## [16] Rcpp_0.11.1? ? ? ? ? RSQLite_0.11.4? ? ? ? S4Vectors_0.0.2
## [19] splines_3.1.0? ? ? ? stats4_3.1.0? ? ? ? ? stringr_0.6.2
## [22] survival_2.37-7? ? ? tools_3.1.0? ? ? ? ? XML_3.98-1.1
## [25] xtable_1.7-3? ? ? ? ? XVector_0.5.3? ? ? ? zlibbioc_1.11.1
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。