項目總覽
第一個視頻主要是項目總覽,介紹了整個課程的結構,每一講主要要講得東西,介紹了jimmy的github形式的教學,學員可以在clone or download里download整個項目文件夾,按照github上的提示完成整個流程。jimmy提醒大家學習R語言的時候要養成用文件夾+Project的形式來組織內容,即,在項目文件夾下面具有一個 XXX.Rproj的文件以及所有輸入的數據以及所有產出的結果。這樣做的好處有三點:
- 可以直接定位到所有數據以及代碼
- 不用考慮環境變量
- 不需要修改路徑。
理解這3個好處還是得先有環境變量、路徑這些的概念。下載好github的文件夾之后,需要總覽一下代碼,需要理解一下每行代碼的意思。在下載的時候需要考慮網絡的問題,下載失敗很可能是因為網絡不好。
最后本課程是有償學習,自愿付費,付費可以掃描最后的二維碼,給jimmy的郵箱jmzeng1314@163.com發郵件,也會有意外的驚喜。也可以選擇在騰訊課堂進行購買學習。
P1-通用文獻閱讀及規律
本個視頻主要介紹了閱讀做GEO數據分析的文獻閱讀技巧。首先,要知道數據來源,看文獻,可以找到GSE號,不是GEO數據庫的在此不做討論;找到GSE號,可以采用URL拼接的方式,來到數據的主要,可以了解到實驗室在哪個平臺做的,實驗的樣本數以及分組情況。文獻中還可以知道該分析用什么R包做了差異基因分析,知道篩選的閾值,即P值,logFoldchange等。知道了這些之后,我們接下來就要對數據進行下載以及處理。
P2-了解GEO數據庫
這個視頻主要介紹了GEO數據庫,可以通過jimmy的微信推文,https://mp.weixin.qq.com/s/4tKmmxXrGoTfH3-sYLnRcg詳細地了解,主要要知道的是四個簡稱:
- GEO platform,即GPL,是指該實驗是在什么芯片或者測序儀上做的,單獨定制的芯片也會有一個GPL號,GPL會記錄探針以及基因的對應關系;
- GEO series,即GSE,一個實驗或者一篇文章會給一個GSE號,當然有些文章會有多個GSE號;
- GEO sample, 即GSM,指一個實驗中每一個獨立樣本的編號;
- GEO dataset,即GDS,用到的比較少,指根據研究目的將多個樣本整合成一個數據集。
本視頻還介紹了RefSeq數據庫,http://www.biotrainee.com/thread-213-1-1.html這篇文章有詳細的介紹,主要知道NG、NM、NP、XM,XR、XP分別代表什么。
本視頻還介紹了關于芯片的基礎知識,http://www.biotrainee.com/thread-899-1-1.html,此處有詳細得介紹,當然還是要自己結合其它的資料進行總結的。
另外關于GEOquery包的介紹,應該是在下一講中有具體的介紹。
P3- 數據下載的3種方式
這一講介紹了三種下載GEO數據的方式,分別為:
- 下載raw data,存在問題:不同芯片的原始數據處理方式不一樣;
- 下載series matrix,存在問題:網速問題;
- 在R里面讀取GSE號,即使用GEOquery包,getGEO函數,存在問題:國內網絡問題,無解;
getGEO的演示:
- 安裝GEOquery包;
- library這個包,出現紅字沒有問題;
- 對照說明書操作。操作中出現問題的話,可以參考這兩篇文章(后面更新的):
- http://www.bio-info-trainee.com/3713.html;
-
http://www.bio-info-trainee.com/3719.html;
注:下載卡住的話(原因:下載這些數據要耗費海外節點,有些網吧有海外節點,因為游戲是海外的,jimmy推測),可以修改參數來減少下載量:分別是AnnotGPL=F,getGPL=F,另一個參數是destdir='.',是保存的路徑。
- 讀取壓縮包,a=read.table('文件名');參數:(sep='\t',quote="",fill=T,comment.char="!",head=T)
思路:
1.先看一眼表達矩陣,前面的!不需要,看一眼字符間是使用什么分割的。
2.使用步驟4的代碼來操作。
P4- ID轉換技巧大全
此視頻介紹了將下載過來的數據進行轉換的預處理,要解決的問題就是:一個基因可能會設置多個探針去測它,所以就會有多個探針對應一個基因名,我們想要知道的是一個基因對應的表達量,所以要把探針與基因進行對應,修改這個下載過來的表達矩陣。
所以要做的事情包括:
- 獲取探針信息
- 獲取探針信息與基因的對應關系(有兩種方式,可以下載Bioconductor的包或者用getGEO來獲得GPL的平臺信息)
- 將探針與基因的順序對應好
- 把一個基因對應對個探針的探針給過濾掉,選擇均值最大的探針對應的表達量
- 把探針替換成相對應的基因
思路大概是這樣的,通過這樣的方式,我們就可以獲得第一列是基因名,第一行是樣品名,中間都是表達量的一個矩陣,可以進行下一步的操作了。
具體的代碼還要自己照著再運行一遍。
P5 了解你的表達矩陣
下載好數據,處理好基因ID之后的表達矩陣,我們得知道這個表達矩陣是不是對的,所以要根據分組信息等對表達矩陣進行處理(20題中有范例)。
檢驗常見管家基因的表達量,做PCA分析以及Hclass圖,判斷所分析的矩陣的質量情況
1.可以檢測一下表達矩陣中的內參基因的表達量,看是否與實際情況相符合,如GAPDH,ACTB等
- 看表達矩陣的分布圖:各個樣本表達量的boxplot,可以學習使用ggplot畫圖的方法,有一些原理的介紹,可以自己再延伸學習。
- 若分組之間的樣本的表達水平差異較大,則需要進行校正。
- PCA圖以及Hclass圖:hclass的圖可以出聚類以及進化圖。PCA圖:ggfortyify包,關鍵成分的分析。
對于課程的數據:下載好的數據需要將它保存為對象,下次只需要再load它就好。
P6 差異分析
這一文介紹了使用limma包來做差異分析,對于所有的函數或者是包,我們得先明白它要求的Input是什么以及它可以給我們的Output是什么。而Limma包需要的是表達矩陣以及分組矩陣以及差異比較矩陣;接下來視頻介紹了一下流程,還是需要根據代碼自己運行一遍;這一講更加加強了包以及函數的概念,也介紹了一些代碼的使用原因。最重要的還是自己運行以后自己梳理一遍。代碼網址為:http://www.bio-info-trainee.com/bioconductor_China/software/limma.html
P7 火山圖及熱圖制作及美化
本視頻介紹了火山圖的繪制以及使用clusterprofiler來進行富集分析,火山圖就是一個橫坐標為logFC,縱坐標為-log10(p value)的點狀圖;而富集分析就是對差異基因的結果進行的注釋,它是通過數據庫以及得到的差異分析做而做的一個超幾何分布檢驗,原理的話視頻中有講,也需要自己結合統計來學習。通過已經有的包clusterprofilter可以進行富集分析,需要自己操作一下。
P8 KEGG,GO等數據庫的注釋及GSEA分析
通過KEGG,GO等數據庫等進行的注釋進行的分析,是假定每個基因的地位都是相等的,而在現實中,我們常常是有自己關心的基因,所以說基因是有重要不重要的區別的,這個時候就需要用到GSEA分析,本視頻主要是通過clusterprofilter這個包進行GSEA分析,中間涉及到數據格式的轉換,主要要熟悉R語言,原理的東西可以看之前的培訓視頻。
P9 收尾
最后介紹了GEO project這個項目的使用方法。需要對這個文件進行每一步的運行,如果需要進階的話則需要看paper進行學習。
P10 批量生存分析代碼大放送
本視頻是一個福利,jimmy對一個數據集進行了一系列的操作演示,并加入了生存分析的操作。可以根據視頻以及代碼進行運行。其中的根據感興趣的基因做差異分析很適合結合到自己的課題中。最后,R語言是生信編程里很重要的一部分,R語言得花時間去學習。