生信分析示例

文章,重在研究思路;有好的思路,才能有精彩的故事。很多時候,我們想找一個好點子,比如性狀,疾病相關的關鍵分子,需要設計實驗,做大量的分子篩選的工作。對于土豪實驗室可以大把的花錢做芯片或者高通量測序做前期的篩選工作。但是畢竟土豪是少數的,假如您樣本不多,經費較少,而又想發SCI文章,該怎么辦呢?下面我給大家推薦一個最經濟最快捷最有效的文章思路:利用別人已發表的數據,篩選出一些有價值的分子(mRNA,miRNA,lncRNA,circRNA,lncRNA),之后在自己的小樣本中驗證一下,發篇SCI文章還是輕輕松松的。下面我們一起來看看這類利用GEOTCGA數據庫的文章是怎樣寫成的!

文章1:

文章今年(2018)發表在:Cancer Management and Research 上IF=3.851。該文章發表的雜志影響因子雖然不高,但是分析思路還是可以借鑒的:文章主要分析結論是:利用公共數據(GEOTCGA數據),通過數據篩選分析后發現兩個miRNA(miR-182 and miR-20a)可以作為結直腸癌(colorectal cancer CRC)診斷的分子標志物,然后在組織和血液中進行驗證,最終確定診斷參數。主要的分析思路分為三大步,如下圖所示圖所示:

第一步:利用公共數據進行篩選biomarker(Discovery phase)

首先,作者利用GEO數據庫當中關于CRC的4個miRNA表達芯片數據,尋找患病樣品和正常樣品中差異表達的miRNA,通過取交集初步篩選到8個miRNA,再利用TCGA數據庫中的CRC樣本進行篩選,和qRT-PCR驗證,其驗證不僅在組織樣中,同時還在血液中進行篩選,方便后續通過血液檢測篩查CRC患者。最終確定了兩個miRNA在CRC患者的組織和血液中表達都有上調,可作為CRC的分子診斷候選標志物(miR-182 and miR-20a)。

第二步:做訓練數據集,確定診斷參數(Training phase)

之后,作者在自己收集的CRC患者血液樣本中進行驗證,40個健康樣品,40個CRC患者樣本,發現這兩個miRNA在患者和對照中表達都存在差異,最終通過分析ROC線確定分類參數。

第三步:擴大數據集,確定最佳診斷參數(Validation phase)

最后作者擴大樣品到150個,分別為健康樣品50個,Adenoma(腺瘤)樣品50個和CRC患者(stage I)進行驗證并繪制ROC曲線,最終確定,診斷參數:

miR-182,miR-20a, and 2-miRNA combination were 2.620, 1.355,and 2.147, respectively.

文章2:

題目Expression profiles analysis identifies anovel three-mRNA signature to predict overall survival in oral squamous cellcarcinoma

期刊:Am J Cancer Res

分數:3.2

疾病:口腔鱗細胞癌(OSCC)

文章思路:

利用GSE13601,GSE30784, GSE37991三個mRNA芯片表達數據以及TCGA中OSCC表達數據分別做對照和患者差異基因分析,篩選到顯著差異表達的76個上調基因、106個下調基因;然后進行GO和KEGG通路富集分析、PPI網絡分析,IPA通路分析,生存分析等聯合分析最終篩選到PLAU, CLDN8 and CDKN2A與OSCC預后相關,并且在另一個GEO數據GSE41613中得到了驗證。

總結:

大家可以發現,GEO數據挖掘,以及TCGA數據的挖掘就是這個套路(點擊觀看),先確定自己要分析的疾病,然后下載數據,差異表達分析,篩選得到幾個關鍵的分子(可以是lncRNA,mRNA,miRNA,circRNA),然后進行GO富集分析、Pathway富集分析、GSEA富集分析、PPI分析、IPA通路分析等,最后再做生存分析、ROC曲線分析等,就可以得到與疾病診斷相關的biomarker。如果要進一步發高分的文章,可以再做一下小鼠模型,細胞模型,敲除,過表達等補充實驗,對分子機理進行深入研究,干濕結合,文章就能再上一個檔次。另外,還有其他套路組合,例如做一下WGCNA或者聯合Oncomine數據挖掘等等。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容