最近在進(jìn)行ac4C-seq數(shù)據(jù)分析時,從GEO上下載了Cell文章“Acetylation of Cytidine in mRNA Promotes Translation Efficiency”的原始數(shù)據(jù),發(fā)現(xiàn)GSM2724031這個原始文件的Q30竟然是100%。于是總結(jié)下,供大家參考。
1,GEO數(shù)據(jù)庫簡介
1,芯片,測序原始數(shù)據(jù)倉庫?;蚪M,轉(zhuǎn)錄組,修飾等,但是不存蛋白質(zhì)譜和代謝數(shù)據(jù)
2,發(fā)文章一般都要上傳原始數(shù)據(jù),保證數(shù)據(jù)的可重復(fù)性,真實(shí)性
3,大量數(shù)據(jù)共享,可挖掘發(fā)文章:沒有數(shù)據(jù),挖掘GEO;數(shù)據(jù)不夠,GEO來湊
4,數(shù)據(jù)質(zhì)量參差不齊,需要自行甄別
2,Illumina測序儀下機(jī)Fastq原始數(shù)據(jù)格式
3,質(zhì)量分?jǐn)?shù)Q計(jì)算方法
Q=?10 log10(P)
P是堿基識別的錯誤概率,來自堿基識別算法(base calling algorithm)并依賴于多少信號被捕獲。
Q30值一般用百分比展示,表示Q值大于30的堿基比例。例如Q30=85.75%表示這個(或者雙端時R1+R2)fastq文件的全部total個堿基中,有total*0.8575個堿基的Q值都大于30。所以Q30是衡量數(shù)據(jù)質(zhì)量的一個很重要的標(biāo)準(zhǔn)。Illumina官方以80%為閾值,實(shí)際中一般可以做到95%,甚至更高。雖然理論上Q30可以是100%,但是目前還做不到。
4,測序質(zhì)量分?jǐn)?shù)為什么越往后越差?
Illumina測序技術(shù)基于邊合成邊測序(Sequencing by Synthesis)的原理,利用DNA聚合酶在模板DNA上逐個添加熒光標(biāo)記的dNTP,從而實(shí)現(xiàn)對DNA序列的測定。在測序初期,由于合成反應(yīng)尚未完全穩(wěn)定,因此雖然DNA聚合酶的活性較高,但在高質(zhì)量區(qū)域(通常指測序的前1-30個堿基對)內(nèi)可能會出現(xiàn)一定的波動。隨著測序的進(jìn)行,合成反應(yīng)逐漸穩(wěn)定,但隨著時間的推移,DNA聚合酶的活性會逐漸降低,導(dǎo)致特異性下降,從而增加了后續(xù)測序過程中出錯的概率。
在Illumina測序中,隨著DNA聚合酶活性的降低,測序錯誤率也會隨之升高,這可能是由于聚合酶保真度降低以及二代測序固有的特點(diǎn)導(dǎo)致的。
5,GEO和SRA的區(qū)別
GEO最開始是存儲的芯片數(shù)據(jù),包括芯片原始文件,處理過的表格等。后來測序出來后,GEO也開始存儲測序的數(shù)據(jù),再后來由于原始數(shù)據(jù)越來越多,越來越大,為了區(qū)分就又重開了個存儲測序原始數(shù)據(jù)的SRA。上傳到GEO的原始fastq也會隨后存到SRA里邊。所以,對用戶來說,區(qū)別就是數(shù)據(jù)上傳到SRA時,可以不用上傳processed data,而上傳到GEO時,必需上傳processed data。
GEO數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)包括Platform(GPL)、Sample(GSM)、Series(GSE)和Dataset(GDS)。GSE通常指代一個研究項(xiàng)目,GSM是單個樣本的數(shù)據(jù),而GDS是整理后的數(shù)據(jù)分析集。
SRA數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)包括Studies(ERP/SRP)、Experiments(SRX)、Samples(SRS)和Runs(SRR)。Studies代表研究課題,Experiments代表實(shí)驗(yàn)設(shè)計(jì),Samples代表樣本信息,而Runs代表測序結(jié)果集
6,GEO/SRA對原始fastq的處理
原始下機(jī)fastq文件在上傳GEO/SRA后,工作人員會對其進(jìn)行處理,將每條read的測序儀相關(guān)信息(read name)去掉,替換成諸如1、2、3,或者是SRR123456.1,SRR123456.2這種序列編號(2018年前的可能會保留read name信息)。
7,GEO/SRA原始fastq下載
一般直接使用sratoolkit來下載。命令為:
prefetch -X 200G SRR123456 -o SRR123456
fastq-dump --split-files -F SRR123456
8,GEO/SRA的fastq文件都是原始下機(jī)數(shù)據(jù)嗎?
一般是原始下機(jī)數(shù)據(jù)(read長度完全一樣),但是也有去接頭之后的clean數(shù)據(jù)(長度不一樣)。
我們來看看GSM2724031的原始文件,下載后,轉(zhuǎn)成fastq文件。
發(fā)現(xiàn)這個fastq的質(zhì)量分?jǐn)?shù)全是?,而其他原始數(shù)據(jù)不存在這個問題,推測GSM2724031樣品的原始fastq文件在上傳GEO前,fastq里邊的質(zhì)量分?jǐn)?shù)被人為替換了,替換的原因就無從知曉了,也許“這世界就是個巨大的草臺班子”。
微生信助力高分文章,用戶230000+,谷歌學(xué)術(shù)4600+