Fastq文件的Q30能達(dá)到100%嗎?且看Cell文章的神操作

最近在進(jìn)行ac4C-seq數(shù)據(jù)分析時,從GEO上下載了Cell文章“Acetylation of Cytidine in mRNA Promotes Translation Efficiency”的原始數(shù)據(jù),發(fā)現(xiàn)GSM2724031這個原始文件的Q30竟然是100%。于是總結(jié)下,供大家參考。


1,GEO數(shù)據(jù)庫簡介

1,芯片,測序原始數(shù)據(jù)倉庫?;蚪M,轉(zhuǎn)錄組,修飾等,但是不存蛋白質(zhì)譜和代謝數(shù)據(jù)

2,發(fā)文章一般都要上傳原始數(shù)據(jù),保證數(shù)據(jù)的可重復(fù)性,真實(shí)性

3,大量數(shù)據(jù)共享,可挖掘發(fā)文章:沒有數(shù)據(jù),挖掘GEO;數(shù)據(jù)不夠,GEO來湊

4,數(shù)據(jù)質(zhì)量參差不齊,需要自行甄別

2,Illumina測序儀下機(jī)Fastq原始數(shù)據(jù)格式

3,質(zhì)量分?jǐn)?shù)Q計(jì)算方法

Q=?10 log10(P)

P是堿基識別的錯誤概率,來自堿基識別算法(base calling algorithm)并依賴于多少信號被捕獲。

Q30值一般用百分比展示,表示Q值大于30的堿基比例。例如Q30=85.75%表示這個(或者雙端時R1+R2)fastq文件的全部total個堿基中,有total*0.8575個堿基的Q值都大于30。所以Q30是衡量數(shù)據(jù)質(zhì)量的一個很重要的標(biāo)準(zhǔn)。Illumina官方以80%為閾值,實(shí)際中一般可以做到95%,甚至更高。雖然理論上Q30可以是100%,但是目前還做不到。

4,測序質(zhì)量分?jǐn)?shù)為什么越往后越差?

Illumina測序技術(shù)基于邊合成邊測序(Sequencing by Synthesis)的原理,利用DNA聚合酶在模板DNA上逐個添加熒光標(biāo)記的dNTP,從而實(shí)現(xiàn)對DNA序列的測定。在測序初期,由于合成反應(yīng)尚未完全穩(wěn)定,因此雖然DNA聚合酶的活性較高,但在高質(zhì)量區(qū)域(通常指測序的前1-30個堿基對)內(nèi)可能會出現(xiàn)一定的波動。隨著測序的進(jìn)行,合成反應(yīng)逐漸穩(wěn)定,但隨著時間的推移,DNA聚合酶的活性會逐漸降低,導(dǎo)致特異性下降,從而增加了后續(xù)測序過程中出錯的概率。

在Illumina測序中,隨著DNA聚合酶活性的降低,測序錯誤率也會隨之升高,這可能是由于聚合酶保真度降低以及二代測序固有的特點(diǎn)導(dǎo)致的。

5,GEO和SRA的區(qū)別

GEO最開始是存儲的芯片數(shù)據(jù),包括芯片原始文件,處理過的表格等。后來測序出來后,GEO也開始存儲測序的數(shù)據(jù),再后來由于原始數(shù)據(jù)越來越多,越來越大,為了區(qū)分就又重開了個存儲測序原始數(shù)據(jù)的SRA。上傳到GEO的原始fastq也會隨后存到SRA里邊。所以,對用戶來說,區(qū)別就是數(shù)據(jù)上傳到SRA時,可以不用上傳processed data,而上傳到GEO時,必需上傳processed data。

GEO數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)包括Platform(GPL)、Sample(GSM)、Series(GSE)和Dataset(GDS)。GSE通常指代一個研究項(xiàng)目,GSM是單個樣本的數(shù)據(jù),而GDS是整理后的數(shù)據(jù)分析集。

SRA數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)包括Studies(ERP/SRP)、Experiments(SRX)、Samples(SRS)和Runs(SRR)。Studies代表研究課題,Experiments代表實(shí)驗(yàn)設(shè)計(jì),Samples代表樣本信息,而Runs代表測序結(jié)果集

6,GEO/SRA對原始fastq的處理

原始下機(jī)fastq文件在上傳GEO/SRA后,工作人員會對其進(jìn)行處理,將每條read的測序儀相關(guān)信息(read name)去掉,替換成諸如1、2、3,或者是SRR123456.1,SRR123456.2這種序列編號(2018年前的可能會保留read name信息)。

7,GEO/SRA原始fastq下載

一般直接使用sratoolkit來下載。命令為:

prefetch -X 200G SRR123456 -o SRR123456

fastq-dump --split-files -F SRR123456

8,GEO/SRAfastq文件都是原始下機(jī)數(shù)據(jù)嗎?

一般是原始下機(jī)數(shù)據(jù)(read長度完全一樣),但是也有去接頭之后的clean數(shù)據(jù)(長度不一樣)。

我們來看看GSM2724031的原始文件,下載后,轉(zhuǎn)成fastq文件。

發(fā)現(xiàn)這個fastq的質(zhì)量分?jǐn)?shù)全是?,而其他原始數(shù)據(jù)不存在這個問題,推測GSM2724031樣品的原始fastq文件在上傳GEO前,fastq里邊的質(zhì)量分?jǐn)?shù)被人為替換了,替換的原因就無從知曉了,也許“這世界就是個巨大的草臺班子”。

微生信助力高分文章,用戶230000+,谷歌學(xué)術(shù)4600+

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內(nèi)容