轉發自http://crickcollege.com/news/99.html
關于蛋白鑒定,之前我們聊到了數據庫搜索問題,還沒有get到技能的童鞋,可別錯過以下鏈接。
除了數據庫設置對搜索結果的影響以外,蛋白鑒定過程中還有很多的門門道道,對于初學者來說,不小心的話很容易被帶溝里去!比如,在譜圖比對這件事上,看起來似乎很簡單,可是大伙兒知道嗎,對同一個樣品的質譜數據,任何兩個鑒定軟件的結果報告都不會完全一樣呢!如果我們對那些造成偏差的因素一無所知,那就只能對著結果發呆……
顯然,我們誰也不想在科學面前只做個呆萌的小白!雖然導致蛋白鑒定出現偏差的原因錯綜復雜,但也不需要被嚇倒,今兒就請跟著小編進入質譜譜圖的世界里小逛一遭吧!如果你能陪小編到最后,或許就能解答那個經常困擾大伙兒的問題:為啥有些看上去很靠譜的譜峰,卻沒有被鑒定軟件報告出來呢?
先上一張千年老圖,喚醒一下大伙兒的記憶:
注意看最后一步,碎片離子的峰圖輸出給鑒定軟件,與預測的譜圖進行比對。理想的譜圖應該是所有譜峰高度相同,因為每一個譜峰代表一個對應的氨基酸殘基的信號。可是真實的譜圖呢?地球人都知道,是參差不齊,高高低低的。就不能長點心,弄得整齊一點么?沒辦法,質譜做不到啊!
這些參差不齊的譜峰里,包含了有效信號,也包含很多噪音。人類監聽宇宙輻射時,很容易過濾3K背景輻射,因為它很穩定,而譜圖中如何過濾掉高低起伏的背景噪音呢?
要聊這個問題,我們得先來看看在一個常用的軟件中,譜峰匹配是怎么標識的。以目前業內最常用的蛋白鑒定軟件之一Mascot為例,在鑒定結果的肽段匹配信息中,當我們查看譜峰匹配情況就會發現,整個譜圖中可能就只有一小部分的譜峰會被標記上肽段碎片信息,即b、y離子信息,例如下圖:
譜圖中紅色標記的b、y離子信息對應的譜峰被軟件判斷為有信號的譜峰,即使用Label matches used for scoring選項(紅色橢圓框住的位置)。左上角的示意圖表示與譜峰對應的肽段碎裂方式。圖片來源:Mascot
如果你眼睛睜得足夠大,就一定會發現,這張譜圖左側還有一些看上去分子量正確的譜峰,信號強度也很好,卻被直接無視了……這不是個看臉的世界嗎?
還好,在Mascot 中,有一個標記打分離子和所有可能匹配離子的開關(譜圖下方),可以幫助我們弄清楚這里面的機關。如果我們選“Label all possible matches”(該選項位于圖的左下方),就能看到所有可能的b、y離子匹配,如下圖:
圖片來源:Mascot
大家發現了沒有?譜峰左側多出了幾個b、y離子標記。原來,這些譜峰也是可以被標記的呀!那么,問題就來了,為什么不直接對所有可能的碎片匹配進行標記呢?
在繼續聊這個話題之前,先插播一段b、y離子生平(認識的小伙伴請直接跳過這一段):話說,肽段碎裂時可能會從氨基酸鏈的三個位置斷開,形成的三類不同的離子,即a-x離子、b-y離子和c-z離子(如下圖)。不同的質譜儀器類型,形成的碎裂方式就會不同,目前普遍使用的這些質譜儀器中,最常見的CID/HCD碎裂方式就是從形成b-y離子的這個位置斷開的,所以搜庫軟件對譜峰主要進行b、y離子標記,當然,在必要時,你也可以通過修改參數來標記其它類型的離子。
肽段斷裂有三種可能的位置,形成對應的三種不同的離子類型。
回到剛才的問題,為啥不把所有可能的譜峰都標記上呢?來,我們觀察一下原始質譜的譜峰到底是個什么情況,如果你打開一張質譜原始譜圖,盡可能的放大其m/z區域,比如下圖,你會發現幾乎每個分子量坐標處都會出現或高強度或非常微弱的譜峰,我們把這種情況叫做 “peak at every mass”,這是質譜產生的化學噪音信息,事實上,就算是當前最新最高端的質譜也是很難避免的。如果搜庫軟件把這些噪音都進行打分計算,那么該譜圖幾乎能夠匹配上任何序列。打個不恰當的比方,就像你如果把3K背景輻射當作是三體人在跟你喊話,你可以想像對方說的是“不要回答”,也可以想像對方說的是“We are family”,都是yy而已!
此圖中,幾乎每個正確的分子量坐標處都出現了譜峰,但事實上這些譜峰中大部分都是由于儀器本身的問題引入的化學噪音,如果將這些噪音都拿來打分計算,則可以與幾乎任何肽段匹配上。
顯然,機智如我們,肯定會在信號和噪音之間做出判斷和取舍。不過,取舍的時候,小編要再強調一下,你一定不能只考慮譜圖中的最強信號!因為在整個質量范圍內總會出現很強的系統噪音,這是儀器平臺本身造成的。比如,中等質量端(比如m/z 200~800)的碎片信號一般總是比高質量端的信號強一些(以第一組譜圖為例,低質量端譜峰的密度和強度都明顯比高質量端的大),顯然我們不會把那些都當作是有效信號來處理的。
所以呢,譜圖的世界,只看臉是行不通的。由于質譜本身的局限,加上儀器的不穩定,要直接從譜峰的面相上去判斷確實是很困難的。于是,一些聰明的搜庫軟件,比如Mascot,會使用更加簡單而聰明的方法。比如,將整個譜圖分隔成110Da一段進行分段匹配,在每一段質量范圍內選擇最強譜峰,將所有選出的譜峰進行打分計算,然后將每一個區域次強的譜峰加入數據集再次打分。這樣不斷循環,最后得到一個最佳得分組合,再進行結果報告。
這樣的方法,因為進行了全局的考慮,所以比報告所有可能的譜峰匹配更加靠譜。而事實也證明了,這種處理方法能夠將最真實的肽段碎片譜峰挑選出來,并有效的去除噪音。看到這里,你是不是覺得可以安心了?
且慢,難道你不好奇,為什么要選擇110Da來進行分隔嗎?其實呢,氨基酸殘基的平均加權分子量在SwissProt數據庫中大約為110Da。顯然,我們沒法先驗性的預估譜圖中應該是怎樣的離子分布,所以只能假定每隔110Da應該至少會出現一個有效的肽段碎片譜峰。還好,這種假定通常都work得不錯~
But,真實的譜圖情況是很復雜的,比如我們再深入一步來看:當一個譜圖中有很密集的譜峰用于打分時,肽段碎片匹配率將持續上升。這個應該很好理解吧,譜峰越密,能匹配上肽段碎片的機率也越高。但是,匹配率高了,卻不一定會使得分也會變高,也就是說,E-value不一定高!(搞不清楚E-value是啥的,請自動腦補我們另一篇人氣推文>>p值、E值、FDR、q值…你暈菜了嗎?)
甚至,在某些情況下,譜峰密集,得分反而會下降!比如下面的第一張譜圖,可以看到用來打分的譜峰很密集,而第二張譜圖,明顯要稀疏很多。而在 Mascot軟件中,這兩張譜圖的打分居然是一樣一樣的!
細想想,也不難理解。Mascot是基于概率計算的,也就是說,候選打分譜圖的數量和實際匹配的數量都會影響得分。比如,使用20個候選離子可以得到12個匹配時,其得分一定會大于30個離子中14個可以匹配的情形。所以,譜峰多是沒有用的,關鍵是有效的信號峰占的比例。
常用的搜庫軟件都會向我們展示碎片的匹配情形及其得分,當你看到一張峰譜很密卻得分不高的譜峰時,你自然就會意識到,這是一張比較“爛”的譜圖。如果你的實驗結果中有很多這種“爛”譜圖,你就應該反省一下實驗過程是不是有什么問題了。
看出來吧,查看譜圖是多么必要的事情,這事兒可別偷懶,如果以為搜庫軟件把一切都弄好了,瞄一眼結果就完事兒,那很多問題你是發現不了的。這就是為啥同樣的軟件工具,在小白和大牛的手里,玩法會有很大差別了!
最后,跟大家賣個關子:說實話,搞算法開發的技術咖們,在進行譜圖處理算法優化時,常常也是各種糾結!他們會很猶豫,是否要進行更多的譜峰預過濾,處理過頭了,容易漏掉有效的信號,處理不到位,又會有噪音渾水摸魚…唉,世界總是充滿矛盾!而且,很難找到一個普適的方法,對于所有實驗都很有效。有時我們就會發現,同一種方法,在某些譜圖上得到比較好的結果,在其他實驗的譜圖中又顯得發揮失常。所以,這就需要一些更精細的處理算法,比如正確的譜峰去卷積和去同位素處理等。若大家感興趣的話,小編可以在后續文章中專門討論如何有效去除母離子同位素峰。