引物設計——QPCR
一、序列查找
參考漢恒生物技術(shù)文檔
常用數(shù)據(jù)庫
NCBI-GeneBank
Nucleotide
Gene
NCBI不多做介紹。NC表示人類基因組DNA的RefSeq,NM表示mRNA的RefSeq,NP表示蛋白質(zhì)的RefSeq,LncRNA信息我們參考RefSeq數(shù)據(jù)庫中的數(shù)據(jù),RefSeq數(shù)據(jù)庫中的數(shù)據(jù)參考數(shù)據(jù),是經(jīng)過人工審核,其數(shù)據(jù)信息可信,注釋全面。RefSeq數(shù)據(jù)庫中LncRNA的命名通常是NR或者XR開頭,后面加數(shù)字,其外顯子信息位置,數(shù)量信息非常完整。
Ensembl
例如,相同的LncRNA,Ensembl數(shù)據(jù)庫中信息往往要比NCBI多很多,特別是轉(zhuǎn)錄本數(shù)量。且數(shù)據(jù)變化非常快且變化會很大,可能昨天瀏覽這個數(shù)據(jù)庫中某個LncRNA只有2個轉(zhuǎn)錄本,隔天再去看的時候,可能就變成3個甚至更多。NCBI就不同,盡管更新頻率也非常的快,但是LncRNA的變化通常很小,轉(zhuǎn)錄本數(shù)量基本不變化,序列變化的可能性也非常的小。
UCSC
UCSC數(shù)據(jù)庫的數(shù)據(jù)更新相對較慢,但有些LncRNA名稱如uc001ylu就需要前往UCSC數(shù)據(jù)庫查詢其序列信息。UCSC Genome Browser可以根據(jù)基因組的位置、基因ID、轉(zhuǎn)錄本等信息進行瀏覽查詢。
高分文獻查找
首先可以根據(jù)文獻獲得目的基因序列
通過閱讀文獻,找到你感興趣的基因,根據(jù)文中提到的該基因在NCBI 中 的ID 號,直接打開http://www.ncbi.nlm.nih.gov , 在All Databases 后的下拉框中選擇Nucleotide,把基因 ID 號輸入Search 前面的文本框中,點“Search”,就可以找到該基因了。
舉例說明
例如:在2003 年JBC 的文章(Conditional Knock-out of Integrin-linked KinaseDemonstrates an Essential Role in Protein Kinase B/Akt Activation)中出現(xiàn)了“calreticulin(GenBank accession number gi 16151096)”,那么把“16151096”輸入Search 前面的文本框中,點“Search”,就可以找到該基因了(當然包括基因序列等相關(guān)信息),見下圖。
檢索結(jié)果界面如下圖,可以看到GenBank 號為AY047586 的CALR 基因的相關(guān)信息了:
里面有很多基因的信息,再往下是基因的的核酸序列(ORIGIN 之后):
基因的翻譯區(qū)(CDS)點擊 CDS 即可得到:
下圖標示的褐色區(qū)域序列即為基因的編碼區(qū)序列:
這里需要指出一下,在顯示基因的頁面右下側(cè)有一個LinkOut to external resource,里面是與該基因相關(guān)的鏈接,對于該基因的相關(guān)研究是很有用的:
根據(jù)已經(jīng)獲得的基因的相關(guān)信息進行查找
如果只是知道基因的名字,怎么查序列呢?還是舉例說明,比如研究的基因名稱是人的VEGF 基因,那么怎么在NCBI 中找到它呢?首先打開http://www.ncbi.nlm.nih.gov/在All Databases 的下拉框中選擇Gene,然后在中間的文本框中輸入基因名稱“VEGF”,點擊Search...
搜索結(jié)果如下:
結(jié)果有很條,哪一條是我想要的基因呢?這時候要根據(jù)自己研究的基因所屬物種來選擇,如研究的是人屬(Homo sapiens)的,則點擊第四條。
里面是這個基因的詳細信息,需要指出的是,在NCBI 中,基因有很多別名(Aliases),你得到的基因名和NCBI 中記錄的名稱有可能不一致。比如在這里,VEGFA 是NCBI 中記錄的基因名稱,而它還有很多別名,比如VPF, VEGF(這就是我們要找的基因名稱 ), MVCD1。
再往下看,可以看到里面可以看到該基因再染色體上的位置,以及基因在轉(zhuǎn)錄時有幾個剪切體等信息。這個基因有很多轉(zhuǎn)錄本(isoform a 到 isoform r),可以看到其的mRNA 的鏈接(如NM_001025366.2)和蛋白質(zhì)的鏈接(如NP_001020537.2 )
isoform a 到 isoform r 哪個是自己想找的基因呢?這就需要根據(jù)自己查閱的文獻以及在這些基因序列后面的解釋來確定了。如果不清楚,一般選擇眾多mRNA 轉(zhuǎn)錄本中最長的轉(zhuǎn)錄本(longest isoform),即下圖中所標示的isoform a :
如果要找的基因是第一個序列即isoform a, 就可以點擊NM_001025366.1,得到如下基因的信息界面:
然后點擊左上方基因全稱下面的FASTA即可下載該序列。
二、引物設計原則
上述原則不一定需要全部遵循,一般根據(jù)引物設計工具擇優(yōu)選擇,具體設計還需要考慮以下情況:
跨外顯子設計跨外顯子設計的目的就是避免基因組的污染,跨外顯子設計有兩種辦法:
? (1)正向F引物和反向R引物落在不同的外顯子上:
此處注意:(a)如果產(chǎn)物大小允許,正向F引物和反向R引物可以落在不同的外顯子上;(b)如果正向F引物和反向R引物只能落在兩個相鄰的外顯子上,那優(yōu)先選擇內(nèi)含子最大的兩個外顯子上。
? (2)正向引物或者反向引物跨了兩個外顯子:
此處注意:(a)如果能選擇(1)就不要選擇(2)方法設計,(2)設計方法引物位置受限,設計得到的引物參數(shù)可能不是最優(yōu)。(b)如果選擇(2)方法設計,那跨兩個外顯子的引物的3端序列不要跨第二個外顯子太多序列,建議不要超過6個堿基,否則就相當于沒有跨外顯子設計。
特異性比對
從上述數(shù)據(jù)庫中查到該序列信息后,建議先使用NCBI進行比對,簡單做一個核苷酸比對和基因組比對。核苷酸比對的目的是看看這條序列有沒有與NCBI RefSeq同源性較高的序列信息。如果有,可能涉及到需要判斷他們是否是同一條基因的問題。基因組比對的目的是簡單判斷其外顯子個數(shù)組成。
引物位置
引物盡量不要落在LncRNA序列兩端100bp序列以內(nèi),原因是防止兩端序列不準確。
同源區(qū)設計
設計qPCR引物通常都選擇在同源區(qū)設計,檢測其總RNA情況,具體根據(jù)各自實驗要求而定。
三、設計工具
1. NCBI
登陸 http://www.ncbi.nlm.nih.gov/tools/primer-blast/,粘貼這段序列,設置好 RANGE 和 PCR 產(chǎn)物的大小,然后在下面點擊 GET PRIMERS,可以在線設計并比對引物。
最后選擇一個比較特異性的引物,條帶大小要盡量單一,其他的基因序列盡量不要比對到。
2.Primer Premier 5軟件
具體教程:https://jingyan.baidu.com/article/72ee561a18d98ae16138df8a.html
如果鏈接失效建議百度,嘿嘿!
3. 生物公司官網(wǎng)免費設計
比如上海生工:https://www.sangon.com
四、設計后比對
以下參考上海生工技術(shù)服務:https://www.sangon.com/class_Primer-Blast.html
主要目的:使用 Primer-Blast 比對引物的特異性
引物的特異性
引物是一段短的單鏈寡核苷酸,在PCR過程的退火階段,引物與單鏈模板結(jié)合,DNA聚合酶沿著引物的3末端向后進行DNA的合成。引物與模板的結(jié)合遵循堿基互補配對的原則,因此,當退火溫度不合適或引物設計不合理時,引物會結(jié)合到模板的非目標區(qū)域,從而導致其他片段的擴增。
所謂引物特異性,就是引物結(jié)合模板正確位置的能力,或者避免結(jié)合非目標位置的能力。引物的長度、GC含量、堿基分布、Tm值等性質(zhì),均會影響其特異性。
Primer-Blast比對引物特異性的原理
NCBI收錄了諸多物種的基因組DNA、編碼序列mRNA以及其他相關(guān)核酸序列的數(shù)據(jù)。使用Primer-Blast進行比對,首先要輸入一對引物序列,并選擇序列所屬數(shù)據(jù)庫。此時系統(tǒng)將在該數(shù)據(jù)庫中對序列進行查找和對比,并將引物可能結(jié)合的位置進行記錄,一旦結(jié)合位置處于兩條鏈并且產(chǎn)物大小符合要求,系統(tǒng)就會將這種情況列舉到結(jié)果中。需要注意的是,結(jié)合模板的引物不僅是一條正向一條反向,也有可能是兩條正向或者兩條反向引物。
Primer-Blast比對引物特異性的步驟
打開NCBI,進入Blast,網(wǎng)頁如下:
點擊上圖紅框標記的Primer-Blast,進入如下界面,在界面引物序列處,將正反向引物序列粘貼進去,5-3方向。產(chǎn)物大小默認為70~1000,可以根據(jù)實際情況進行調(diào)整。
選擇相應的物種和參考數(shù)據(jù)庫。
首先,要確保Specificity check一欄中已經(jīng)打勾。Search mode一般選擇Automatic即可。
物種:人源的基因選擇Homo sapiens(taxid:9606);小鼠的選擇Mus musculus (taxid:10090);大鼠的選擇Rattus norvegicus(taxid:10116)。
參考數(shù)據(jù)庫:要看PCR的模板是什么,如果是提取的RNA反轉(zhuǎn)錄后得到cDNA就選擇Refseq mRNA(針對mRNA)或Refseq RNA(針對mRNA和lncRNA);若模板是基因組,則應該選擇Refseq representative genomes。在Exclusion行中,可以對預測的序列以及環(huán)境/不可培養(yǎng)樣本序列的干擾。
分析
選好數(shù)據(jù)庫和物種后點擊頁面左下角的Get Primers,系統(tǒng)進行分析,一段時間后會進入如下頁面:(該頁面以一對人EGFR的qPCR引物為例)
結(jié)果分析
上圖顯示了多個結(jié)果,原因是EGFR基因有多個轉(zhuǎn)錄變體,這對引物能夠?qū)⑾路斤@示出來的變體都檢測到。
每個結(jié)果分為多個部分:
第一部分為比對出來的基因結(jié)果;對于mRNA數(shù)據(jù)庫,提供了該mRNA的NM號,對于基因組數(shù)據(jù)庫,則會顯示出基因組編號,點進去會出現(xiàn)預測的產(chǎn)物序列。
第二部分為預測出來的產(chǎn)物大小。
第三部分為正反向引物和模板的結(jié)合形式,“點”代表該位置的序列和模板完全互補配對。
非特異性結(jié)果如下:
如上圖,紅框位置并非是“點”,而是堿基,說明該位置跟模板不匹配,這種屬于潛在的非特異性擴增結(jié)果。
總結(jié)
對于常規(guī)PCR,產(chǎn)物可以通過凝膠電泳對非特異性條帶進行分離,引物的非特異性并不是很重要,但是對于SYBR Green染料法熒光定量PCR,引物的特異性則非常重要。但是,并不是說預測出了非特異結(jié)果,引物的性質(zhì)就一定不好,需要具體情況具體對待:
首先,引物的3端對擴增效率的影響是非常大的,如果預測出的非特異性結(jié)果中,3端存在不匹配堿基,說明即使引物能夠結(jié)合模板,但3端會翹起,導致無法擴增,這一類的非特異結(jié)果可以忽略。
其次,PCR的產(chǎn)物大小是有限制的,尤其對于qPCR,由于延伸時間非常有限,大于1000的產(chǎn)物是基本上無法擴增出來的,如果非特異性產(chǎn)物遠大于目的產(chǎn)物大小,這種非特異性結(jié)果也是可以忽略的。
最后,任何引物工具或者軟件,都是根據(jù)一定的參數(shù)和算法進行的預測,結(jié)果只是起到了參考、建議的作用,并不能代表該引物的實際使用情況。最后引物的好壞需要設計合成后,使用了才能明確。