核酸和蛋白質序列分析
關鍵詞: 核酸序列???蛋白質序列???分析???軟件
在獲得一個基因序列后,需要對其進行生物信息學分析,從中盡量發掘信息,從而指導進一步的實驗研究。通過染色體定位分析、內含子/外顯子分析、ORF分析、表達譜分析等,能夠闡明基因的基本信息。通過啟動子預測、CpG島分析和轉錄因子分析等,識別調控區的順式作用元件,可以為基因的調控研究提供基礎。通過蛋白質基本性質分析,疏水性分析,跨膜區預測,信號肽預測,亞細胞定位預測,抗原性位點預測,可以對基因編碼蛋白的性質作出初步判斷和預測。尤其通過疏水性分析和跨膜區預測可以預測基因是否為膜蛋白,這對確定實驗研究方向有重要的參考意義。此外,通過相似性搜索、功能位點分析、結構分析、查詢基因表達譜聚簇數據庫、基因敲除數據庫、基因組上下游鄰居等,盡量挖掘網絡數據庫中的信息,可以對基因功能作出推論。上述技術路線可為其它類似分子的生物信息學分析提供借鑒。本路線圖及推薦網址已建立超級鏈接,放在北京大學人類疾病基因研究中心網站(http://gene.bjmu.edu.cn/science/bioinfomatics.htm),可以直接點擊進入檢索網站。
下面介紹其中一些基本分析。值得注意的是,在對序列進行分析時,首先應當明確序列的性質,是mRNA序列還是基因組序列?是計算機拼接得到還是經過PCR擴增測序得到?是原核生物還是真核生物?這些決定了分析方法的選擇和分析結果的解釋。(一)核酸序列分析
1
、雙序列比對(pairwise
? alignment)
雙序列比對是指比較兩條序列的相似性和尋找相似堿基及氨基酸的對應位置,它是用計算機進行序列分析的強大工具,分為全局比對和局部比對兩類,各以Needleman-Wunsch算法和Smith-Waterman算法為代表。由于這些算法都是啟發式(heuristic)的算法,因此并沒有最優值。根據比對的需要,選用適當的比對工具,在比對時適當調整空格罰分(gap penalty)和空格延伸罰分(gap extension
? penalty),以獲得更優的比對。
除了利用BLAST、FASTA等局部比對工具進行序列對數據庫的搜索外,我們還推薦使用EMBOSS軟件包中的Needle軟件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST
(http://www.ncbi.nlm.nih.gov/BLAST/)。以上介紹的這些雙序列比對工具的使用都比較簡單,一般輸入所比較的序列即可。
(1)BLAST和FASTA
FASTA(http://www.ebi.ac.uk/fasta33/)和BLAST(http://www.ncbi.nlm.nih.gov/BLAST/)是目前運用較為廣泛的相似性搜索工具。這兩個工具都采用局部比對的方法,選擇計分矩陣對序列計分,通過分值的大小和統計學顯著性分析確定有意義的局部比對。使用FASTA和BLAST,進行數據庫搜索,找到與查詢序列有一定相似性的序列。一般認為,如果蛋白的序列一致性為25-30%,則可認為序列同源。BLAST根據搜索序列和數據庫的不同類型分為5種(表2),另外PSI-BLAST通過迭代搜索,可以搜索到與查詢序列相似性較低的序列。其中BLASTN、BLASTP在實踐中最為常用,TBLASTN在搜索相似序列進行新基因預測時特別有用。
使用BLAST時,先選擇需要使用的BLAST程序,然后提供相應的查詢序列,選擇所比對的數據庫即可。
??? (2)?
? Needle
和Pairwise BLAST:其中Needle適用于蛋白質和DNA序列,而Pairwise BLAST僅適用于DNA序列
(3) 相似性和同源性:必須指出,相似性(similarity)和同源性( homology)是兩個完全不同的概念。同源序列是指從某一共同祖先經過趨異進化而形成的不同序列。相似性是指序列比對過程中檢測序列和目標序列之間相同堿基或氨基酸殘基序列所占比例的大小。經過比對,當相似性高于一定程度,可以推測序列可能是同源序列,具有一定同源性。
2
、多序列比對和進化樹
在研究生物問題時,常常需要同時對兩個以上的序列進行比對,這就是多序列比對。多序列比對可用于研究一組相關基因或蛋白,推斷基因的進化關系,還可用于發現一組功能或結構相關基因之間的共有模式(pattern)。最常用的多序列比對工具為ClustalW(http://www.ebi.ac.uk/clustalw/),多用于比較蛋白序列。
ClustalW
用法:(1)輸入:序列以FastA格式輸入。(2)輸出:除了以文本形式外,還可以通過JalView顯示和編輯結果。此外,還可以另外使用GeneDoc(常見于文獻)及DNAStar軟件等顯示結果。多序列比對的結果還用于進一步繪制進化樹。
3
、ORF(Open Reading
? Frame)分析
從核酸序列翻譯得到蛋白質序列,需要進行ORF分析,每個生物信息學分析軟件包幾乎都帶有翻譯功能。推薦使用NCBI的ORF Finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)軟件或EMBOSS中的getorf(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)軟件。ORF Finder 以圖形方式,分為正鏈+1、+2、+3和反鏈+1、+2、+3六個相位預測ORF;Getorf可指定預測ORF的長度下限和指定預測正反鏈。進行ORF分析雖然比較簡單,但應注意以下幾點:(1)序列的準確性:尤其是通過計算機拼接的序列,需要根據EST和基因組序列進行反復校正。(2)ORF是否完整:看在ORF上游同一相位是否具有終止碼,或者具有起始密碼子。(3)參考Kozak一致性規律,即起始密碼子位點符合A/GCCATGG。(4)不要忽略反義讀框。
4
、染色體定位
根據基因組圖譜對序列進行染色體定位和瀏覽其基因組上下游基因。具體方法為:(1)進行Genomic BLAST搜索。(2)通過“Genome view”觀察基因組結構。(3)點擊相應染色體區域,通過表意圖(ideogram)和相應區域上下游的基因進行精確定位。
5
、基因結構分析
根據基因的mRNA序列及基因組序列,可以進行基因結構的分析。推薦使用BLAST(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)進行分析。由于真核生物轉錄后內含子將被剪切,因此將mRNA和基因組進行比對以后,會發現mRNA的每個外顯子與基因組序列片斷匹配,根據這些片段可以判斷外顯子的數目和大小。外顯子和內含子具體邊界的確定,可以參考GT/AG一致性規則。BLAT的結果直接顯示外顯子數目、大小及邊界。
6
、基因上游調控區分析(1)啟動子預測:推薦使用冷泉港開發的FIRSTEF程序(http://rulai.cshl.org/tools/FirstEF/)進行啟動子預測。用RT-PCR等實驗方法獲得的mRNA往往缺少完整的5’端,采用FirstEF 程序可以對第一外顯子(尤其是非編碼的第一外顯子)和CpG相關啟動子進行預測。方法:以FastA格式輸入起始密碼子上游序列。(2)轉錄因子結合位點分析:推薦使用TFSEARCH程序(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序(http://www.gene-regulation.com/pub/programs.html#match)對轉錄因子數據庫TRANSFAC(http://transfac.gbf.de/TRANSFAC/)進行搜索,尋找可能的轉錄因子結合位點。方法:輸入起始密碼子上游序列。結果將給出很多可能的轉錄因子結合位點,注意選擇其中分值較高的位點。(二) 蛋白質序列分析
1
、跨膜區預測
各個物種的膜蛋白的比例差別不大,約四分之一的人類已知蛋白為膜蛋白。由于膜蛋白不溶于水,分離純化困難,不容易生長晶體,很難確定其結構。因此,對膜蛋白的跨膜螺旋進行預測是生物信息學的重要應用。
使用TMHMM軟件(http://www.cbs.dtu.dk/services/TMHMM/)對蛋白進行跨膜預測。TMHMM綜合了跨膜區疏水性、電荷偏倚、螺旋長度和膜蛋白拓撲學限制等性質,采用隱馬氏模型(Hidden Markov
? Models),對跨膜區及膜內外區進行整體的預測。TMHMM是目前最好的進行跨膜區預測的軟件,它尤其長于區分可溶性蛋白和膜蛋白,因此首選它來判定一個蛋白是否為膜蛋白。所有跨膜區預測軟件的準確性都不超過52%,但86%的跨膜區可以通過不同的軟件進行正確預測。因此,綜合分析不同的軟件預測結果和疏水性圖以獲得更好的預測結果。方法:輸入待分析的蛋白序列即可。
2
、信號肽預測
信號肽位于分泌蛋白的N端,當蛋白跨膜轉移位置時被切掉。信號肽的特征是包括一個正電荷區域、一個疏水性區域和不帶電荷但具有極性的區域。信號肽切割位點的-3和-1位為小而中性氨基酸。推薦使用SignalP軟件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)對PDCD5N端序列進行信號肽分析。SignalP2.0根據信號肽序列特征,采用神經網絡方法或隱馬氏模型方法,根據物種的不同,分別選擇用真核和原核序列進行訓練,對信號肽位置及切割位點進行預測。信號肽切割位點預測用Y-score maximum來判斷,對是否分泌蛋白用mean S-score來判斷:如果mean S-score大于0.5,則預測為分泌蛋白,存在信號肽,但II型跨膜蛋白的N端序列可能被錯誤預測為分泌蛋白的信號肽。方法:輸入待分析的蛋白序列,如為原核基因選擇原核訓練集,否則選擇真核訓練集。
3
、亞細胞定位預測
亞細胞定位與蛋白質的功能存在著非常重要的聯系。亞細胞定位預測基于如下原理:(1)不同的細胞器往往具有不同的理化環境,它根據蛋白質的結構及表面理化特征,選擇性容納蛋白。(2)蛋白質表面直接暴露于細胞器環境中,它由序列折疊過程決定,而后者取決于氨基酸組成。因此可以通過氨基酸組成進行亞細胞定位的預測。
推薦使用PSORT(http://psort.nibb.ac.jp/)II軟件對PDCD5蛋白的細胞內定位進行預測。PSORT將動物蛋白質定位于10個細胞器:(1)細胞漿,(2)細胞骨架,(3)內質網,(4)胞外,(5)高爾基體,(6)溶酶體,(7)線粒體,(8)胞核,(9)過氧化物酶體(peroxisome)和(10)細胞膜。
DNA
序列分析技術路線圖
cDNA
Featues
AATAAA signal,Polyadenylation
Electronic elongation(EST)
ORFs(ORF Finder, getorf)
Restriction site(DNASIS)
Expression profile
EST
SAGEmap,SAGE Genie
Microarray(WormBase)
Genomic sequence
Features
chromosome location(Human Genome)
MW, base compositon(DNAMAN)
Exon-intron(SIM4)
Repeats(RepeatMasker)
SNPs(dbSNP, TSC)
5' flanking sequence
Promoter, TATA box(FIRSTEF)
CpG island(cpgplot)
Transcription factor binding site(TFSEARCH, match)
Novel gene prediction(EST, stackPACK)
蛋白序列分析技術路線圖
Protein
features
MW,pi,AA composition(EMBOSS)
Hydrophobicity(BioEdit)
Transmembrane region(TMHMM)
Signal peptide(Signal P)
subcellular location(PSORT)
Coiled coil(COILS)
Antigenic site(DNAStar)
Function inference
Gene knockouts(WormBase)
Similarity search
Alignment(BLAST,FASTA,CLUSTALW)
Phylogenic analysis(DNANAN)
Genome context(COG)
Motif,profile,domain(PROSITE,Pfam,SMART)
Expression 'topology'(WormBase)
Structure information
Secondary structure prediction(PHP)
Structure classification(SCOP)
Structure modeling(HOMOLOGY,DISCOVER)
Binding site analysis(Binding site)