2021-03-03

核酸和蛋白質序列分析

關鍵詞: 核酸序列???蛋白質序列???分析???軟件


在獲得一個基因序列后,需要對其進行生物信息學分析,從中盡量發掘信息,從而指導進一步的實驗研究。通過染色體定位分析、內含子/外顯子分析、ORF分析、表達譜分析等,能夠闡明基因的基本信息。通過啟動子預測、CpG島分析和轉錄因子分析等,識別調控區的順式作用元件,可以為基因的調控研究提供基礎。通過蛋白質基本性質分析,疏水性分析,跨膜區預測,信號肽預測,亞細胞定位預測,抗原性位點預測,可以對基因編碼蛋白的性質作出初步判斷和預測。尤其通過疏水性分析和跨膜區預測可以預測基因是否為膜蛋白,這對確定實驗研究方向有重要的參考意義。此外,通過相似性搜索、功能位點分析、結構分析、查詢基因表達譜聚簇數據庫、基因敲除數據庫、基因組上下游鄰居等,盡量挖掘網絡數據庫中的信息,可以對基因功能作出推論。上述技術路線可為其它類似分子的生物信息學分析提供借鑒。本路線圖及推薦網址已建立超級鏈接,放在北京大學人類疾病基因研究中心網站(http://gene.bjmu.edu.cn/science/bioinfomatics.htm),可以直接點擊進入檢索網站

下面介紹其中一些基本分析。值得注意的是,在對序列進行分析時,首先應當明確序列的性質,是mRNA序列還是基因組序列?是計算機拼接得到還是經過PCR擴增測序得到?是原核生物還是真核生物?這些決定了分析方法的選擇和分析結果的解釋。(一)核酸序列分析

1

、雙序列比對(pairwise

? alignment)

雙序列比對是指比較兩條序列的相似性和尋找相似堿基及氨基酸的對應位置,它是用計算機進行序列分析的強大工具,分為全局比對和局部比對兩類,各以Needleman-Wunsch算法和Smith-Waterman算法為代表。由于這些算法都是啟發式(heuristic)的算法,因此并沒有最優值。根據比對的需要,選用適當的比對工具,在比對時適當調整空格罰分(gap penalty)和空格延伸罰分(gap extension

? penalty),以獲得更優的比對。

除了利用BLAST、FASTA等局部比對工具進行序列對數據庫的搜索外,我們還推薦使用EMBOSS軟件包中的Needle軟件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

http://www.ncbi.nlm.nih.gov/BLAST/)。以上介紹的這些雙序列比對工具的使用都比較簡單,一般輸入所比較的序列即可。

(1)BLAST和FASTA

FASTA(http://www.ebi.ac.uk/fasta33/)和BLAST(http://www.ncbi.nlm.nih.gov/BLAST/)是目前運用較為廣泛的相似性搜索工具。這兩個工具都采用局部比對的方法,選擇計分矩陣對序列計分,通過分值的大小和統計學顯著性分析確定有意義的局部比對。使用FASTA和BLAST,進行數據庫搜索,找到與查詢序列有一定相似性的序列。一般認為,如果蛋白的序列一致性為25-30%,則可認為序列同源。BLAST根據搜索序列和數據庫的不同類型分為5種(表2),另外PSI-BLAST通過迭代搜索,可以搜索到與查詢序列相似性較低的序列。其中BLASTN、BLASTP在實踐中最為常用,TBLASTN在搜索相似序列進行新基因預測時特別有用。

使用BLAST時,先選擇需要使用的BLAST程序,然后提供相應的查詢序列,選擇所比對的數據庫即可。

??? (2)?

? Needle

和Pairwise BLAST:其中Needle適用于蛋白質和DNA序列,而Pairwise BLAST僅適用于DNA序列


(3) 相似性和同源性:必須指出,相似性(similarity)和同源性( homology)是兩個完全不同的概念。同源序列是指從某一共同祖先經過趨異進化而形成的不同序列。相似性是指序列比對過程中檢測序列和目標序列之間相同堿基或氨基酸殘基序列所占比例的大小。經過比對,當相似性高于一定程度,可以推測序列可能是同源序列,具有一定同源性。

2

、多序列比對和進化樹

在研究生物問題時,常常需要同時對兩個以上的序列進行比對,這就是多序列比對。多序列比對可用于研究一組相關基因或蛋白,推斷基因的進化關系,還可用于發現一組功能或結構相關基因之間的共有模式(pattern)。最常用的多序列比對工具為ClustalW(http://www.ebi.ac.uk/clustalw/),多用于比較蛋白序列。

ClustalW

用法:(1)輸入:序列以FastA格式輸入。(2)輸出:除了以文本形式外,還可以通過JalView顯示和編輯結果。此外,還可以另外使用GeneDoc(常見于文獻)及DNAStar軟件等顯示結果。多序列比對的結果還用于進一步繪制進化樹。

3

、ORF(Open Reading

? Frame)分析

從核酸序列翻譯得到蛋白質序列,需要進行ORF分析,每個生物信息學分析軟件包幾乎都帶有翻譯功能。推薦使用NCBI的ORF Finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)軟件或EMBOSS中的getorf(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)軟件。ORF Finder 以圖形方式,分為正鏈+1、+2、+3和反鏈+1、+2、+3六個相位預測ORF;Getorf可指定預測ORF的長度下限和指定預測正反鏈。進行ORF分析雖然比較簡單,但應注意以下幾點:(1)序列的準確性:尤其是通過計算機拼接的序列,需要根據EST和基因組序列進行反復校正。(2)ORF是否完整:看在ORF上游同一相位是否具有終止碼,或者具有起始密碼子。(3)參考Kozak一致性規律,即起始密碼子位點符合A/GCCATGG。(4)不要忽略反義讀框。

4

、染色體定位

根據基因組圖譜對序列進行染色體定位和瀏覽其基因組上下游基因。具體方法為:(1)進行Genomic BLAST搜索。(2)通過“Genome view”觀察基因組結構。(3)點擊相應染色體區域,通過表意圖(ideogram)和相應區域上下游的基因進行精確定位。

5

、基因結構分析

根據基因的mRNA序列及基因組序列,可以進行基因結構的分析。推薦使用BLAST(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)進行分析。由于真核生物轉錄后內含子將被剪切,因此將mRNA和基因組進行比對以后,會發現mRNA的每個外顯子與基因組序列片斷匹配,根據這些片段可以判斷外顯子的數目和大小。外顯子和內含子具體邊界的確定,可以參考GT/AG一致性規則。BLAT的結果直接顯示外顯子數目、大小及邊界。

6

、基因上游調控區分析(1)啟動子預測:推薦使用冷泉港開發的FIRSTEF程序(http://rulai.cshl.org/tools/FirstEF/)進行啟動子預測。用RT-PCR等實驗方法獲得的mRNA往往缺少完整的5’端,采用FirstEF 程序可以對第一外顯子(尤其是非編碼的第一外顯子)和CpG相關啟動子進行預測。方法:以FastA格式輸入起始密碼子上游序列。(2)轉錄因子結合位點分析:推薦使用TFSEARCH程序(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序(http://www.gene-regulation.com/pub/programs.html#match)對轉錄因子數據庫TRANSFAC(http://transfac.gbf.de/TRANSFAC/)進行搜索,尋找可能的轉錄因子結合位點。方法:輸入起始密碼子上游序列。結果將給出很多可能的轉錄因子結合位點,注意選擇其中分值較高的位點。(二) 蛋白質序列分析

1

、跨膜區預測

各個物種的膜蛋白的比例差別不大,約四分之一的人類已知蛋白為膜蛋白。由于膜蛋白不溶于水,分離純化困難,不容易生長晶體,很難確定其結構。因此,對膜蛋白的跨膜螺旋進行預測是生物信息學的重要應用。

使用TMHMM軟件(http://www.cbs.dtu.dk/services/TMHMM/)對蛋白進行跨膜預測。TMHMM綜合了跨膜區疏水性、電荷偏倚、螺旋長度和膜蛋白拓撲學限制等性質,采用隱馬氏模型(Hidden Markov

? Models),對跨膜區及膜內外區進行整體的預測。TMHMM是目前最好的進行跨膜區預測的軟件,它尤其長于區分可溶性蛋白和膜蛋白,因此首選它來判定一個蛋白是否為膜蛋白。所有跨膜區預測軟件的準確性都不超過52%,但86%的跨膜區可以通過不同的軟件進行正確預測。因此,綜合分析不同的軟件預測結果和疏水性圖以獲得更好的預測結果。方法:輸入待分析的蛋白序列即可。

2

、信號肽預測

信號肽位于分泌蛋白的N端,當蛋白跨膜轉移位置時被切掉。信號肽的特征是包括一個正電荷區域、一個疏水性區域和不帶電荷但具有極性的區域。信號肽切割位點的-3和-1位為小而中性氨基酸。推薦使用SignalP軟件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)對PDCD5N端序列進行信號肽分析。SignalP2.0根據信號肽序列特征,采用神經網絡方法或隱馬氏模型方法,根據物種的不同,分別選擇用真核和原核序列進行訓練,對信號肽位置及切割位點進行預測。信號肽切割位點預測用Y-score maximum來判斷,對是否分泌蛋白用mean S-score來判斷:如果mean S-score大于0.5,則預測為分泌蛋白,存在信號肽,但II型跨膜蛋白的N端序列可能被錯誤預測為分泌蛋白的信號肽。方法:輸入待分析的蛋白序列,如為原核基因選擇原核訓練集,否則選擇真核訓練集。

3

、亞細胞定位預測

亞細胞定位與蛋白質的功能存在著非常重要的聯系。亞細胞定位預測基于如下原理:(1)不同的細胞器往往具有不同的理化環境,它根據蛋白質的結構及表面理化特征,選擇性容納蛋白。(2)蛋白質表面直接暴露于細胞器環境中,它由序列折疊過程決定,而后者取決于氨基酸組成。因此可以通過氨基酸組成進行亞細胞定位的預測。

推薦使用PSORT(http://psort.nibb.ac.jp/)II軟件對PDCD5蛋白的細胞內定位進行預測。PSORT將動物蛋白質定位于10個細胞器:(1)細胞漿,(2)細胞骨架,(3)內質網,(4)胞外,(5)高爾基體,(6)溶酶體,(7)線粒體,(8)胞核,(9)過氧化物酶體(peroxisome)和(10)細胞膜。

DNA

序列分析技術路線圖

cDNA

Featues

AATAAA signal,Polyadenylation

Electronic elongation(EST)

ORFs(ORF Finder, getorf)

Restriction site(DNASIS)

Expression profile

EST

SAGEmap,SAGE Genie

Microarray(WormBase)

Genomic sequence

Features

chromosome location(Human Genome)

MW, base compositon(DNAMAN)

Exon-intron(SIM4)

Repeats(RepeatMasker)

SNPs(dbSNP, TSC)

5' flanking sequence

Promoter, TATA box(FIRSTEF)

CpG island(cpgplot)

Transcription factor binding site(TFSEARCH, match)

Novel gene prediction(EST, stackPACK)

蛋白序列分析技術路線圖

Protein

features

MW,pi,AA composition(EMBOSS)

Hydrophobicity(BioEdit)

Transmembrane region(TMHMM)

Signal peptide(Signal P)

subcellular location(PSORT)

Coiled coil(COILS)

Antigenic site(DNAStar)

Function inference

Gene knockouts(WormBase)

Similarity search

Alignment(BLAST,FASTA,CLUSTALW)

Phylogenic analysis(DNANAN)

Genome context(COG)

Motif,profile,domain(PROSITE,Pfam,SMART)

Expression 'topology'(WormBase)

Structure information

Secondary structure prediction(PHP)

Structure classification(SCOP)

Structure modeling(HOMOLOGY,DISCOVER)

Binding site analysis(Binding site)

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,247評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,520評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,362評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,805評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,541評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,896評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,887評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,062評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,608評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,356評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,555評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,077評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,769評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,175評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,489評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,289評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,516評論 2 379

推薦閱讀更多精彩內容