生物數(shù)據(jù)庫(kù)
基本序列格式
1.FASTA格式:
首行為描述行,以>為起始,其后為描述信息;
第二行即為原始序列。
2.FASTQ格式:FASTQ格式包括四部分信息:
第一行為包含序列名稱及其他信息,以@開頭。
第二行即為具體的堿基信息。
第三行內(nèi)容與第一行相同,但以+開頭,內(nèi)容可以省略,但是+不可以省略!!!
第四行為序列的質(zhì)量信息,即測(cè)序的質(zhì)量評(píng)價(jià),與第二行之堿基序列一一對(duì)應(yīng)。
3.GFF格式:
列1(seqid) | 列2(source) | 列3(type) | 列4&5(start&end) |
---|---|---|---|
序列名稱 | 軟件來(lái)源 | 注釋類型 | 起始和終止位置 |
列6(score) | 列7(strand) | 列8(phase) | 列9(attributes) |
---|---|---|---|
得分(.表示空) | 序列方向(?表示未知,+-表示正反) | 相位 | 群(附屬關(guān)系) |
4.GBFF格式:GenBank專用格式。此格式分為:描述部分、注釋部分、序列部分
描述部分包括整個(gè)記錄的相關(guān)信息:位置(LOCUS)、定義(DEFINITION)、檢索號(hào)(ACCESSION)、
版本(VERSION)、關(guān)鍵詞(KEYWORDS)、來(lái)源(SOURCE)、參考文獻(xiàn)(REFERENCE)等。
注釋部分(FEATURES)描述基因和基因產(chǎn)物以及與序列相關(guān)的生物學(xué)特征。
序列部分(ORIGIN)即核苷酸序列。
GEFF格式的結(jié)束符為//,所有的GEFF格式文件最后一行均以//結(jié)尾
常用數(shù)據(jù)庫(kù)
核酸數(shù)據(jù)庫(kù)
GenBank | ENA(EMBL) | DDBJ |
---|---|---|
https://www.ncbi.nlm.nih.gov/genbank/ | https://www.ebi.ac.uk/ena | https://www.ddbj.nig.ac.jp/index-e.html |
已測(cè)序生物https://zh.wikipedia.org/zh-hans/%E5%B7%B2%E6%B8%AC%E5%BA%8F%E7%9A%84%E7%94%9F%E7%89%A9
常用的基因組數(shù)據(jù)庫(kù):
Ensembl:人、鼠、脊椎動(dòng)物和真核生物基因組http://asia.ensembl.org/index.html
Ensembl Genomes:細(xì)菌、原核生物、植物等http://ensemblgenomes.org/
Ensembl plants:植物基因組數(shù)據(jù)庫(kù)http://plants.ensembl.org/index.html
UCSC:脊椎動(dòng)物http://genome.ucsc.edu/
CAMERA:微生物http://www.camera.calit2.net/
NCBI genomes:整合數(shù)據(jù)庫(kù)https://www.ncbi.nlm.nih.gov/genome
EcoCyc:大腸桿菌基因組機(jī)器轉(zhuǎn)錄調(diào)控?cái)?shù)據(jù)庫(kù)https://ecocyc.org/
TAIR:擬南芥資源信息數(shù)據(jù)庫(kù)http://www.arabidopsis.org/
plantGDB:植物基因組數(shù)據(jù)庫(kù)http://www.plantgdb.org/
CottonGen:棉花基因數(shù)據(jù)庫(kù)https://www.cottongen.org
maizeGDB:玉米基因組數(shù)據(jù)庫(kù)http://www.maizegdb.org/
非編碼RNA數(shù)據(jù)庫(kù)
非編碼ENA包括rRNA,tRNA,snRNA,snoRNA,microRNA等,這些RNA不直接翻譯成蛋白,但是都能轉(zhuǎn)錄,并在RNA水平上行使各自的功能。
1.非編碼小RNA數(shù)據(jù)庫(kù):
miRBase | piRNAbank | GtRNAdb | SILVA |
---|---|---|---|
http://www.mirbase.org/ | http://pirnabank.ibab.ac.in/ | http://gtrnadb.ucsc.edu/ | https://www.arb-silva.de/ |
2.長(zhǎng)非編碼RNA數(shù)據(jù)庫(kù):
LncRNAdb:真核生物http://www.lncrnadb.org/
LncRNAwiki:人類長(zhǎng)非編碼RNA數(shù)據(jù)庫(kù)http://lncrna.big.ac.cn/index.php/Main_Page
3.非編碼RNA家族數(shù)據(jù)庫(kù)
Rfam:類似于Pfam的RNA家族注釋數(shù)據(jù)庫(kù)http://rfam.xfam.org/
蛋白質(zhì)數(shù)據(jù)庫(kù)
1.蛋白序列數(shù)據(jù)庫(kù):
Pfam | UniProt | PIR | Antibodies | BRENDA | HPRD |
---|---|---|---|---|---|
http://pfam.xfam.org/ | https://www.uniprot.org/ | http://www.proteininformationresource.org/ | http://www.bioinf.org.uk/abs/ | http://www.brenda-enzymes.org/ | http://www.hprd.org/ |
InterPro | iProClass | PRF | REBASE | SwissProt |
---|---|---|---|---|
http://www.ebi.ac.uk/interpro/ | http://pir.georgetown.edu/iproclass/ | http://www.prf.or.jp/ | http://rebase.neb.com/rebase/rebase.html | http://us.expasy.org/sprot/ |
2.蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù):
PDB(已確定結(jié)構(gòu)) | SCOP | CATH | PSI |
---|---|---|---|
http://www.rcsb.org/ | http://scop.mrc-lmb.cam.ac.uk/scop/ | http://www.cathdb.info/ | http://www.uwstructuralgenomics.org/ |
3.PRIDE蛋白組數(shù)據(jù)庫(kù)https://www.ebi.ac.uk/pride/archive/
4.蛋白質(zhì)功能域數(shù)據(jù)庫(kù):
PROSITE(最全面) | Pfam(最專業(yè)) | ProDom | CCD |
---|---|---|---|
https://prosite.expasy.org/ | http://pfam.xfam.org/ | http://prodom.prabi.fr/ | http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtm |
Prints | SMART | TIGRFAM |
---|---|---|
http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/index.php | http://smart.embl-heidelberg.de/ | http://www.tigr.org/TIGRFAMs/ |
5.蛋白互作數(shù)據(jù)庫(kù):
STRING | DIP | BioGRID | IntAct |
---|---|---|---|
https://string-db.org/ | https://dip.doe-mbi.ucla.edu/dip/Main.cgi | https://thebiogrid.org/ | https://www.ebi.ac.uk/intact/ |
代謝數(shù)據(jù)庫(kù)
Pathguide通路數(shù)據(jù)庫(kù)匯總網(wǎng)站http://www.pathguide.org/
1.代謝途徑數(shù)據(jù)庫(kù):
KEGG | GO | NCBI BioSystems |
---|---|---|
https://www.kegg.jp/ | http://www.geneontology.org/ | https://www.ncbi.nlm.nih.gov/biosystems |
IMP | plantCyc | MANET | MetaNetX |
---|---|---|---|
http://imp.princeton.edu/ | https://www.plantcyc.org/ | https://manet.illinois.edu/ | https://www.metanetx.org/ |
MapMan:一個(gè)功能強(qiáng)大的代謝途徑查看和編輯軟件
2.代謝組學(xué)常用數(shù)據(jù)庫(kù):
MataboLights | HMDB | YMDB | ECMDB |
---|---|---|---|
https://www.ebi.ac.uk/metabolights/ | http://www.hmdb.ca/ | http://www.ymdb.ca/ | http://ecmdb.ca/ |
3.表型數(shù)據(jù)庫(kù):
Planteome | dbGaP | IPPN |
---|---|---|
http://www.planteome.org/ | https://www.ncbi.nlm.nih.gov/gap/ | https://www.plant-phenotyping.org/ |
序列比對(duì)與基因預(yù)測(cè)、注釋
多序列比對(duì)
同源性是指多條序列存在進(jìn)化方面的關(guān)系,其由同一條共同的祖先序列進(jìn)化而來(lái);相似性僅僅表明多條序列間具有一定的相似程度。
Blast為多序列比對(duì)最常用的工具https://blast.ncbi.nlm.nih.gov/Blast.cgi
Clustal為最成功的多序列全局配聯(lián)算法,其有Web工具和桌面版工具,且其結(jié)果可被MEGA直接讀取http://www.clustal.org/
基因預(yù)測(cè)與功能注釋
1.基因組基本知識(shí):
一個(gè)生物的基因組指的是一套染色體中完整的DNA序列。真核生物基因組一般包含35-80%的重復(fù)序列和約5%的蛋白編碼序列。一個(gè)蛋白的編碼基因往往包含多個(gè)外顯子或蛋白編碼序列,外顯子被非編碼的內(nèi)含子隔開。
蛋白質(zhì)編碼基因結(jié)構(gòu)一般為包含編碼和非編碼序列,編碼區(qū)(外顯子)被非編碼區(qū)(內(nèi)含子)隔斷,蛋白編碼區(qū)(CDS)包括大部分外顯子序列(除卻兩端的非翻譯區(qū)-UTR)。
從蛋白合成的起始密碼子到終止密碼子的連續(xù)編碼序列為一個(gè)開放閱讀框(ORF)。基因表達(dá)后被轉(zhuǎn)錄成前體mRNA,經(jīng)剪切切除內(nèi)含子,并將外顯子連接成成熟mRNA,并進(jìn)一步翻譯成蛋白質(zhì)。
[圖片上傳失敗...(image-c35f39-1559182093848)]
2.基因功能預(yù)測(cè)方法主要包括:同源比對(duì)方法和從頭預(yù)測(cè)方法。
同源比對(duì)方法是利用近緣物種已知基因進(jìn)行序列比對(duì),發(fā)現(xiàn)同源序列,并結(jié)合基因信號(hào)進(jìn)行基因預(yù)測(cè)的方法。
從頭注釋則是根據(jù)編碼區(qū)統(tǒng)計(jì)特征和基因信號(hào)進(jìn)行基因結(jié)構(gòu)預(yù)測(cè),目前最被接受的預(yù)測(cè)方法是隱馬爾可夫模型(HMM)。
FGENESH | AUGUSTUS |
---|---|
http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind | http://bioinf.uni-greifswald.de/augustus/submission.php |
GENESCAN | GeneMark | Glimmer |
---|---|---|
http://argonaute.mit.edu/GENSCAN.html | http://topaz.gatech.edu/GeneMark/ | http://ccb.jhu.edu/software/glimmer/index.shtml |
3.基因注釋
少量基因功能注釋可用Blast,Interproscan http://www.ebi.ac.uk/interpro/,
大量基因注釋可選用NCBI提供的本地BLAST程序ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-win64.exe
其他注釋:
WEGO http://wego.genomics.org.cn/
KAAS https://www.genome.jp/tools/kaas/
4.基因結(jié)構(gòu)預(yù)測(cè)和繪圖
Exon-Intron Graphic Maker根據(jù)候選基因的外顯子和內(nèi)含子等信息繪制基因結(jié)構(gòu)http://wormweb.org/exonintron
Blastp可在線獲取蛋白結(jié)構(gòu)域的注釋和位置信息https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
5.同源基因分析
OrthoDB是直系同源物的綜合目錄https://www.orthodb.org/
6.蛋白二級(jí)三級(jí)結(jié)構(gòu)預(yù)測(cè)及繪圖
蛋白質(zhì)二級(jí)結(jié)構(gòu)(secondary structure of protein)是指蛋白質(zhì)的多肽鏈中有規(guī)則重復(fù)的構(gòu)象,限于主鏈原子的局部空間排列,不包括與肽鏈其他區(qū)段的相互關(guān)系及側(cè)鏈構(gòu)象。二級(jí)結(jié)構(gòu)是通過(guò)骨架上的羰基和酰胺基團(tuán)之間形成的氫鍵維持的,氫鍵是穩(wěn)定二級(jí)結(jié)構(gòu)的主要作用力。常見的二級(jí)結(jié)構(gòu)主要有 α-螺旋、β-折疊、β-轉(zhuǎn)角。蛋白質(zhì)三級(jí)結(jié)構(gòu)是指多肽鏈在二級(jí)結(jié)構(gòu)或者超二級(jí)結(jié)構(gòu)甚至結(jié)構(gòu)域的基礎(chǔ)上,進(jìn)一步盤繞、折疊,通過(guò)次級(jí)鍵的維系固定所形成的特定空間結(jié)構(gòu)
CFSSP http://www.biogem.org/tool/chou-fasman/
SOPMA https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html
PredictProtein https://www.predictprotein.org/
SWISS-MODEL https://swissmodel.expasy.org/interactive
7.蛋白特性分析
蛋白特性分析是指蛋白的一些物理和化學(xué)參數(shù),如分子量、等電點(diǎn)、氨基酸和原子組成、消光系數(shù)、半衰期、不穩(wěn)定系數(shù)、脂肪族氨基酸指數(shù)、親水性。這些參數(shù),有助于進(jìn)行蛋白的相關(guān)生化實(shí)驗(yàn)。比如在體外體系(大腸桿菌、酵母等)表達(dá)和純化目的蛋白時(shí),需要考慮蛋白的分子量、等電點(diǎn)、消光系數(shù)、不穩(wěn)定系數(shù)和親水性等。在酶活實(shí)驗(yàn)中,也需要根據(jù)這些參數(shù)優(yōu)化實(shí)驗(yàn)體系ProtParam http://web.expasy.org/protparam/
8.蛋白親疏水性分析
蛋白氨基酸的親疏水性主要由其側(cè)鏈基團(tuán)R,如果R只是H或是C、H兩元素組成的話,都是疏水的,如果含有極性側(cè)鏈基團(tuán),如-OH、-SH、-COOH、-NH2 等,則就是極性的(親水的)。疏水性氨基酸有酪氨酸、色氨酸、苯丙氨酸、纈氨酸、亮氨酸、異亮氨酸、丙氨酸和蛋氨酸(甲硫氨酸)。疏水性氨基酸在蛋白質(zhì)內(nèi)部,在保持蛋白質(zhì)的三級(jí)結(jié)構(gòu)上,酶和基質(zhì)、抗體和抗原間的相互作用等各種非共價(jià)鍵的分子結(jié)合方面,具有重要作用
Protscale可對(duì)蛋白親疏水性進(jìn)行進(jìn)一步分析https://web.expasy.org/protscale/
9.跨膜結(jié)構(gòu)分析
蛋白的跨膜結(jié)構(gòu)分析對(duì)于預(yù)測(cè)蛋白的亞細(xì)胞定位密切相關(guān)。如果具有跨膜結(jié)構(gòu),蛋白很可能定位于細(xì)胞中與膜相關(guān)的結(jié)構(gòu),如細(xì)胞質(zhì)膜、葉綠體膜或線粒體膜等內(nèi)膜系統(tǒng)。此外,蛋白跨膜結(jié)構(gòu)分析對(duì)于蛋白功能分析也有一定的幫助。比如某蛋白沒有跨膜結(jié)構(gòu),但是亞細(xì)胞定位實(shí)驗(yàn)顯示其可定位于膜相關(guān)結(jié)構(gòu),這說(shuō)明該蛋白可能通過(guò)其他膜定位蛋白招募過(guò)去的。在線工具TMHMM對(duì)候選基因進(jìn)行跨膜結(jié)構(gòu)域分析http://www.cbs.dtu.dk/services/TMHMM/
10.信號(hào)肽分析
信號(hào)肽是指引導(dǎo)新合成的蛋白質(zhì)向分泌通路轉(zhuǎn)移的短肽鏈,常位于蛋白的N-末端,負(fù)責(zé)把蛋白質(zhì)引導(dǎo)到不同膜結(jié)構(gòu)的亞細(xì)胞器內(nèi)。編碼分泌蛋白的mRNA在翻譯時(shí)首先合成N末端的信號(hào)肽,它被信號(hào)肽識(shí)別蛋白(SRP)所識(shí)別,SRP將核糖體攜帶至內(nèi)質(zhì)網(wǎng)上,內(nèi)質(zhì)網(wǎng)膜上的 SPR 受體識(shí)別并與之結(jié)合。新合成蛋白在信號(hào)肽引導(dǎo)下到達(dá)內(nèi)質(zhì)網(wǎng)內(nèi)腔,而信號(hào)肽則在信號(hào)肽酶的作用下被切除。由于它的引導(dǎo),新生的多肽就能夠通過(guò)內(nèi)質(zhì)網(wǎng)膜進(jìn)入腔內(nèi),最終被分泌到胞外。在宿主菌中表達(dá)外源蛋白時(shí),可用信號(hào)肽引導(dǎo)外源蛋白定位分泌到胞外,提高蛋白可溶性,在原核表達(dá)系統(tǒng)(大腸桿菌、芽孢桿菌等)和真核表達(dá)系統(tǒng)(如畢赤酵母)中均有應(yīng)用。通過(guò)在線分析工具SignalP可對(duì)候選基因進(jìn)行信號(hào)肽分析,峰信號(hào)位置為信號(hào)肽切割點(diǎn),峰之前的序列為信號(hào)肽http://www.cbs.dtu.dk/services/SignalP/
11.磷酸化位點(diǎn)分析
蛋白質(zhì)磷酸化指由蛋白質(zhì)激酶催化的把 ATP 的磷酸基轉(zhuǎn)移到底物蛋白質(zhì)氨基酸殘基(絲氨酸、蘇氨酸、酪氨酸)上的過(guò)程,或者在信號(hào)作用下結(jié)合 GTP(通常以 GTP 取代 GDP),是生物體內(nèi)一種普通的調(diào)節(jié)方式,在細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)的過(guò)程中起重要作用。在信號(hào)達(dá)到時(shí)通過(guò)獲得一個(gè)或幾個(gè)磷酸集團(tuán)而被激活,而在信號(hào)減弱時(shí)能去除這些集團(tuán),從而失去活性。有時(shí)某個(gè)信號(hào)蛋白磷酸化通常造成下游的蛋白依次發(fā)生磷酸化,形成磷酸化級(jí)聯(lián)反應(yīng)
NetPhos http://www.cbs.dtu.dk/services/NetPhos/
KinasePhos-2.0 http://kinasephos2.mbc.nctu.edu.tw/
12.亞細(xì)胞定位預(yù)測(cè)
PSORT Prediction http://psort1.hgc.jp/form.html
13.啟動(dòng)子分析
Plantcare http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
14.調(diào)控目的基因的miRNA預(yù)測(cè)
psRNAtarget http://plantgrn.noble.org/psRNATarget/analysis?function=2
15.表達(dá)分析
在分析基因功能時(shí),通常會(huì)參考基因的表達(dá)模式,即基因在植物不同組織不同發(fā)育時(shí)期的表達(dá)豐度變化。通過(guò)在線分析網(wǎng)站BAR對(duì)候基因進(jìn)行表達(dá)分析。BAR 是一個(gè)植物生信分析資源網(wǎng)站,用該網(wǎng)站分析基因表達(dá)時(shí),不僅可以獲得基因表達(dá)模式的熱圖,還可以獲得可視化的電子熒光圖片,直觀呈現(xiàn)基因在植物組織中的表達(dá)位置http://bar.utoronto.ca