生物數(shù)據(jù)庫(kù)

生物數(shù)據(jù)庫(kù)

基本序列格式

1.FASTA格式:
首行為描述行,以>為起始,其后為描述信息;
第二行即為原始序列。
2.FASTQ格式:FASTQ格式包括四部分信息:
第一行為包含序列名稱及其他信息,以@開頭。
第二行即為具體的堿基信息。
第三行內(nèi)容與第一行相同,但以+開頭,內(nèi)容可以省略,但是+不可以省略!!!
第四行為序列的質(zhì)量信息,即測(cè)序的質(zhì)量評(píng)價(jià),與第二行之堿基序列一一對(duì)應(yīng)。
3.GFF格式:

列1(seqid) 列2(source) 列3(type) 列4&5(start&end)
序列名稱 軟件來(lái)源 注釋類型 起始和終止位置
列6(score) 列7(strand) 列8(phase) 列9(attributes)
得分(.表示空) 序列方向(?表示未知,+-表示正反) 相位 群(附屬關(guān)系)

4.GBFF格式:GenBank專用格式。此格式分為:描述部分、注釋部分、序列部分
描述部分包括整個(gè)記錄的相關(guān)信息:位置(LOCUS)、定義(DEFINITION)、檢索號(hào)(ACCESSION)、
版本(VERSION)、關(guān)鍵詞(KEYWORDS)、來(lái)源(SOURCE)、參考文獻(xiàn)(REFERENCE)等。
注釋部分(FEATURES)描述基因和基因產(chǎn)物以及與序列相關(guān)的生物學(xué)特征。
序列部分(ORIGIN)即核苷酸序列。
GEFF格式的結(jié)束符為//,所有的GEFF格式文件最后一行均以//結(jié)尾

常用數(shù)據(jù)庫(kù)

核酸數(shù)據(jù)庫(kù)

GenBank ENA(EMBL) DDBJ
https://www.ncbi.nlm.nih.gov/genbank/ https://www.ebi.ac.uk/ena https://www.ddbj.nig.ac.jp/index-e.html

已測(cè)序生物https://zh.wikipedia.org/zh-hans/%E5%B7%B2%E6%B8%AC%E5%BA%8F%E7%9A%84%E7%94%9F%E7%89%A9
常用的基因組數(shù)據(jù)庫(kù):
Ensembl:人、鼠、脊椎動(dòng)物和真核生物基因組http://asia.ensembl.org/index.html
Ensembl Genomes:細(xì)菌、原核生物、植物等http://ensemblgenomes.org/
Ensembl plants:植物基因組數(shù)據(jù)庫(kù)http://plants.ensembl.org/index.html
UCSC:脊椎動(dòng)物http://genome.ucsc.edu/
CAMERA:微生物http://www.camera.calit2.net/
NCBI genomes:整合數(shù)據(jù)庫(kù)https://www.ncbi.nlm.nih.gov/genome
EcoCyc:大腸桿菌基因組機(jī)器轉(zhuǎn)錄調(diào)控?cái)?shù)據(jù)庫(kù)https://ecocyc.org/
TAIR:擬南芥資源信息數(shù)據(jù)庫(kù)http://www.arabidopsis.org/
plantGDB:植物基因組數(shù)據(jù)庫(kù)http://www.plantgdb.org/
CottonGen:棉花基因數(shù)據(jù)庫(kù)https://www.cottongen.org
maizeGDB:玉米基因組數(shù)據(jù)庫(kù)http://www.maizegdb.org/

非編碼RNA數(shù)據(jù)庫(kù)

非編碼ENA包括rRNA,tRNA,snRNA,snoRNA,microRNA等,這些RNA不直接翻譯成蛋白,但是都能轉(zhuǎn)錄,并在RNA水平上行使各自的功能。
1.非編碼小RNA數(shù)據(jù)庫(kù):

miRBase piRNAbank GtRNAdb SILVA
http://www.mirbase.org/ http://pirnabank.ibab.ac.in/ http://gtrnadb.ucsc.edu/ https://www.arb-silva.de/

2.長(zhǎng)非編碼RNA數(shù)據(jù)庫(kù):
LncRNAdb:真核生物http://www.lncrnadb.org/
LncRNAwiki:人類長(zhǎng)非編碼RNA數(shù)據(jù)庫(kù)http://lncrna.big.ac.cn/index.php/Main_Page
3.非編碼RNA家族數(shù)據(jù)庫(kù)
Rfam:類似于Pfam的RNA家族注釋數(shù)據(jù)庫(kù)http://rfam.xfam.org/

蛋白質(zhì)數(shù)據(jù)庫(kù)

1.蛋白序列數(shù)據(jù)庫(kù):

Pfam UniProt PIR Antibodies BRENDA HPRD
http://pfam.xfam.org/ https://www.uniprot.org/ http://www.proteininformationresource.org/ http://www.bioinf.org.uk/abs/ http://www.brenda-enzymes.org/ http://www.hprd.org/
InterPro iProClass PRF REBASE SwissProt
http://www.ebi.ac.uk/interpro/ http://pir.georgetown.edu/iproclass/ http://www.prf.or.jp/ http://rebase.neb.com/rebase/rebase.html http://us.expasy.org/sprot/

2.蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù):

PDB(已確定結(jié)構(gòu)) SCOP CATH PSI
http://www.rcsb.org/ http://scop.mrc-lmb.cam.ac.uk/scop/ http://www.cathdb.info/ http://www.uwstructuralgenomics.org/

3.PRIDE蛋白組數(shù)據(jù)庫(kù)https://www.ebi.ac.uk/pride/archive/
4.蛋白質(zhì)功能域數(shù)據(jù)庫(kù):

PROSITE(最全面) Pfam(最專業(yè)) ProDom CCD
https://prosite.expasy.org/ http://pfam.xfam.org/ http://prodom.prabi.fr/ http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtm
Prints SMART TIGRFAM
http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/index.php http://smart.embl-heidelberg.de/ http://www.tigr.org/TIGRFAMs/

5.蛋白互作數(shù)據(jù)庫(kù):

STRING DIP BioGRID IntAct
https://string-db.org/ https://dip.doe-mbi.ucla.edu/dip/Main.cgi https://thebiogrid.org/ https://www.ebi.ac.uk/intact/

代謝數(shù)據(jù)庫(kù)

Pathguide通路數(shù)據(jù)庫(kù)匯總網(wǎng)站http://www.pathguide.org/
1.代謝途徑數(shù)據(jù)庫(kù):

KEGG GO NCBI BioSystems
https://www.kegg.jp/ http://www.geneontology.org/ https://www.ncbi.nlm.nih.gov/biosystems
IMP plantCyc MANET MetaNetX
http://imp.princeton.edu/ https://www.plantcyc.org/ https://manet.illinois.edu/ https://www.metanetx.org/

MapMan:一個(gè)功能強(qiáng)大的代謝途徑查看和編輯軟件


2.代謝組學(xué)常用數(shù)據(jù)庫(kù):

MataboLights HMDB YMDB ECMDB
https://www.ebi.ac.uk/metabolights/ http://www.hmdb.ca/ http://www.ymdb.ca/ http://ecmdb.ca/

3.表型數(shù)據(jù)庫(kù):

Planteome dbGaP IPPN
http://www.planteome.org/ https://www.ncbi.nlm.nih.gov/gap/ https://www.plant-phenotyping.org/

序列比對(duì)與基因預(yù)測(cè)、注釋

多序列比對(duì)

同源性是指多條序列存在進(jìn)化方面的關(guān)系,其由同一條共同的祖先序列進(jìn)化而來(lái);相似性僅僅表明多條序列間具有一定的相似程度。
Blast為多序列比對(duì)最常用的工具https://blast.ncbi.nlm.nih.gov/Blast.cgi
Clustal為最成功的多序列全局配聯(lián)算法,其有Web工具和桌面版工具,且其結(jié)果可被MEGA直接讀取http://www.clustal.org/

基因預(yù)測(cè)與功能注釋

1.基因組基本知識(shí):
一個(gè)生物的基因組指的是一套染色體中完整的DNA序列。真核生物基因組一般包含35-80%的重復(fù)序列和約5%的蛋白編碼序列。一個(gè)蛋白的編碼基因往往包含多個(gè)外顯子或蛋白編碼序列,外顯子被非編碼的內(nèi)含子隔開。
蛋白質(zhì)編碼基因結(jié)構(gòu)一般為包含編碼和非編碼序列,編碼區(qū)(外顯子)被非編碼區(qū)(內(nèi)含子)隔斷,蛋白編碼區(qū)(CDS)包括大部分外顯子序列(除卻兩端的非翻譯區(qū)-UTR)。
從蛋白合成的起始密碼子到終止密碼子的連續(xù)編碼序列為一個(gè)開放閱讀框(ORF)。基因表達(dá)后被轉(zhuǎn)錄成前體mRNA,經(jīng)剪切切除內(nèi)含子,并將外顯子連接成成熟mRNA,并進(jìn)一步翻譯成蛋白質(zhì)。
[圖片上傳失敗...(image-c35f39-1559182093848)]

2.基因功能預(yù)測(cè)方法主要包括:同源比對(duì)方法和從頭預(yù)測(cè)方法。
同源比對(duì)方法是利用近緣物種已知基因進(jìn)行序列比對(duì),發(fā)現(xiàn)同源序列,并結(jié)合基因信號(hào)進(jìn)行基因預(yù)測(cè)的方法。
從頭注釋則是根據(jù)編碼區(qū)統(tǒng)計(jì)特征和基因信號(hào)進(jìn)行基因結(jié)構(gòu)預(yù)測(cè),目前最被接受的預(yù)測(cè)方法是隱馬爾可夫模型(HMM)。

FGENESH AUGUSTUS
http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind http://bioinf.uni-greifswald.de/augustus/submission.php
GENESCAN GeneMark Glimmer
http://argonaute.mit.edu/GENSCAN.html http://topaz.gatech.edu/GeneMark/ http://ccb.jhu.edu/software/glimmer/index.shtml

3.基因注釋
少量基因功能注釋可用Blast,Interproscan http://www.ebi.ac.uk/interpro/
大量基因注釋可選用NCBI提供的本地BLAST程序ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-win64.exe
其他注釋:
WEGO http://wego.genomics.org.cn/
KAAS https://www.genome.jp/tools/kaas/

4.基因結(jié)構(gòu)預(yù)測(cè)和繪圖
Exon-Intron Graphic Maker根據(jù)候選基因的外顯子和內(nèi)含子等信息繪制基因結(jié)構(gòu)http://wormweb.org/exonintron
Blastp可在線獲取蛋白結(jié)構(gòu)域的注釋和位置信息https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

5.同源基因分析
OrthoDB是直系同源物的綜合目錄https://www.orthodb.org/

6.蛋白二級(jí)三級(jí)結(jié)構(gòu)預(yù)測(cè)及繪圖
蛋白質(zhì)二級(jí)結(jié)構(gòu)(secondary structure of protein)是指蛋白質(zhì)的多肽鏈中有規(guī)則重復(fù)的構(gòu)象,限于主鏈原子的局部空間排列,不包括與肽鏈其他區(qū)段的相互關(guān)系及側(cè)鏈構(gòu)象。二級(jí)結(jié)構(gòu)是通過(guò)骨架上的羰基和酰胺基團(tuán)之間形成的氫鍵維持的,氫鍵是穩(wěn)定二級(jí)結(jié)構(gòu)的主要作用力。常見的二級(jí)結(jié)構(gòu)主要有 α-螺旋、β-折疊、β-轉(zhuǎn)角。蛋白質(zhì)三級(jí)結(jié)構(gòu)是指多肽鏈在二級(jí)結(jié)構(gòu)或者超二級(jí)結(jié)構(gòu)甚至結(jié)構(gòu)域的基礎(chǔ)上,進(jìn)一步盤繞、折疊,通過(guò)次級(jí)鍵的維系固定所形成的特定空間結(jié)構(gòu)
CFSSP http://www.biogem.org/tool/chou-fasman/
SOPMA https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html
PredictProtein https://www.predictprotein.org/
SWISS-MODEL https://swissmodel.expasy.org/interactive

7.蛋白特性分析
蛋白特性分析是指蛋白的一些物理和化學(xué)參數(shù),如分子量、等電點(diǎn)、氨基酸和原子組成、消光系數(shù)、半衰期、不穩(wěn)定系數(shù)、脂肪族氨基酸指數(shù)、親水性。這些參數(shù),有助于進(jìn)行蛋白的相關(guān)生化實(shí)驗(yàn)。比如在體外體系(大腸桿菌、酵母等)表達(dá)和純化目的蛋白時(shí),需要考慮蛋白的分子量、等電點(diǎn)、消光系數(shù)、不穩(wěn)定系數(shù)和親水性等。在酶活實(shí)驗(yàn)中,也需要根據(jù)這些參數(shù)優(yōu)化實(shí)驗(yàn)體系ProtParam http://web.expasy.org/protparam/

8.蛋白親疏水性分析
蛋白氨基酸的親疏水性主要由其側(cè)鏈基團(tuán)R,如果R只是H或是C、H兩元素組成的話,都是疏水的,如果含有極性側(cè)鏈基團(tuán),如-OH、-SH、-COOH、-NH2 等,則就是極性的(親水的)。疏水性氨基酸有酪氨酸、色氨酸、苯丙氨酸、纈氨酸、亮氨酸、異亮氨酸、丙氨酸和蛋氨酸(甲硫氨酸)。疏水性氨基酸在蛋白質(zhì)內(nèi)部,在保持蛋白質(zhì)的三級(jí)結(jié)構(gòu)上,酶和基質(zhì)、抗體和抗原間的相互作用等各種非共價(jià)鍵的分子結(jié)合方面,具有重要作用
Protscale可對(duì)蛋白親疏水性進(jìn)行進(jìn)一步分析https://web.expasy.org/protscale/

9.跨膜結(jié)構(gòu)分析
蛋白的跨膜結(jié)構(gòu)分析對(duì)于預(yù)測(cè)蛋白的亞細(xì)胞定位密切相關(guān)。如果具有跨膜結(jié)構(gòu),蛋白很可能定位于細(xì)胞中與膜相關(guān)的結(jié)構(gòu),如細(xì)胞質(zhì)膜、葉綠體膜或線粒體膜等內(nèi)膜系統(tǒng)。此外,蛋白跨膜結(jié)構(gòu)分析對(duì)于蛋白功能分析也有一定的幫助。比如某蛋白沒有跨膜結(jié)構(gòu),但是亞細(xì)胞定位實(shí)驗(yàn)顯示其可定位于膜相關(guān)結(jié)構(gòu),這說(shuō)明該蛋白可能通過(guò)其他膜定位蛋白招募過(guò)去的。在線工具TMHMM對(duì)候選基因進(jìn)行跨膜結(jié)構(gòu)域分析http://www.cbs.dtu.dk/services/TMHMM/

10.信號(hào)肽分析
信號(hào)肽是指引導(dǎo)新合成的蛋白質(zhì)向分泌通路轉(zhuǎn)移的短肽鏈,常位于蛋白的N-末端,負(fù)責(zé)把蛋白質(zhì)引導(dǎo)到不同膜結(jié)構(gòu)的亞細(xì)胞器內(nèi)。編碼分泌蛋白的mRNA在翻譯時(shí)首先合成N末端的信號(hào)肽,它被信號(hào)肽識(shí)別蛋白(SRP)所識(shí)別,SRP將核糖體攜帶至內(nèi)質(zhì)網(wǎng)上,內(nèi)質(zhì)網(wǎng)膜上的 SPR 受體識(shí)別并與之結(jié)合。新合成蛋白在信號(hào)肽引導(dǎo)下到達(dá)內(nèi)質(zhì)網(wǎng)內(nèi)腔,而信號(hào)肽則在信號(hào)肽酶的作用下被切除。由于它的引導(dǎo),新生的多肽就能夠通過(guò)內(nèi)質(zhì)網(wǎng)膜進(jìn)入腔內(nèi),最終被分泌到胞外。在宿主菌中表達(dá)外源蛋白時(shí),可用信號(hào)肽引導(dǎo)外源蛋白定位分泌到胞外,提高蛋白可溶性,在原核表達(dá)系統(tǒng)(大腸桿菌、芽孢桿菌等)和真核表達(dá)系統(tǒng)(如畢赤酵母)中均有應(yīng)用。通過(guò)在線分析工具SignalP可對(duì)候選基因進(jìn)行信號(hào)肽分析,峰信號(hào)位置為信號(hào)肽切割點(diǎn),峰之前的序列為信號(hào)肽http://www.cbs.dtu.dk/services/SignalP/

11.磷酸化位點(diǎn)分析
蛋白質(zhì)磷酸化指由蛋白質(zhì)激酶催化的把 ATP 的磷酸基轉(zhuǎn)移到底物蛋白質(zhì)氨基酸殘基(絲氨酸、蘇氨酸、酪氨酸)上的過(guò)程,或者在信號(hào)作用下結(jié)合 GTP(通常以 GTP 取代 GDP),是生物體內(nèi)一種普通的調(diào)節(jié)方式,在細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)的過(guò)程中起重要作用。在信號(hào)達(dá)到時(shí)通過(guò)獲得一個(gè)或幾個(gè)磷酸集團(tuán)而被激活,而在信號(hào)減弱時(shí)能去除這些集團(tuán),從而失去活性。有時(shí)某個(gè)信號(hào)蛋白磷酸化通常造成下游的蛋白依次發(fā)生磷酸化,形成磷酸化級(jí)聯(lián)反應(yīng)
NetPhos http://www.cbs.dtu.dk/services/NetPhos/
KinasePhos-2.0 http://kinasephos2.mbc.nctu.edu.tw/

12.亞細(xì)胞定位預(yù)測(cè)
PSORT Prediction http://psort1.hgc.jp/form.html

13.啟動(dòng)子分析
Plantcare http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

14.調(diào)控目的基因的miRNA預(yù)測(cè)
psRNAtarget http://plantgrn.noble.org/psRNATarget/analysis?function=2

15.表達(dá)分析
在分析基因功能時(shí),通常會(huì)參考基因的表達(dá)模式,即基因在植物不同組織不同發(fā)育時(shí)期的表達(dá)豐度變化。通過(guò)在線分析網(wǎng)站BAR對(duì)候基因進(jìn)行表達(dá)分析。BAR 是一個(gè)植物生信分析資源網(wǎng)站,用該網(wǎng)站分析基因表達(dá)時(shí),不僅可以獲得基因表達(dá)模式的熱圖,還可以獲得可視化的電子熒光圖片,直觀呈現(xiàn)基因在植物組織中的表達(dá)位置http://bar.utoronto.ca

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,494評(píng)論 3 416
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,283評(píng)論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,714評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,186評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,410評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,940評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,776評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,976評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,210評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,654評(píng)論 3 391
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,958評(píng)論 2 373