為了使NCBI的資料庫發揮更大的進階應用價值,NCBI研究團隊發展許多可以做生物醫學資料採礦與資料分析的檢索與分析工具。在此依工具的使用目的將其分為六大類,每大類下分別包含工具的名稱與簡介,作為研究人員在選擇工具時的參考。
1.資料檢索--文章詞語搜尋
? Entrez一提供核酸、蛋白質、蛋白質3D結構Entrez:提供核酸、蛋白質、蛋白質3D結構、基因體圖譜資訊、PubMed MEDLINE文獻等整合式查詢。序列資料的來源包括GenBank、EMBL、DDBJ、RefSeq、PIR-International、PRF、Swiss-Prot與PDB(網址:http://www.ncbi.nlm.nih.gov/Entrez/)。
特性:
(1)對每一個資料庫紀錄做預先的相似性搜尋計算,以鑒別該資料的相關紀錄。
(2)提供整合性跨資料庫服務,可從一個資料庫的紀錄連結至其他資料庫的相關紀錄。
? Batch Entrez一使使用者可在背景執行,從Entrez取得大量核酸與蛋白質序列資訊,而使用者只需輸入含GI或Accession Number的名單即可。查詢結果可直接儲存在使用者的電腦中(網址:http://www.ncbi.nlm.nih.gov/entrez/batchentrez.cgi?db=Nucleotide)。
? LinkOut一在Entrez的文章、期刊或生物資料建立連結到外部網頁連結之注冊服務。欲建立連結者可提供網址、資源名稱、簡短的網頁描述與想建立的NCBI資料規格書即可(網址:http://www.ncbi.nlm.nih.gov/entrez/linkout/doc/linkoutoverview.html)。
? Cubby一使Entrez使用者儲存與更新搜尋,并且訂做他們的LinkOut設定。需填寫注冊申請書申請使用權限(網址http://www.ncbi.nlm.nih.gov/entrez/login.fcgi?call=so.SignOn..Login)。
? Citation Matcher一可查詢PubMed 資料庫的PubMed ID或MEDLINE UID,提供文獻的目錄資訊(網址:http://www.ncbi.nlm.nih.gov/entrez/query/static/overview.html#Citation%20Matcher)。
? Taxonomy Browser一用來查詢生物分類資料庫的查詢工具,可由生物學名、俗名或較高層級分類查詢生物與分類血緣,同時可獲得核酸、蛋白質、結構與基因體資訊,并且可向上或向下查詢分類樹(Taxonomic tree)(網址:http://www.ncbi.nlm.nih.gov/Taxonomy/)。
2.序列相似度搜尋
? BLAST一Basic Local Alignment Search Tool一核酸與蛋白質序列比對工具。BLAST網頁提供提供BLAST(Basic Local Alignment Search Tool)程式、概述、使用說明與常見問題解答(網址:http://www.ncbi.nlm.nih.gov/BLAST/)。BLAST程式包括:
(1) 核酸BLAST:
? blastn程式一核酸序列比對。
? MegaBLAST一可搜尋一批EST序列、長序列cDNA或基因體序列。
(2) 蛋白質BLAST:
? blastp程式一蛋白質序列比對。
? PHI-BLAST程式一Pattern Hit Initiated BLAST(Zhang, et al., 1998)
一輸入蛋白質序列查詢蛋白質資料庫,搜尋是否存在某種特定序列形式的BLAST程式。
? PSI-BLAST程式一Position-Specific Iterated BLAST(Altschul, et al., 1997)
一輸入蛋白質序列查詢蛋白質資料庫,搜尋是否屬于某個蛋白質家族的BLAST程式。
(3)轉譯BLAST搜尋:
? blastx程式一核酸序列與蛋白質資料庫比對。
? tblastn程式一蛋白質序列與轉譯核酸資料庫比對。
? tblastx程式一核酸序列與轉譯核酸資料庫比對。
(4)保留區搜尋:
? RPS-BLAST程式一Reverse Position-Specific BLAST一輸入蛋白質序列查詢Conserved Domain Database(蛋白質保留區資料庫),搜尋是否存在保留區的BLAST程式。
? CDART工具一利用RPS-BLAST比對蛋白質輸入序列與CDD資料庫。
(5)兩條序列比對:
? BLAST 2 Sequences程式一2條核酸或蛋白質序列比對。
(6)基因體BLAST一使用BLAST程式比對輸入序列與生物染色體資料庫。目前提供的生物染色體有人類、小鼠、大鼠、Fugu rubripes、斑馬魚、果蠅、Anopheles gambiae、Saccharomyces cerevisiae、Malaria、微生物、阿拉伯芥與水稻等基因體。
(7) Taxonomy BLAST一使用BLAST程式將Taxonomy資料庫的生物做分類。生物種類依輸入序列比對的相似性由高至低列出。
(8)特殊BLAST:
?用BLAST比對dbSNP資料庫。
? IgBLAST一分析GenBank的免疫球蛋白序列,使用blastp或blastn程式搜尋人類與老鼠基因的nr或特定資料庫。IgBLAST的3個主要功能:(a)報告輸入序列之變異區、D或J區域;(b)根據Kabat等人的論文注解免疫球蛋白區(FWR1~FWR3);(c)簡化搜尋核酸或蛋白質nr資料庫的過程。
? VecScreen一偵測載體是否受污染的BLAST程式。
(9)從存在的Request ID(RID)檢索結果:因為有QBLAST程式的輔助,因此使用者在執行所有的BLAST程式查詢時,執行結果都會被給予一個RID(Request ID),BLAST伺服器可儲存24小時之內的RID。如果使用者需要取得24小時內執行過的BLAST程式結果,只需輸入RID即可取得資料,不需從新執行程式。使用者可以自行設定結果呈現的方式,比較相同結果不同呈現格式上的差異。
3.核酸序列分析
? BLAST網頁一提供BLAST(Basic Local Alignment Search Tool)
程式、概述、使用說明、常見問題解答與各種BLAST程式(請參考2.序列相似度搜尋)(網址:http://www.ncbi.nlm.nih.gov/BLAST/)。
? e-PCR-Electronic PCR一比對輸入序列與Sequence-tagged sites(STSs)的工具,以預測輸入序列在PCR反應時在染色體圖譜中的可能位置。e-PCR搜尋UniSTS資料庫(網址:http://www.ncbi.nlm.nih.gov/genome/sts/epcr.cgi)。
? HomoloGene一基因相似度比對工具,可比較一對生物的核酸序列,用以認定是否為同源,并經由LocusLink合併各種資源管理同源資料(網址:http://www.ncbi.nlm.nih.gov/HomoloGene/)。
? ORF Finder一為分析原核生物序列而設計分析工具,藉由找出序列的起始與終止位置,搜尋輸入序列所有Open reading frames的圖形化工具。此工具被包裝在Sequin程式中(網址:http://www.ncbi.nlm.nih.gov/gorf/gorf.html)。
? CloneFinder一將BAC end sequences(BES)與基因體序列比對,用來鑒定Clone中是否含特定基因區域。目前只能用來檢索小鼠序列(網址:http://www.ncbi.nlm.nih.gov/genome/clone/clonefinder/CloneFinder.html)。
? SAGEmap一Serial Analysis of Gene Expression-SAGE是一種分析基因表現的定量實驗技術。SAGEmap是比較Cancer Genome Anatomy Project(CGAP)所產生的基因表現資料與Gene Expression Omnibus(GEO)所產生的基因表現資料的線上分析工具(網址:http://www.ncbi.nlm.nih.gov/SAGE/)。
? Sequin一NCBI發展的軟體工具,為獨立(stand-alone)使用的或TCP/IP-based “network aware”模式,用來提交一筆或幾筆紀錄、長序列、完整基因體、比對資料、族群/演化/突變的資料,作為提交與更新GenBank、EMBL或DDBJ序列資料庫之的一個上傳工具,此工具包含ORF Finder、比對Viewer/Editor與Entrez連結(上傳資料前,請先用VecScreen工具偵測核酸序列偵測核酸序列是否為載體、連接體(Linker)或轉接器(adapter),以避免序列感染)(網址:http://www.ncbi.nlm.nih.gov/Sequin/index.html)。
? BankIt一在WWW使用的提交工具,用來提交一筆或幾筆紀錄,可使提交資料的過程更快且更容易(上傳資料前,請先用VecScreen工具偵測核酸序列是否為載體、連接體或轉接器,以避免序列感染)(網址:http://www.ncbi.nlm.nih.gov/BankIt/)。
? Spidey一mRNA序列比對至基因體序列的比對程式,模擬可能的基因體Exon/Intron結構。因為Spidey可忽略intron大小,因此可以避免假基因與相異血緣關係序列比對時的錯誤。Spidey的模型結合比對演算法與歸納法,可執行物種外與物種間的比對(網址:http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/)。
? UniGene DDD-Digital Differential Display一比較cDNA庫間基因表現的線上分析工具,可顯示不同組織的不同基因表現程度(網址:http://www.ncbi.nlm.nih.gov/UniGene/ddd.cgi?ORG=Hs)。
? VecScreen一在序列分析或提交前,鑒定核酸序列是否為載體、連接體或轉接器,以避免序列感染。VecScreen工具使用UniVec資料庫比對輸入序列(網址:http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)。
4.蛋白質序列分析
? BLAST網頁一提供BLAST(Basic Local Alignment Search Tool)程式、概述、使用說明、常見問題解答與各種BLAST程式(請參考2.序列相似度搜尋)(網址:http://www.ncbi.nlm.nih.gov/BLAST/)。
? CD-Search-The Conserved Domain Search Service(CD-Search)一用來找出蛋白質的保留區。CD-Search使用RPS-BLAST比對輸入序列與Conserved Domain Database(CDD)的蛋白質序列資料,亦同時比對蛋白質的3D結構(用Cn3D展示),不同序列的保留程度用不同的顏色表示(網址:http://www.ncbi.nlm.nih.gov/Sequin/index.html)。
? COGnitor一比較輸入序列與COGs資料庫,以找出與此序列同源的群集(網址:http://www.ncbi.nlm.nih.gov/COG/cognitor.html)。
? Conserved Domain Architecture Retrieval Tool(CDART)一由相似的蛋白質結構分析蛋白質輸入序列的功能區,并列出具有相似區域結構的蛋白質。CDART是利用RPS-BLAST比對蛋白質輸入序列與CDD資料庫(網址:http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps)。
? TaxPlot一使用3種生物的基因體的蛋白質序列互相比對,用以比較基因體的差異性。使用時,選擇一個參考的基因體,做為另外兩個基因體的參考標準,然后預先使用BLAST計算的參考基因體蛋白質預測結果即可與另外兩個基因體的蛋白質預測結果做比對,畫出生物分類圖形(網址:http://www.ncbi.nlm.nih.gov/sutils/taxik2.cgi?)。
5. 3-D結構展示與相似度搜尋
? Cn3D一“See in 3-D”一結構與序列比對的圖形化工具,可看3D結構圖形與序列-結構或結構-結構比對。Cn3D可讀取MMDB的資料(網址:http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml)。
? VAST search一結構一結構比對的工具。比較新蛋白質與MMDB/PDB資料庫的3D座標。VAST Search可找出相似的結構,用分子圖形使使用者看到重疊區與比對區(網址:http://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.html)。
? CD-Search一The Conserved Domain Search Service(CD-Search)一用來找出蛋白質保留區的分析工具。CD-Search使用RPS-BLAST比對輸入序列與Conserved Domain Database(CDD)的蛋白質序列資料,亦同時比對蛋白質的3D結構(用Cn3D展示),不同序列的保留程度用不同的顏色表示(網址:http://www.ncbi.nlm.nih.gov/Sequin/index.html)。
? Threading一利用已知結構與計算能量預測蛋白質序列的3-D結構(網址:http://www.ncbi.nlm.nih.gov/Structure/RESEARCH/threading.shtml)。
6.基因體與圖譜工具
? Map Viewer一Entrez Genomes軟體元件之一,提供瀏覽與搜尋17種生物完整基因體的功能,呈現染色體圖譜,并且可進一步查詢特定染色體區域的序列資料。Map Viewer可鑒定與定位基因,因此對疾病基因的發現具有貢獻。檢視所有或單一染色體圖譜的工具,可用來查詢基因的位置、序列資料與基因間的距離,并可整合每一條染色體的圖譜或染色體特定區域的序列資料。整合染色體圖譜的方式是比對共同的標記或基因名;而序列圖譜的整合是利用共通的序列座標系統。目前提供的生物圖譜包括阿拉伯芥(Arabidopsis thaliana)、果蠅、人類、小鼠與玉米等(網址:http://www.ncbi.nlm.nih.gov/mapview/)。
小結
生物信息學的應用領域包含了:(一)資料庫的建立與整合、(二)序列分析、(三)結構/功能分析、(四)實驗資料分析與(五)知識管理,而NCBI將這些領域的應用發展推向極至。隨著新型態的生物資料陸續產生,生物資訊的應用將還有無限大的空間等待我們挖掘;而生物資料庫與生物資訊分析工具亦將隨著新資料與新問題的產生永無止境的發展下去。
(注:本文資料來源為NCBI(National Center for Biotechnology)網站(網址http://www.ncbi.nlm.nih.gov/)所提供之網站資料所整理而成)。