常用數據庫 ID
序號 | ID 示例 | ID 來源 |
---|---|---|
一 | GLA, GLB, UGT1A1 | HGNC Gene Symbol(基因的官方名稱) |
二 | ENSG00000116717 | Ensemble ID(NCBI給予不同基因的一個代號(標識符))即Ensembl數據庫的ID編號 |
三 | GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
三 | A5PJB2_BOVIN | UniProtKB/TrEMBL,entry name |
三 | A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
四 | U12345, AF123456 | GenBank, NCBI, accession number |
四 | NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
五 | 10598, 717v | Entrez ID, NCBI |
六 | uc001ett, uc031tla.1 | UCSCID 編號 |
一、Gene Symbol & Gene Name
(一)Gene Symbol
Gene Symbol 是基因的官方的名稱,是對基因進行命名描述的一個縮寫標識符(如:TP53),Gene Symbol 是由專門的數據庫HGNC database of human gene names(人類基因命名委員會)來對人類中大多數基因的進行命名,并由組織HUGO進行維護。目前,HGNC已經批準了超過41500個Gene Symbol ,其中超過19190個基因屬于蛋白質編碼基因,超過 7300個基因屬于非編碼RNA的基因,同時HGNC還為假基因以及基因組特征命名。這些基因符號都是唯一的。
(二)Gene Name
Gene Name:Gene Name是經過HGNC批準的全基因名稱;與Gene Symbol對應。Gene Symbol相當于Gene Name的縮寫。例如TP53對應的Gene Name就是:tumor protein p53 。
!因為HGNC只對人類基因進行命名,而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene數據庫中的Official symbol就會變成Gene Symbol,并且Gene Symbol的編號會變成LOC前綴+Entrez ID,例如:LOC4333818
二、Ensembl IDs
(一)、組成
Ensembl ID的由5部分構成: ENS(species)(object type)(identifier).(version)
(species) | (object type) | (identifier) | . | (version) |
---|---|---|---|---|
不同物種的前綴 | 數據所指的類型 | 再加上一系列的數字. 有的時候可以有不同的版本, | 再加上小數點 | 再加版本號 |
Enseml ID數據所指的類型包括exon(外顯子), protein family(蛋白質家族),, gene(基因),, gene tree(基因樹), protein(蛋白質), regulatory feature( 調控特征)和 transcript(轉錄本).
(二)、解讀
如:ENSMUSG00000017167.6
① ENS代表這是一個Ensembl ID
② 第二部分代表物種, 如MUS代表小鼠(如果物種是人則不用填),常用物種見下表,其他物種的前綴可以點擊這里查找
③緊接著的第三部分代表ID的類型, 如G代表基因, T代表轉錄本……
④是一系列的特殊數字
⑥ 小數點 .
⑦ 小數點后代表版本號
所以這個是一個Ensembl ID (ENS), 物種為小鼠(MUS), 代表一個基因(G), 并且這是第6個版本(.6).
常用物種前綴
前綴 | 學名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
其他物種的前綴可以點擊這里查找
ID類型前綴
前綴 | 類型 |
---|---|
E | exon (外顯子) |
FM | Ensembl protein family(合蛋白家族) |
G | gene(基因) |
GT | gene tree(基因樹) |
P | protein(蛋白質) |
R | regulatory feature |
T | transcript(轉錄本) |
三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL
(一)UniProt (蛋白質序列數據庫)
UniProt是Universal Protein 的縮寫,是一個一級蛋白質序列數據庫。
Uniprot包括UniProtKB知識庫、UniParc歸檔庫和UniRef參考序列集三部分,整合了三大數據庫(Swiss-Prot,TrEMBL和PIR-PSD)的數據,是目前國際上最廣泛使用的蛋白質數據庫.其中Swiss-Prot和TrEMBL是核心數據庫UniProtKB的兩個子庫,兩個子庫相似,區別如下
Swiss-Prot子庫 | TrEMBL子庫 | |
---|---|---|
整理 | 序列條目以及相關信息都經過手工注釋和人工審閱 | 所有序列條目由計算機程序根據一定規則進行自動注釋 |
團隊 | 瑞士生物信息研究所團隊負責 | 歐洲生物信息學研究所團隊負責 |
內容 | 蛋白質序列數據的搜集、整理、分析、注釋,力圖為用戶提供高質量的蛋白質序列和豐富的注釋信息。 | 蛋白質名、基因名、物種名、分類學地位等基本信息,功能、表達、定位、家族和結構域等注釋信息,以及與其它數據庫的交叉鏈接。 |
比較 | 可靠性大(手工注釋、人工審閱) | 可靠性比Swiss-Prot小(自動注釋) |
!兩者聯系
①采用統一的數據庫格式和登錄號系統(UniProt 中錄入的數據都被分配了一個唯一的 entry name)
②TrEMBL中的序列經手工注釋和人工審閱后,歸并到Swiss-Prot子庫中,不再在TrEMBL子庫中保留。
③這兩個子庫的數據量差別很大,TrEMBL的數據數量遠遠超過了Swiss-Prot。
(二)關于兩個字庫UniProtKB/Swiss-Prot 的 “entry name”
由于UniprotKB的entry name有兩種命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names
兩種命名方式的對比
Swiss-Prot “entry name” | TrEMBL “entry name” | |
---|---|---|
描述 | 最多 11 位包含大寫字母的字符串 | 最多 16 位包含大寫字母的字符串 |
形式 | X_Y | X_Y |
X | 最多五個便于記憶的蛋白質編號① | 6 到 10 個字符組成的登錄號(accession number②) |
“-” | “-” 是下劃線 | “-” 是下劃線 |
Y | 最多五個便于記憶的物種編號③ | 最多五個便于記憶的物種編號 (由于數據太多,TrEMBL啟用了“虛擬編碼”④來對物種進行分類,以數字9為前綴) |
例子 | PURQ_ZYMMO INS_HUMAN | A5PJB2_BOVIN, |
①蛋白質編號示例
Code(X) | Recommended protein name | Gene name |
---|---|---|
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
②Accession Number
Accession Number 相當于數據庫的主鍵, 由 6 到 10 個大寫字母或者數字組成. 其構成規律有三種類型如下:
類型 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 例子 |
---|---|---|---|---|---|---|---|---|---|---|---|
Ⅰ | [O /P /Q] | [0-9] | [A-Z/ 0-9] | [A-Z /0-9] | [A-Z/ 0-9] | [0-9] | P12345 | ||||
Ⅱ | [A-N /R-Z] | [0-9] | [A-Z] | [A-Z/ 0-9] | [A-Z /0-9] | [0-9] | A2BC19 | ||||
Ⅲ | [A-N/ R-Z] | [0-9] | [A-Z] | [A-Z/ 0-9] | [A-Z/ 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z /0-9] | [0-9] | A0A022YWF9 |
如果一個條目被分成兩個, 或者多個條目合成一個, 則有相應的 accession number 繼承規則.
③物種編號
Code | Species |
---|---|
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
④虛擬的物種編碼
Mnemomnic code | Taxonomic identifier | Scope |
---|---|---|
9BACT | 2 | Bacteria |
9CNID | 6073 | Cnidaria |
9FUNG | 4751 | Fungi |
9REOV | 10880 | Reoviridae |
(三)Entry name與Accession Number的關系和區別
①提交數據到UniprotKB之后,每個數據都會被分配一個唯一的Accession Number(AC號)。如果為了減少數據冗余,將UniprotKB中的多個數據合并成一個,AC號仍保持不變。
②Entry name也是每個數據唯一具有的標識符,它可以展示數據的生物學信息,但并不穩定存在的,比如說我們要將TrEMBL中的數據轉入Swiss-Prot,那么我們需要變更數據的Entry name,此時同一個數據的Entry name就發生了改變,但是它的AC號仍然保持不變。這就是他們之間的區別!
③還有需要注意的是,一個數據可能有兩個或者多個accession number 。
原因主要有兩個:
a.當合并兩個或多個數據條目時,保留所有數據條目的登錄號。第一個AC編號稱為“主要AC編號”,其他編號稱為“次要AC編號”。編號排序是按字母數字順序排列的。
b.如果現有數據條目被分割為兩個或多個數據條目(“拆分”),新的“主要”登錄號將歸屬于所有分裂的條目,而所有原始登錄號將保留為“次要”登錄號。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次級登錄號均為P29358 。
所以,UniprotKB建議,我們最好使用數據的主登錄號作為數據引用的方式(不是Entry name ,也不是二級登錄號),因為主登錄號是唯一并且穩定存在的數據標識符。
四、NCBI
(一)關于NCBI 的 GenBank & RefSeq
①NCBI(National Center for Biotechnology information)即美國國家生物技術信息中心是一個機構組織,而不是數據庫,該中心的任務是:為儲存和分析分子生物學、生物化學、遺傳學知識創建自動化系統;從事研究基于計算機的信息處理過程的高級方法,用于分析生物學上重要的分子和化合物的結構與功能;促進生物學研究人員和醫護人員應用數據庫和軟件;努力協作以獲取世界范圍內的生物技術信息
②GenBank是NCBI建立的DNA序列數據庫
③ RefSeq即參考序列。NCBI的RefSeq 數據庫(美國國立生物技術信息中心參考序列庫) 是一個參考序列的非冗余集合,數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。RefSeq 數據庫是目前世界上最具有權威性的序列數據庫,也是目前最可信賴的人類基因mRNA序列數據庫
④RefSeq和genbank的數據的區別?
a. genbank是一個開放的數據庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數據庫每天都要和EMBL和DDBJ交換數據。genbank的數據可能重復或者不準。
b.RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是NCBI提供的校正的序列數據和相關的信息。數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數據庫,一般可信度比較高
(一)關于 GenBank 和 RefSeq 的 Accession Number
①GenBank Accession Number**
GenBank Accession numbers命名的規則是:
類別 | 規則 |
---|---|
Nucleotide | 1個字母+5個數字 或 2個字母+6位數字 |
Protein | 3個字母+5位數字 |
WGS | 4個字母+2位數字+WGS的版本+6-8位數字 |
MGA | 5個字母+7位數字 |
②RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前綴為兩個字母+下橫線('_')+ 6 個或更多的數字
NCBI RefSeq命名格式的詳細說明
例子
Accession | Molecule | Method | 說明 |
---|---|---|---|
AC_123456 | Genomic | Mixed | 基因組序列,主要是病毒、原核生物。 |
AP_123456 | Protein | Mixed | 蛋白序列,AP_原本只用于細菌的蛋白。 |
NC_123456 | Genomic | Mixed | 全基因組序列,包括細胞器的、質粒等 |
NG_123456、NM_123456 | Genomic | Mixed | 不完整的基因組序列, |
NM_123456789 、NP_123456 | mRNA | Mixed | 成熟的mRNA |
NP_123456789 | Protein | Mixed | 全長蛋白序列。但也有可能包括非全長的蛋白或成熟的多肽序列。 |
NR_123456 | RNA | Mixed | 不編碼的RNA,假基因或其它 |
Accession 前綴
Accession 前綴 | 類型 | 說明 |
---|---|---|
AC_ | Genomic | Complete genomic molecule, usually alternate assembly (完整的基因組分子,通常交替組裝) |
NC_ | Genomic | Complete genomic molecule, usually reference assembly(完整的基因組分子,通常參考組裝) |
NG_ | Genomic | Incomplete genomic region(基因組區域不完整) |
NT_ | Genomic | Contig or scaffold, clone-based or WGS(重疊群或支架,基于克隆或WGS) |
NW_ | Genomic | Contig or scaffold, primarily WGS |
NS_ | Genomic | Environmental sequence(環境順序) |
NZ_ | Genomic | Unfinished WGS (未定義的WGS) |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model (預測模型) |
XR_ | RNA | Predicted model(預測模型) |
AP_ | Protein | Annotated on AC_ alternate assembly(在AC_備用裝配上標注) |
NP_ | Protein | Associated with an NM_ or NC_ accession(與NM_或NC_加入相關) |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession(與XM_加入相關的預測模型) |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records (預測模型,已在NZ_基因組記錄中注釋) |
- WGS: Whole Genome Shotgun sequence data, 鳥槍法測序.
五、Entrez ID
GeneID即Entrez Gene ID(是NCBI中用來連接各個不同數據庫統一的基因標志符)**
Entrez是歸屬于NCBI的一個綜合的文本檢索引擎系統。這個檢索引擎整合了PubMed數據庫的生物醫學文獻與其他39個文獻和分子數據庫(例如GEO,Entrez Gene等,這些數據庫基本涵蓋了DNA和蛋白質序列,結構,基因,基因組,遺傳變異和基因表達方面的數據)。NCBI組織建立了Entrez,Entrez整合了各大數據庫的入口,便于進行數據庫檢索。通常所說的檢索NCBI數據庫,其實就是在檢索Entrez這個引擎系統所整合的生信數據庫。
由于Entrez 作為一個綜合性檢索引擎,為了方便,其對不同的 Gene 進行了編號, 即 Entrez Gene ID. 并且由于 Entrez ID 相對穩定,也被眾多其他數據庫, 如 KEGG 等. 一串數字的Entrez Gene ID 不但具有很高的辨識度,而且在ID轉化中占據著重要的地位。生信菜鳥團的博客《NCBI的基因entrezID相關文件介紹》講解了Entrez ID主要的信息文件。
gene_id | symbol | chromosome |
---|---|---|
352937 | dio2 | 20 |
表中geneid即為 Entrezid. 在ID轉換中有重要的作用。
六、UCSC ID
UCSC ID 由小寫字母和數字構成,
起 uc+三位數字+三位小寫字母+小數點+數字構成版本號如:uc010qfk.3, uc010qfk.3.
! UCSC ID幾乎被拋棄不用了,只是因為UCSC是三大數據庫之一而已。
補:tax_id代表物種的id, 如人類是9606
生信技能樹:超精華生信ID總結,想踏入生信大門的你-值得擁有
常用數據庫ID表示方式
UniProt數據庫參考學習連接1(作者:thinkando)
NCBI參考序列(RefSeq)常見問題回答
NCBI RefSeq命名格式的詳細說明
DDBJ/EMBL/GenBank Accession的命名規則