關于 數據庫 的 “ID”

常用數據庫 ID

序號 ID 示例 ID 來源
GLA, GLB, UGT1A1 HGNC Gene Symbol(基因的官方名稱)
ENSG00000116717 Ensemble ID(NCBI給予不同基因的一個代號(標識符))即Ensembl數據庫的ID編號
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL,entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717v Entrez ID, NCBI
uc001ett, uc031tla.1 UCSCID 編號

一、Gene Symbol & Gene Name

(一)Gene Symbol

Gene Symbol 是基因的官方的名稱,是對基因進行命名描述的一個縮寫標識符(如:TP53),Gene Symbol 是由專門的數據庫HGNC database of human gene names(人類基因命名委員會)來對人類中大多數基因的進行命名,并由組織HUGO進行維護。目前,HGNC已經批準了超過41500個Gene Symbol ,其中超過19190個基因屬于蛋白質編碼基因,超過 7300個基因屬于非編碼RNA的基因,同時HGNC還為假基因以及基因組特征命名。這些基因符號都是唯一的。

(二)Gene Name

Gene Name:Gene Name是經過HGNC批準的全基因名稱;與Gene Symbol對應。Gene Symbol相當于Gene Name的縮寫。例如TP53對應的Gene Name就是:tumor protein p53 。

!因為HGNC只對人類基因進行命名,而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene數據庫中的Official symbol就會變成Gene Symbol,并且Gene Symbol的編號會變成LOC前綴+Entrez ID,例如:LOC4333818


二、Ensembl IDs

(一)、組成

Ensembl ID的由5部分構成: ENS(species)(object type)(identifier).(version)

(species) (object type) (identifier) . (version)
不同物種的前綴 數據所指的類型 再加上一系列的數字. 有的時候可以有不同的版本, 再加上小數點 再加版本號

Enseml ID數據所指的類型包括exon(外顯子), protein family(蛋白質家族),, gene(基因),, gene tree(基因樹), protein(蛋白質), regulatory feature( 調控特征)和 transcript(轉錄本).

(二)、解讀

如:ENSMUSG00000017167.6

① ENS代表這是一個Ensembl ID
② 第二部分代表物種, 如MUS代表小鼠(如果物種是人則不用填),常用物種見下表,其他物種的前綴可以點擊這里查找
③緊接著的第三部分代表ID的類型, 如G代表基因, T代表轉錄本……
④是一系列的特殊數字
⑥ 小數點 .
⑦ 小數點后代表版本號

所以這個是一個Ensembl ID (ENS), 物種為小鼠(MUS), 代表一個基因(G), 并且這是第6個版本(.6).

常用物種前綴

前綴 學名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)

其他物種的前綴可以點擊這里查找

ID類型前綴

前綴 類型
E exon (外顯子)
FM Ensembl protein family(合蛋白家族)
G gene(基因)
GT gene tree(基因樹)
P protein(蛋白質)
R regulatory feature
T transcript(轉錄本)

三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL

(一)UniProt (蛋白質序列數據庫)

UniProt是Universal Protein 的縮寫,是一個一級蛋白質序列數據庫。
Uniprot包括UniProtKB知識庫、UniParc歸檔庫和UniRef參考序列集三部分,整合了三大數據庫(Swiss-Prot,TrEMBL和PIR-PSD)的數據,是目前國際上最廣泛使用的蛋白質數據庫.其中Swiss-ProtTrEMBL是核心數據庫UniProtKB的兩個子庫,兩個子庫相似,區別如下

Swiss-Prot子庫 TrEMBL子庫
整理 序列條目以及相關信息都經過手工注釋和人工審閱 所有序列條目由計算機程序根據一定規則進行自動注釋
團隊 瑞士生物信息研究所團隊負責 歐洲生物信息學研究所團隊負責
內容 蛋白質序列數據的搜集、整理、分析、注釋,力圖為用戶提供高質量的蛋白質序列和豐富的注釋信息。 蛋白質名、基因名、物種名、分類學地位等基本信息,功能、表達、定位、家族和結構域等注釋信息,以及與其它數據庫的交叉鏈接。
比較 可靠性大(手工注釋、人工審閱) 可靠性比Swiss-Prot小(自動注釋)

!兩者聯系
①采用統一的數據庫格式和登錄號系統(UniProt 中錄入的數據都被分配了一個唯一的 entry name)
②TrEMBL中的序列經手工注釋和人工審閱后,歸并到Swiss-Prot子庫中,不再在TrEMBL子庫中保留。
③這兩個子庫的數據量差別很大,TrEMBL的數據數量遠遠超過了Swiss-Prot。

(二)關于兩個字庫UniProtKB/Swiss-Prot 的 “entry name”

由于UniprotKB的entry name有兩種命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names

兩種命名方式的對比
Swiss-Prot “entry name” TrEMBL “entry name”
描述 最多 11 位包含大寫字母的字符串 最多 16 位包含大寫字母的字符串
形式 X_Y X_Y
X 最多五個便于記憶的蛋白質編號① 6 到 10 個字符組成的登錄號(accession number②)
“-” “-” 是下劃線 “-” 是下劃線
Y 最多五個便于記憶的物種編號③ 最多五個便于記憶的物種編號 (由于數據太多,TrEMBL啟用了“虛擬編碼”④來對物種進行分類,以數字9為前綴)
例子 PURQ_ZYMMO INS_HUMAN A5PJB2_BOVIN,

①蛋白質編號示例

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

②Accession Number
Accession Number 相當于數據庫的主鍵, 由 6 到 10 個大寫字母或者數字組成. 其構成規律有三種類型如下:

類型 1 2 3 4 5 6 7 8 9 10 例子
[O /P /Q] [0-9] [A-Z/ 0-9] [A-Z /0-9] [A-Z/ 0-9] [0-9] P12345
[A-N /R-Z] [0-9] [A-Z] [A-Z/ 0-9] [A-Z /0-9] [0-9] A2BC19
[A-N/ R-Z] [0-9] [A-Z] [A-Z/ 0-9] [A-Z/ 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z /0-9] [0-9] A0A022YWF9

如果一個條目被分成兩個, 或者多個條目合成一個, 則有相應的 accession number 繼承規則.
③物種編號

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)

④虛擬的物種編碼

Mnemomnic code Taxonomic identifier Scope
9BACT 2 Bacteria
9CNID 6073 Cnidaria
9FUNG 4751 Fungi
9REOV 10880 Reoviridae

(三)Entry name與Accession Number的關系和區別

①提交數據到UniprotKB之后,每個數據都會被分配一個唯一的Accession Number(AC號)。如果為了減少數據冗余,將UniprotKB中的多個數據合并成一個,AC號仍保持不變。
Entry name也是每個數據唯一具有的標識符,它可以展示數據的生物學信息,但并不穩定存在的,比如說我們要將TrEMBL中的數據轉入Swiss-Prot,那么我們需要變更數據的Entry name,此時同一個數據的Entry name就發生了改變,但是它的AC號仍然保持不變。這就是他們之間的區別!
③還有需要注意的是,一個數據可能有兩個或者多個accession number
原因主要有兩個:
a.當合并兩個或多個數據條目時,保留所有數據條目的登錄號。第一個AC編號稱為“主要AC編號”,其他編號稱為“次要AC編號”。編號排序是按字母數字順序排列的。
b.如果現有數據條目被分割為兩個或多個數據條目(“拆分”),新的“主要”登錄號將歸屬于所有分裂的條目,而所有原始登錄號將保留為“次要”登錄號。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次級登錄號均為P29358 。
所以,UniprotKB建議,我們最好使用數據的主登錄號作為數據引用的方式(不是Entry name ,也不是二級登錄號),因為主登錄號是唯一并且穩定存在的數據標識符。

四、NCBI

(一)關于NCBI 的 GenBank & RefSeq

①NCBI(National Center for Biotechnology information)即美國國家生物技術信息中心是一個機構組織,而不是數據庫,該中心的任務是:為儲存和分析分子生物學、生物化學、遺傳學知識創建自動化系統;從事研究基于計算機的信息處理過程的高級方法,用于分析生物學上重要的分子和化合物的結構與功能;促進生物學研究人員和醫護人員應用數據庫和軟件;努力協作以獲取世界范圍內的生物技術信息
②GenBank是NCBI建立的DNA序列數據庫
③ RefSeq即參考序列。NCBI的RefSeq 數據庫(美國國立生物技術信息中心參考序列庫) 是一個參考序列的非冗余集合,數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。RefSeq 數據庫是目前世界上最具有權威性的序列數據庫,也是目前最可信賴的人類基因mRNA序列數據庫
④RefSeq和genbank的數據的區別?
a. genbank是一個開放的數據庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數據庫每天都要和EMBL和DDBJ交換數據。genbank的數據可能重復或者不準。
b.RefSeq數據庫被設計成每個人類位點挑出一個代表序列來減少重復,是NCBI提供的校正的序列數據和相關的信息。數據庫包括構建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數據庫,一般可信度比較高

(一)關于 GenBank 和 RefSeq 的 Accession Number

①GenBank Accession Number**

GenBank Accession numbers命名的規則是:

類別 規則
Nucleotide 1個字母+5個數字 2個字母+6位數字
Protein 3個字母+5位數字
WGS 4個字母+2位數字+WGS的版本+6-8位數字
MGA 5個字母+7位數字
②RefSeq Accession Number

RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前綴為兩個字母+下橫線('_')+ 6 個或更多的數字
NCBI RefSeq命名格式的詳細說明

例子
Accession Molecule Method 說明
AC_123456 Genomic Mixed 基因組序列,主要是病毒、原核生物。
AP_123456 Protein Mixed 蛋白序列,AP_原本只用于細菌的蛋白。
NC_123456 Genomic Mixed 全基因組序列,包括細胞器的、質粒等
NG_123456、NM_123456 Genomic Mixed 不完整的基因組序列,
NM_123456789 、NP_123456 mRNA Mixed 成熟的mRNA
NP_123456789 Protein Mixed 全長蛋白序列。但也有可能包括非全長的蛋白或成熟的多肽序列。
NR_123456 RNA Mixed 不編碼的RNA,假基因或其它
Accession 前綴
Accession 前綴 類型 說明
AC_ Genomic Complete genomic molecule, usually alternate assembly (完整的基因組分子,通常交替組裝)
NC_ Genomic Complete genomic molecule, usually reference assembly(完整的基因組分子,通常參考組裝)
NG_ Genomic Incomplete genomic region(基因組區域不完整)
NT_ Genomic Contig or scaffold, clone-based or WGS(重疊群或支架,基于克隆或WGS)
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence(環境順序)
NZ_ Genomic Unfinished WGS (未定義的WGS)
NM_ mRNA
NR_ RNA
XM_ mRNA Predicted model (預測模型)
XR_ RNA Predicted model(預測模型)
AP_ Protein Annotated on AC_ alternate assembly(在AC_備用裝配上標注)
NP_ Protein Associated with an NM_ or NC_ accession(與NM_或NC_加入相關)
YP_ Protein
XP_ Protein Predicted model, associated with an XM_ accession(與XM_加入相關的預測模型)
ZP_ Protein Predicted model, annotated on NZ_ genomic records (預測模型,已在NZ_基因組記錄中注釋)
  • WGS: Whole Genome Shotgun sequence data, 鳥槍法測序.

五、Entrez ID

GeneID即Entrez Gene ID(是NCBI中用來連接各個不同數據庫統一的基因標志符)**
Entrez是歸屬于NCBI的一個綜合的文本檢索引擎系統。這個檢索引擎整合了PubMed數據庫的生物醫學文獻與其他39個文獻和分子數據庫(例如GEO,Entrez Gene等,這些數據庫基本涵蓋了DNA和蛋白質序列,結構,基因,基因組,遺傳變異和基因表達方面的數據)。NCBI組織建立了Entrez,Entrez整合了各大數據庫的入口,便于進行數據庫檢索。通常所說的檢索NCBI數據庫,其實就是在檢索Entrez這個引擎系統所整合的生信數據庫。
由于Entrez 作為一個綜合性檢索引擎,為了方便,其對不同的 Gene 進行了編號, 即 Entrez Gene ID. 并且由于 Entrez ID 相對穩定,也被眾多其他數據庫, 如 KEGG 等. 一串數字的Entrez Gene ID 不但具有很高的辨識度,而且在ID轉化中占據著重要的地位生信菜鳥團的博客《NCBI的基因entrezID相關文件介紹》講解了Entrez ID主要的信息文件。

gene_id symbol chromosome
352937 dio2 20

表中geneid即為 Entrezid. 在ID轉換中有重要的作用。

六、UCSC ID

UCSC ID 由小寫字母和數字構成,
起 uc+三位數字+三位小寫字母+小數點+數字構成版本號如:uc010qfk.3, uc010qfk.3.
! UCSC ID幾乎被拋棄不用了,只是因為UCSC是三大數據庫之一而已。

補:tax_id代表物種的id, 如人類是9606

生信技能樹:超精華生信ID總結,想踏入生信大門的你-值得擁有
常用數據庫ID表示方式
UniProt數據庫參考學習連接1(作者:thinkando)
NCBI參考序列(RefSeq)常見問題回答
NCBI RefSeq命名格式的詳細說明
DDBJ/EMBL/GenBank Accession的命名規則

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容