可能是最全的單細胞數據庫匯總(2023更新版本)

  1. Human cell atlas, HCA:https://data.humancellatlas.org/.
    該數據庫由當時在麻省理工學院的Aviv Regev博士和和哈佛大學布羅德研究所的Wellcome Sanger研究所的Sarah Teichmann博士于2016年共同創立。Human cell atlas存儲并提供由世界各地實驗室提供的單細胞數據。任何人都可以提供、查找或訪問數據。Human cell atlas正在改變對人類健康和疾病的理解,并將影響生物學和醫學的幾乎所有方面。
    Human cell atlas旨在單細胞水平研究人體,使全球研究人員能夠分析不同細胞類型發育和活動的分子機制,并發現不同細胞類型如何聚集在一起形成組織;還使研究人員能夠系統地研究與不同疾病相關的生物變化,并了解與疾病相關的基因在我們體內的哪些細胞中活躍。更具體地說,①人類細胞圖譜對人體中的所有細胞類型(如免疫細胞或腦細胞)和亞型進行分類,映射到相應組織和體內位置,并查看每個組織的結構;②識別、比較細胞的不同狀態(如尚未遇到病原體的幼稚免疫細胞及其在遇到細菌后被激活的同類型免疫細胞,甚至不同的增殖狀態比較);③追蹤細胞發育軌跡,如從骨髓前體細胞到功能性紅細胞;④揭示從發育至成年期間所涉及的細胞和過程。從而提供一個公開可用的、具有全球代表性的資源,使全世界的研究人員能夠研究和了解健康和疾病。
  2. Jingle Bells:http://jinglebells.bgu.ac.il/
    Jingle Bells(鈴兒響叮當)這首歌恐怕是最為人們熟悉的圣誕歌曲,此處被用于數據庫名稱。該數據庫是一個用于從單細胞水平可視化分析RNA-Seq數據的標準化單細胞數據集庫,根據文獻研究對象將單細胞數據劃分為免疫和非免疫類。
  3. CancerSEA:http://biocc.hrbmu.edu.cn/CancerSEA/
    CancerSEA是第一個旨在以單細胞水平全面解碼腫瘤細胞不同功能狀態的數據庫,用途包括:①提供腫瘤單細胞功能狀態圖譜,涉及25種腫瘤類型的41900個腫瘤單細胞的14種功能狀態;
    ②查詢基因(包括PCG 和 lncRNA)或感興趣的基因列表與不同腫瘤類型相關的功能狀態;
    ③以單細胞分辨率提供與功能狀態高度相關的pCG/lncRNA庫。
    14種腫瘤相關功能狀態可以當作14種表型,包括細胞干性、侵襲、轉移、增殖、EMT、血管生成、凋亡、細胞周期、分化、DNA 損傷、 DNA 修復、缺氧、炎癥和靜止。通過表征每個腫瘤細胞的這些功能狀態活動,CancerSEA提供了腫瘤單細胞功能狀態的圖譜,并將蛋白編碼基因、PCG和lncRNA與單細胞水平的這些功能狀態相關聯,以促進對腫瘤機制的理解。
  4. DISCO:https://www.immunesinglecell.org/
    DISCO整合了來自4593個樣本的超過1800萬個細胞,涵蓋107個組織、細胞系或類器官、158種疾病和20個平臺,數據以模塊化形式呈現。該數據庫提供了三種在線工具,即Online FastIntegration、Online CELLiD和CellMapper,用于單細胞RNA-seq數據的集成、注釋和投影到選定的圖集中。
  5. PanglaoDB:https://panglaodb.se/index.html
    PanglaoDB是一個面向對探索小鼠和人類單細胞RNA測序結果分析的單細胞轉錄組數據庫。其中包含超過1000個單細胞實驗的預處理和預分析結果,涵蓋大多數單細胞平臺數據的分析流程,基于來自各種組織和器官超過400萬個細胞。同時包含6000多個marker基因,是一個主要用于細胞分群注釋的marker數據庫。數據主要源于已經公開發表的單細胞轉錄組數據。
  6. SC2disease:http://easybioai.com/sc2disease/
    SC2disease數據庫旨在為不同疾病的不同細胞類型提供全面和準確的基因表達譜分析。數據來源是2020年3月前使用scRNA-seq研究人類疾病的文獻,記錄了946481個條目,對應于341種細胞類型、29種組織和25種疾病,主要用來分析不同疾病中異常細胞和正常細胞的差異基因表達譜。疾病包括:乳腺癌、黑色素瘤、2型糖尿病、少突膠質細胞瘤、慢性粒細胞白血病、肝癌、肺癌、H3K27M膠質瘤、巴雷特食管、老年癡呆癥、類風濕關節炎、自閉癥譜系障礙、狼瘡性腎炎、胰腺導管腺癌、多發性硬化癥、髓母細胞瘤、星形細胞瘤、亨廷頓病、雷特綜合征、年齡相關性黃斑變性、動脈粥樣硬化和皰疹病毒感染。
  7. CellMarkrer:http://bio-bigdata.hrbmu.edu.cn/CellMarker/
    CellMarker旨在為人類和小鼠組織中的各種細胞類型提供全面而準確的細胞標記資源。通過人工整理超過100000篇已發表論文,4124 個條目,包括細胞標記信息、組織類型、細胞類型、腫瘤信息和來源,收集了158個人體組織、亞組織中467個細胞類型的13,605個細胞標記物和81個小鼠組織、亞組織中389個細胞類型的9,148個細胞標記物,并存放在CellMarker中。主要用途包括:①瀏覽人和小鼠不同組織的不同細胞中的細胞標記;②在人和小鼠的任何感興趣的組織中檢索特定細胞類型的細胞標記;③通過生動的統計圖表獲取每種細胞類型中細胞標志物的流行情況;④下載人和小鼠不同組織不同細胞類型的細胞標志物。
  8. scQuery:https://scquery.cs.cmu.edu/
    該數據庫展示了一個通過自動化管道來下載、處理和注釋公開可用scRNA-seq數據集的方法,以實現大規模的監督表征。該數據集代表來自500多個不同scRNA-seq 研究的表達實驗,代表 300種獨特的細胞類型,以及總計近150K的表達譜。數據來源是GEO和ArrayExpress數據庫中的scRNA-seq數據。可以上傳數據進行單細胞分析,用于確定細胞類型、關鍵基因等。
  9. BloodSpot:http://servers.binf.ku.dk/bloodspot/
    BloodSpot是一個提供健康和惡性造血中基因和基因特征的基因表達譜DE 數據庫,包含來自人類和小鼠的數據。除了顯示集成表達式圖的默認圖譜外,還有兩個額外的可視化級別可用;顯示樣本之間層次關系的交互式樹,以及Kaplan-Meier生存圖。該數據庫被細分為幾個可供瀏覽的數據集,是一個專門用于健康和血液病單細胞轉錄組分析的數據庫。
  10. SCPortalen:http://single-cell.clst.riken.jp/
    SCPortalen是日本人開發的一個單細胞測序數據庫,旨在使在不同的環境中得到的單細胞測序數據具有可比性和可重用性,涵蓋了人類和小鼠單細胞轉錄組學數據集,這些數據集可從INSDC網站公開獲得。除了轉錄組學數據,SCPortalen還提供了對單細胞圖像的訪問權限。通過SCPortalen的Web界面,用戶可以輕松搜索、分析和下載感興趣的單細胞數據集。
  11. scRNASeqDB:https://bioinfo.uth.edu/scrnaseqdb/
    scRNASeqDB包含從GEO收集的36個人類單細胞基因表達數據集,涉及來自174個細胞組的8910個細胞。此外,該 數據庫還提供了不同狀態細胞基因表達的詳細信息,以及一些特征,包括基因表達的熱圖和箱線圖、基因相關矩陣、GO分析和通路注釋。用戶還可以將scRNASeq數據集提交到數據庫進行分析。檢索時,可以通過基因或者細胞來進行分析。
  12. Single Cell Portal:https://singlecell.broadinstitute.org/single_cell
    該數據庫目前收錄99個study中的340萬種細胞,主要用于多個高度交互的可視化分析,了解細胞和細胞子集如何聚集。通過可視化細胞繪制并按元數據分組的基因表達,例如,通過不同測試或通過新細胞群來探索基因。發現基因在不同細胞簇上的表達,探索其在不同細胞群中的表達模式。此外,用戶還可以下載數據、表達矩陣或FASTQ文件進行個性化分析。
  13. SCDevDB:https://scdevdb.deepomics.org/
    SCDevDB包含10個數據集,涵蓋18413個單細胞和176個細胞組。根據數據資源號,這些細胞群被分為35個發育階段,每個哺乳動物個體都是從全能受精卵發育而來的。哺乳動物的著床前發育是一個復雜的過程,包括從1細胞到2細胞、2細胞到4細胞、4細胞到8細胞、8細胞到16細胞以及16細胞到胚泡的一系列細胞分裂。幾乎所有的人體組織都來自胚胎細胞,然后根據多細胞生物的發育過程構建發育樹。SCDevDB是一個發育相關的單細胞數據庫。
  14. KIT:http://humphreyslab.com/SingleCell/
    KIT是一個用于腎臟單細胞數據集的在線數據庫,允許用戶從小鼠或人腎和人腎類器官單細胞數據集中查詢基因表達。文庫是使用所示的細胞或細胞核以及InDrop、DropSeq或10X Chromium平臺創建的。數據庫涵蓋健康成人腎臟-上皮細胞,人體排斥腎同種異體移植活檢組織,健康成人腎臟組織,腎臟類器官,人類胎兒腎臟,人類糖尿病腎和人腎snRNA/ATAC-seq等組織器官的空間轉錄組數據。
  15. VascularSingleCells:http://betsholtzlab.org/VascularSingleCells/database.html
    該數據庫是成年小鼠腦和肺血管和血管周圍細胞的單細胞基因表達數據庫,由Betsholtz Lab開發。Christer Betsholtz團隊主要研究胚胎發育、成人健康和疾病中血管生成、血管通透性和其他血管功能的細胞和分子機制,主要關注微血管周細胞和血管周圍成纖維細胞,這是圍繞大腦血管的兩組不同的細胞。他們還開發了其他針對小鼠腦組織單細胞測序的數據庫。
  16. Single Cell Expression Atlas:https://www.ebi.ac.uk/gxa/sc/home
    單細胞表達圖譜 (SCEA) 是一個以單細胞水平探索各種物種和條件下的基因表達譜上數據庫。SCEA積累、整理和重新分析來自多個物種和跨實驗條件的可用原始單細胞測序數據,以使它們具有交叉可比性,并呈現在用戶友好的界面中供公眾使用。這使研究人員能夠在從人類到酵母菌的不同物種的單個細胞水平上快速了解他們感興趣的基因的表達模式。SCEA的目標是跟上快速發展的單細胞轉錄組學研究的步伐并廣泛使用。
  17. TISCH:http://tisch.comp-genomics.org/home/
    TISCH數據庫是專門用于腫瘤免疫浸潤分析的單細胞數據庫。數據來源明確,主要是GEO和ArrayExpress的數據,包括28種腫瘤類型,79個數據集,2045746個細胞,既有人類細胞,也有小鼠細胞;既有治療的,也有未治療的。因此,涵蓋的單細胞類型比較全面。數據處理的流程包括數據收集、樣本質控、數據前處理,數據集信息,數據集模塊,基因模塊和數據下載。其中數據集模塊和基因模塊是我們操作使用最多的選項。我們在21天實操教程里進行過詳細的實操分享(腫瘤免疫 · 實操教程Day19、TISCH實操教程)。
  18. scTPA:http://sctpa.bio-data.cn/sctpa/
    用于通路激活特征的單細胞轉錄組分析的網絡工具。scTPA用于分析人和小鼠中通路激活特征的單細胞基因表達。基于眾所周知的生物通路或用戶定義的通路,scTPA通過測量單個細胞的通路激活,進行聚類分析并識別細胞類型特異性激活通路,從而更好地了解通路中的細胞類型和狀態取向的觀點。
  19. MCA:http://bis.zju.edu.cn/MCA/
    MCA是使用單細胞RNA測序來確定小鼠主要器官的細胞類型組成的數據庫。 網站由七個網頁組成。主頁描述了網站的功能,腦組織樣本的每個組織和操作方式。MCA 2.0分析了從早期胚胎階段到成熟成人階段的七個生命階段來自 >10 個小鼠組織的 >520,000 個單細胞(每個組織通常重復2-4個)。在全局視圖中,完整小鼠組織分為95個主要集群。視圖提供單個單元格級別的全局視圖、標記列表為每個簇提供標記基因。此外,還可以進行差異分析、相關分析和聚類分析等。MCA涵蓋了哺乳動物體內的各種主要細胞類型,并對每一種器官內的組織細胞亞型,基質細胞亞型,血管內皮細胞亞型,和免疫細胞亞型進行了詳細的描述。
    HCL:https://db.cngb.org/HCL/,來自開發MCA的同一個團隊。HCL包括人類50種組織的超過70萬個細胞,劃分為102個cluster,可以查詢每種組織、每個cluster的marker基因。可以上傳和下載數據自行分析。
  20. Tabula Muris :https://tabula-muris.ds.czbiohub.org/
    Tabula Muris是來自模式生物Mus musculus的單細胞轉錄組數據的概要,包含來自20個器官和組織的近100,000個細胞。這些數據允許直接和受控地比較組織間細胞類型中的基因表達,例如來自不同解剖位置的免疫細胞。來自SMART-Seq2 RNAseq文庫的樣本由單獨FACS分選細胞制備,包括來自8只小鼠的20個組織的53760個細胞;來自使用10x Genomics平臺制備并使用CellRanger處理的細胞,包含從422803個液滴庫中收集的序列數據;可使用Seurat包輕松加載的 Robject 文件,包括每個組織的細胞的注釋和聚類,由基于微流體液滴的測序文庫或 FACS 分選細胞文庫制備;t-SNE圖展示每個組織Top10基因的表達。
    21.SpatialDB:https://www.spatialomics.org/SpatialDB/
    SpatialDB是第一個專門從已發表論文中整理空間轉錄組數據的公共數據庫,旨在為組織中的空間基因表達譜提供全面而準確的資源。目前,SpatialDB包含由8種空間分辨轉錄組技術生成的24個數據集的詳細信息,允許用戶在線瀏覽所有 8 種技術的空間基因表達譜,并比較相同或不同技術生成的任意兩個數據集的空間基因表達譜。SpatialDB提供了由SpatialDE和Trendsceek識別的空間可變 (SV) 基因,能提供空間分辨轉錄組圖譜,包括人類、小鼠、果蠅、秀麗隱桿線蟲和斑馬魚組織的數據集,用于快速檢索特定組織中空間基因表達的分析,GO和KEGG富集分析。
    22 .iSyTE:https://research.bioinformatics.udel.edu/iSyTE/ppi/index.php
    眼科研究界已經在不同階段的野生型小鼠晶狀體和來自表現晶狀體缺陷或白內障的特定基因擾動小鼠突變體的晶狀體組織上生成了數百個微陣列數據集。該數據庫分析了使用標準 Affymetrix 和 Illumina 平臺生成的所有晶狀體微陣列基因表達數據集,并開發了iSyTE用于眼睛基因發現的集成系統工具。它允許有效訪問和可視化這些分析的數據集,同時也促進各種下游分析,是一個專注于研究眼睛發育的單細胞數據庫。
    iSyTE 使用戶能夠:(1) 優先考慮與晶狀體發育和白內障相關的候選基因,(2) 獲取與白內障/晶狀體缺陷相關的轉錄組變化的信息,以及 (3) 分析新候選基因的表達并在先前定義的野生型和特定基因擾動小鼠突變晶狀體中的基因表達。
  21. DBTMEE:https://dbtmee.hgc.jp/
    DBTMEE是一個小鼠早期胚胎轉錄組的數據庫,通過超大規模全轉錄組分析建立基因表達譜。通過對超過1.5×10^5個MII 卵母細胞進行測序,以分析男性和女性基因組結構從受精到ZGA,到合子基因組依賴性細胞周期的轉變。DBTMEE還包含其他公共資源,可以系統地了解從受精到ZGA的男性和女性基因組動態,可用于探索參與基因組激活程序的基因的遺傳和表觀遺傳特征,特別是確定參與受精卵母細胞轉錄起始的潛在關鍵轉錄因子 (TF)。
    24.CeDR Atlas:https://ngdc.cncb.ac.cn/cedr
    CeDR是從單細胞水平對人類、小鼠和細胞系的組織細胞類型特異性藥物反應分析的數據庫。CeDR為細胞的藥物反應譜提供了直接參考,不僅包括疾病細胞類型,還包括正常細胞類型。目前,CeDR囊括超過582個單細胞數據對象,140種表型和1250 種組織細胞組合類型,獲得188,157個針對人類,42,660個針對小鼠,10,299個針對細胞系的細胞類型-藥物關聯(豐富的 p 值<0.05,相關 p 值<0.01)。用戶可通過瀏覽和搜索藥物、細胞類型、組織和疾病,還可以過濾和優先考慮與確切基因特征的關聯。總體而言,CeDR 以細胞分辨率推斷藥物反應,并闡明聯合治療的設計和耐藥性甚至藥物副作用的識別。
    25.Aging Atlas:https://ngdc.cncb.ac.cn/aging/index
    Aging Atlas數據庫旨在編譯由一系列高通量組學技術創建的大型基因表達和調控數據集,并作為一系列生命科學研究人員的寶貴資源。數據庫目前包括五個模塊:轉錄組學、表觀組學、單細胞轉錄組學、蛋白組學和藥物基因組學。Aging Atlas提供用戶友好的功能來探索與年齡相關的基因表達變化,并為來自衰老相關研究的原始多組學數據提供下載服務。但是針對該數據庫的使用仍有待開發。
    26.Gut Cell Atlas:https://www.gutcellatlas.org/
    該數據庫是一個腸道組織的單細胞測序數據庫。其中,時空腸細胞圖譜,來自胎兒、兒科、成人供體和多達 11 個腸道區域的428K 腸道細胞的完整單細胞 RNA-seq 數據集;胎兒和兒科細胞圖譜,從受孕后 6-11 周的人類腸道發育中分離出的62,849 個細胞 的單細胞轉錄組。該數據包括來自雙空腸、回腸和結腸的腸細胞;結腸免疫圖譜,結腸作為屏障組織,代表了一種獨特的免疫環境,免疫細胞對不同的微生物群落表現出耐受性,這些微生物群落統稱為微生物組。結腸示意圖 已發表的研究表明,不僅結腸不同部位的免疫細胞之間存在差異,而且微生物組也發生了微妙的變化,結腸下方的細菌范圍更廣。
  22. StemMapper:http://stemmapper.sysbiolab.eu/
    StemMapper擁有超過798個小鼠和166個人類的干細胞轉錄組,數據主要從GEO收集,代表51種小鼠干細胞、祖細胞及其后代的表達譜和19種人類干細胞、祖細胞及其子代的表達譜。StemMapper的數據集通過嚴格地質量控制過濾,并基于每個類型的單個干細胞的基因特征的標準化。關于每個樣品的詳細信息,還可以自行下載數據查看。
  23. ColorCells:https://rna.sysu.edu.cn/colorcells/
    一個比較分析lncRNAs和miRNA在單細胞RNA-Seq數據中的表達、分類和功能的平臺。ColorCells分析了5個物種的167913個scRNA-Seq數據。lncRNA的整合注釋揭示了大量細胞特異性lncrRNA及其性質。
  24. SPICA:https://spica.epfl.ch/projects
    Swiss Portal for Immune Cell Analysis (SPICA) 是一個致力于探索和分析免疫細胞單細胞 RNA-seq 數據的網絡資源。與其他單細胞數據庫相比,SPICA 擁有精心策劃的細胞類型特異性參考圖譜,這些參考圖譜以高分辨率描述免疫細胞狀態,并發布了在這些圖譜背景下分析的單細胞數據集。此外,用戶可以在現有圖集的上下文中私下分析自己的數據。
    30.GRNdb:http://www.grndb.com/
    基因調控網絡對于理解基因表達調控和表達異質性的機制至關重要。GRNdb是一個免費訪問且用戶友好的數據庫,用于方便地探索和可視化由轉錄因子(TF)和下游靶基因形成的預測調控網絡,基于大規模 RNA-seq 數據以及已知的TF-各種人和小鼠條件的目標關系。GRNdb 中的所有規則都是根據組學數據預測的,而不是通過實驗確定的。用戶可以輕松搜索、瀏覽和下載單細胞或批量水平的各種條件的 TF-target 對和相應的基序,同時研究一系列基因的表達譜并分析基因之間的關聯不同TCGA腫瘤的表達水平和患者的存活率。
  25. CellPhoneDB:https://www.cellphonedb.org/
    CellPhoneDB是一個公開的受體、配體及其相互作用的資料庫。亞基結構包括配體和受體,準確地代表異質復合物。這是至關重要的,因為細胞-細胞之間的通信依賴于多亞基蛋白復合體,這超越了大多數數據庫和研究中使用的二進制表示。CellPhoneDB集成了與蜂窩通信有關的現有數據集和新的人工審查信息。CellPhoneDB利用來自以下數據庫的信息:UniProt, Ensembl, PDB, IMEx聯盟,IUPHAR。
  26. scMetabolism:http://www.cancerdiversity.asia/scMetabolism/
    scMetabolism旨在為擁有單細胞測序數據的用戶提供便利。用戶可以使用自己的scRNA-seq數據探索代謝活動,是由復旦大學附屬中山醫院開發的在線單細胞代謝數據庫。
  27. CDCP:https://db.cngb.org/cdcp/
    CDCP(細胞組學數據坐標平臺)共享和整合復雜的單細胞數據集,并提供單細胞分析工具和可視化服務,以方便研究人員訪問和探索已發表的單細胞數據集。其中包括病毒數據庫VThunter和HCL數據庫。
  28. THPA:https://www.proteinatlas.org/humanproteome/single+cell+type
    THPA數據庫單細胞部分,基于來自25個人體組織和外周血單個核細胞 (PBMCs)的單細胞RNA測序 (scRNAseq)數據,以及內部生成的顯示相應空間蛋白表達模式的免疫組化切片。scRNAseq分析基于公開的全基因組表達數據,包含對應于15個不同細胞類型的444個單細胞類型簇中的所有蛋白編碼基因。進行特異性和分布分類,以確定這些單細胞類型中升高的基因數量,以及分別在一個、幾個或所有細胞類型中檢測到的基因數量。每種細胞類型中表達的基因可以通過交互UMAP圖和柱狀圖來探索,并與人體組織中相應的免疫組化染色相聯系。
    35.lungcancer:http://lung.cancer-pku.cn/index.php
    通過單細胞測序對非小細胞肺癌中 T 細胞的全局表征,深層單細胞轉錄組數據以及完整的 T 細胞受體信息確定NSCLC浸潤淋巴細胞的多維特征。這是張澤民教授團隊開發的、專門用于非小細胞肺癌免疫分析的單細胞數據庫。最終獲得12598個基因和7183個細胞的注釋。
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容