- PMID: 34313325
- DOI: 10.1111/cge.14038
CLINICAL GENETICS IF:4.438 (2021年6月30日公布) JCR小類二區(qū)
摘要
家族性胰腺癌 (FPC) 患者的一級(jí)親屬 (FDR) 患胰腺導(dǎo)管腺癌 (PDAC) 的風(fēng)險(xiǎn)增加。調(diào)查和了解 FPC 易感家庭中 PDAC 易感性的遺傳基礎(chǔ)可能有助于未來(lái)的風(fēng)險(xiǎn)評(píng)估和高風(fēng)險(xiǎn)個(gè)體的管理。使用丹麥的 27 個(gè) FPC 家族隊(duì)列,我們對(duì) 61 個(gè) FPC 患者的一級(jí)親屬進(jìn)行了全基因組測(cè)序,重點(diǎn)關(guān)注可能導(dǎo)致 PDAC 家族聚集的罕見(jiàn)遺傳變異。使用 gnomAD 數(shù)據(jù)庫(kù)作為外部對(duì)照進(jìn)行統(tǒng)計(jì)分析。通過(guò)對(duì)雜合過(guò)早截?cái)嘧儺愺w (PTV) 的分析,我們確定了具有多個(gè)種系突變的癌癥相關(guān)基因和癌癥驅(qū)動(dòng)基因。關(guān)聯(lián)分析檢測(cè)到 20 個(gè)具有錯(cuò)誤發(fā)現(xiàn)率的顯著基因,q < 0.05的有:PALD1 , LRP1B , COL4A2 , CYLC2 , ZFYVE9 , BRD3 , AHDC1等。功能注釋顯示重要基因被編碼細(xì)胞外基質(zhì)和相關(guān)蛋白的基因簇富集。PTV 基因被與小分子轉(zhuǎn)運(yùn)、先天免疫系統(tǒng)、離子通道轉(zhuǎn)運(yùn)和刺激傳感通道相關(guān)的功能Over-represented。總之,F(xiàn)PC 患者的一級(jí)親屬攜帶與癌癥發(fā)病機(jī)制相關(guān)的罕見(jiàn)種系變異,這可能有助于增加對(duì) PDAC 的易感性。確定的變異可能對(duì)易感家庭中高風(fēng)險(xiǎn)個(gè)體的風(fēng)險(xiǎn)預(yù)測(cè)有用。
1 介紹
全球男性胰腺癌發(fā)病率為 5.5/10 萬(wàn),女性為 4.0/10 萬(wàn)。1在這些病例中,估計(jì)有 5%–10% 為家族性胰腺癌 (FPC)。2 FPC 是一種具有家族聚集性的遺傳性惡性腫瘤,定義為在沒(méi)有已知遺傳性癌癥綜合征的情況下,至少有一對(duì)一級(jí)親屬 (FDR) 患有胰腺導(dǎo)管腺癌 (PDAC)。3 FPC 的家族聚集增加了親屬中 PDAC 的風(fēng)險(xiǎn)。4據(jù)估計(jì),在 FPC 易感家庭中,有 2 個(gè)一級(jí)親屬患有 PDAC 的個(gè)體患 PDAC 的風(fēng)險(xiǎn)高 6.4 倍,而至少有 3 個(gè)一級(jí)親屬患有 PDAC 的個(gè)體患疾病的風(fēng)險(xiǎn)高 32 倍。5這些報(bào)告將易感一級(jí)親屬描述為高風(fēng)險(xiǎn)個(gè)體 (HRI)。國(guó)際共識(shí)指南建議每年篩查 HRI,包括 FPC 易感家庭中的一級(jí)親屬——對(duì) PDAC 易感基因進(jìn)行基因檢測(cè)是未來(lái)風(fēng)險(xiǎn)評(píng)估和 HRI 分層的潛在工具。6 , 7
我們最近分析了丹麥全國(guó)家庭隊(duì)列中 FPC 的家族相關(guān)性,并估計(jì)一級(jí)親屬對(duì) FPC 患者的高遺傳率為 51%。8 FPC 的高遺傳易感性要求努力識(shí)別疾病發(fā)病機(jī)制的遺傳變異。在文獻(xiàn)中,已經(jīng)進(jìn)行了多項(xiàng)全基因組關(guān)聯(lián)研究 (GWAS),并解決了與散發(fā)性胰腺癌 (SPC) 相關(guān)的常見(jiàn)單核苷酸多態(tài)性 (SNP)。9 - 11然而,只有少數(shù)研究關(guān)注 FPC 12——可能是由于樣本可用性有限,因?yàn)?FPC 代表胰腺癌的一個(gè)罕見(jiàn)亞組,估計(jì)約占所有 PDAC 病例的 10%。
盡管付出了巨大的努力,但以前的遺傳關(guān)聯(lián)研究?jī)H檢測(cè)到有限數(shù)量的 PDAC 易感基因座。13 GWAS 基于“常見(jiàn)疾病,常見(jiàn)變異”假設(shè),常見(jiàn)變異是指存在于 1%–5% 以上人群中的等位基因變異。常見(jiàn)的變體導(dǎo)致疾病風(fēng)險(xiǎn)的增加相對(duì)較小。14與其關(guān)注常見(jiàn)的 SNP,更好的選擇是使用下一代測(cè)序 (NGS) 和統(tǒng)計(jì)模型分析罕見(jiàn)的單核苷酸變異 (SNV),以聯(lián)合分析罕見(jiàn)的變異。
使用 NGS 技術(shù)的研究已經(jīng)確定了與 FPC 相關(guān)的BRCA1、BRCA2、CDKN2A、PALB2和ATM中的顯著基因突變。15 , 16盡管如此,所有 FPC 病例中只有約 12% 攜帶任何這些突變——這意味著所有 FPC 病例中 >80% 的種系成分仍然未知。7 , 17最近的全基因組測(cè)序 (WGS) 分析表明,F(xiàn)PC 的遺傳結(jié)構(gòu)具有高度異質(zhì)性,目前鑒定的遺傳變異解釋了疾病易感性的有限遺傳成分。16FPC 的遺傳異質(zhì)性意味著易感性變異可能對(duì)某些個(gè)人或家庭是私有的——這種情況給識(shí)別相關(guān)遺傳變異帶來(lái)了挑戰(zhàn)。
FPC 患者與其一級(jí)親屬之間的高度遺傳相似性平均為 50%,這表明后者是進(jìn)行遺傳關(guān)聯(lián)研究的有價(jià)值的樣本。我們對(duì)來(lái)自丹麥人群的全國(guó)隊(duì)列中的 FPC 患者的一級(jí)親屬 進(jìn)行了第一次北歐 WGS 研究。FPC 患者一級(jí)親屬中罕見(jiàn)種系變異的分析和表征有助于揭示 FPC 高遺傳易感性的分子基礎(chǔ)。
2 材料和方法
2.1 樣本采集
丹麥歐登塞大學(xué)醫(yī)院內(nèi)科胃腸病學(xué)系目前納入了一個(gè)由 27 個(gè)對(duì) FPC 易感的丹麥家庭組成的全國(guó)性隊(duì)列。在納入篩查計(jì)劃之前,每個(gè)家庭都在其家鄉(xiāng)的臨床遺傳學(xué)部門被診斷出患有 FPC 的遺傳易感性。18根據(jù)我們機(jī)構(gòu)以前的定義和國(guó)際共識(shí)標(biāo)準(zhǔn),19 FPC 的家族易感性被定義為存在以下任何一種情況:(1)兩個(gè)患有 PDAC 的一級(jí)親屬,其中至少一個(gè)病例在年齡 < 50 歲時(shí)首次出現(xiàn);或 (2) 至少三個(gè)帶有 PDAC 的一級(jí)親屬。
每個(gè)家庭的 FPC 病例的一級(jí)親屬在達(dá)到一定年齡(即比家庭中 PDAC 的最早發(fā)病年齡小 5 歲)后被納入篩查計(jì)劃;但不遲于 50 歲。一級(jí)親屬的 PDAC 篩查計(jì)劃包括胰腺的年度成像(內(nèi)鏡超聲檢查和細(xì)針活檢,如果相關(guān)),以及 PDAC 血液標(biāo)志物(即癌癥抗原 19-9、CA19-9) - 有可能個(gè)體化每個(gè)人的程序。
篩選計(jì)劃中的個(gè)人,包括目前沒(méi)有出現(xiàn) PDAC 的 FPC 患者的一級(jí)親屬,獲得了參與 WGS 研究的知情同意書。該研究包括 61 名一級(jí)親屬,并從每個(gè)人身上采集 10 mL 全血樣本進(jìn)行測(cè)序分析。在先前的研究中詳細(xì)描述了篩選計(jì)劃中包含的 FPC 易感家庭的隊(duì)列概況。8
2.2 倫理
相關(guān)個(gè)人的數(shù)據(jù)和樣本收集是在丹麥國(guó)家衛(wèi)生研究倫理委員會(huì) (NVK)(項(xiàng)目編號(hào):1604008)和丹麥數(shù)據(jù)保護(hù)局(項(xiàng)目編號(hào):18/54160)的批準(zhǔn)下進(jìn)行的。
2.3 測(cè)序分析
使用從外周血中提取的 DNA 對(duì)來(lái)自 FPC 患者的總共 61 個(gè)一級(jí)親屬進(jìn)行了全基因組測(cè)序。簡(jiǎn)而言之,使用 TruSeq DNA PCR free kit (Illumina, Inc) 對(duì)每個(gè)樣品 20 μg 基因組 DNA 進(jìn)行測(cè)序。在 NovaSeq 6000 (Illumina, Inc) 上進(jìn)行測(cè)序。使用 Illumina DRAGEN 軟件分析序列讀數(shù)并將其與人類參考基因組 (hg19) 比對(duì)。使用 VarSeq (Golden Helix, Inc.) 對(duì)變體進(jìn)行注釋,其中 (i) RefSeq 基因轉(zhuǎn)錄本中的功能結(jié)果,(ii) 接合性,(iii) 使用公開可用的變體數(shù)據(jù)庫(kù) (gnomAD) 確定的次要等位基因頻率 (MAF) 和 (iv)存在于 ClinVar 中。
2.4 變體的過(guò)濾和解釋
我們使用 VarSeq 應(yīng)用過(guò)濾(https://www.goldenhelix.com/products/VarSeq/),版本 2.2.1 (Golden Helix, Inc.) 用于下游過(guò)濾。所有變體首先以至少 10 倍的覆蓋率、非同義詞過(guò)濾,并呈現(xiàn)在外顯子組區(qū)域或剪接位點(diǎn),代表范圍為 60.4%–95.6% 的目標(biāo)堿基。然后對(duì)過(guò)濾后的變體進(jìn)行兩次處理,每個(gè)參數(shù)處理一次。涵蓋復(fù)合雜合子、常染色體隱性遺傳、多因素遺傳或從頭遺傳的可能性的第一個(gè)參數(shù)設(shè)置為 ≤0.01 的群體頻率(genomAD 和 ExAC)。第二個(gè)參數(shù),涵蓋單核苷酸多態(tài)性 (SNP) 和小插入和缺失 (INDEL) 的顯性遺傳,被設(shè)置為頻率≤0.0001。我們使用EnsDb.Hsapiens.v86提供的注釋刪除了屬于 (1) 假基因的序列變體Bioconductor 中的軟件包(DOI:10.18129/B9.bioc.EnsDb.Hsapiens.v86);(2) 節(jié)段重復(fù) (humanparalogy.gs.washington.edu)。多映射讀取和偽影也從后續(xù)分析中刪除。
然后將變體分類為(1)一組功能變體,包括移碼變體、框內(nèi)缺失、框內(nèi)插入、起始密碼子變體、剪接受體變體、剪接供體變體、終止獲得變體和錯(cuò)義變體;(2)一組同義變體,包括剪接區(qū)變體、終止保留變體和5' UTR過(guò)早起始密碼子獲得變體。
VarSeq ( https://www.goldenhelix.com/products/VarSeq/ ) 用于非同義變體的功能預(yù)測(cè)。根據(jù) ACMG/AMP 建議的 ClinVar 提交的記錄以及當(dāng)?shù)嘏R床醫(yī)生和生物學(xué)家使用內(nèi)部評(píng)估目錄的評(píng)估,評(píng)估變異的臨床意義(良性、可能良性、致病性、可能致病性、不確定性等)。從非同義組中過(guò)濾掉評(píng)估為良性或可能良性的變體。同樣,從同義組中刪除評(píng)估為致病或可能致病的變體。
SNV 的功能解釋由 dbNSFP(非同義 SNP 功能預(yù)測(cè)數(shù)據(jù)庫(kù))提供,該數(shù)據(jù)庫(kù)是為人類基因組中所有潛在非同義 SNV 的功能預(yù)測(cè)和注釋而開發(fā)的。20通過(guò) VarSeq 的 dbNSFP 包含來(lái)自六種功能預(yù)測(cè)算法的變體效應(yīng)分類。致病性預(yù)測(cè)由類似 PHRED 的評(píng)分提供,該評(píng)分基于 CADD(組合注釋依賴消耗)評(píng)分 1.4。21CADD 是一種用于對(duì) SNV 的有害性以及人類基因組中的插入/缺失變體進(jìn)行評(píng)分的工具,根據(jù)來(lái)自周圍序列上下文、基因模型注釋、基因模型注釋、進(jìn)化約束、表觀遺傳測(cè)量和功能預(yù)測(cè)。PHRED-like C-Score 定義為 -10*log10(rank/total),通過(guò)相對(duì)于人類參考基因組中所有可能的 86 億替換對(duì)變體的 C-Score 進(jìn)行排名。
2.5 基因組聚合數(shù)據(jù)庫(kù)
基因組聚合數(shù)據(jù)庫(kù) (gnomAD) ( https://gnomad.broadinstitute.org ) 是一個(gè)開源數(shù)據(jù)庫(kù),用于聚合和協(xié)調(diào)外顯子組和基因組測(cè)序數(shù)據(jù)。它是世界上最大的人類遺傳變異公共集合,也是基礎(chǔ)研究和臨床變異解釋的熱門資源。第 2 版數(shù)據(jù)集 (GRCh37/hg19) 跨越了 125 748 個(gè)外顯子組序列和 15 708 個(gè)來(lái)自無(wú)關(guān)個(gè)體的全基因組序列,這些序列通過(guò)各種遺傳研究進(jìn)行了測(cè)序。我們利用 gnomAD 的 WGS 數(shù)據(jù)作為統(tǒng)計(jì)分析的外部控制。
2.6 統(tǒng)計(jì)分析
代理外部控制關(guān)聯(lián)測(cè)試 (ProxECAT):ProxECAT 22是一種專門為分析 WGS 數(shù)據(jù)而開發(fā)的統(tǒng)計(jì)方法,使用現(xiàn)有的大型數(shù)據(jù)庫(kù)作為外部控制(此處為 gnomAD)。與側(cè)重于預(yù)測(cè)為功能性遺傳變異并比較它們?cè)诮M之間的頻率的傳統(tǒng)病例對(duì)照設(shè)計(jì)不同,ProxECAT 使用非功能性變異作為樣本中遺傳區(qū)域內(nèi)變異的測(cè)序和調(diào)用情況的代理。它比較了變體頻率和代理頻率之間的比率(λ g* , λ proxy) 在外部對(duì)照的情況下,以調(diào)整測(cè)序技術(shù)、處理(即 DNA 樣本的處理)和讀取深度以創(chuàng)建內(nèi)部和外部數(shù)據(jù)集的組差異,并使用零假設(shè):
其中 g* 代表感興趣的基因,λ 是每 N 個(gè)病例或?qū)φ盏淖儺惵省S捎谧畲笏迫还烙?jì)在泊松分布下具有封閉形式,因此可以通過(guò)似然比檢驗(yàn)推斷估計(jì)的統(tǒng)計(jì)顯著性。22總而言之,ProxECAT 是一種基于基因的負(fù)荷測(cè)試,其中包括非功能性變體,以便能夠使用現(xiàn)有數(shù)據(jù)庫(kù)作為統(tǒng)計(jì)測(cè)試的外部控制。該模型已集成在 R 包 ProxECAT 中,以幫助實(shí)現(xiàn)該方法 ( https://github.com/hendriau/ProxECAT )。
2.7 Over-represented分析
Over-represented分析 (ORA) 用于通過(guò)計(jì)算超幾何分布的概率來(lái)評(píng)估已識(shí)別的重要基因與來(lái)自功能簇(生物途徑,癌癥相關(guān)基因的編譯列表)的基因的重疊是否與隨機(jī)顯著不同:
其中N是基因組中所有基因的數(shù)量,m是功能簇中的基因數(shù)量,n是被確定為顯著的基因數(shù)量,k是正在測(cè)試的重疊基因的數(shù)量。R 函數(shù)phyper()用于計(jì)算超幾何概率。
ORA 已在用于生物途徑分析的網(wǎng)絡(luò)工具中實(shí)施,即基因集富集分析 (GSEA),以測(cè)試一個(gè)生物途徑中的基因是否在已識(shí)別的重要基因列表中Over-represented。GSEA 在https://www.gsea-msigdb.org/gsea/index.jsp的規(guī)范路徑上進(jìn)行。
從測(cè)序分析、過(guò)濾、統(tǒng)計(jì)測(cè)試、功能注釋到最終報(bào)告的分析流程如圖 1所示。
圖1 全基因組測(cè)序分析工作流程
3 結(jié)果
3.1 測(cè)序分析
我們對(duì) FPC 患者的總共 61 名未受影響的一級(jí)親屬(性別:25 名女性/36 名男性;中位年齡:59 歲 [37-84])(表 S1)進(jìn)行了測(cè)序,每個(gè)樣本的平均輸出(中位數(shù))為 15161 個(gè) SNV(范圍:14678-15 630),在使用 VarSeq 應(yīng)用內(nèi)部過(guò)濾管道之后。總共檢測(cè)到 60 778 個(gè) SNV。其中,所有樣本中檢測(cè)到2397個(gè)SNV;16 533 個(gè) SNV 在 61 個(gè)樣本中僅檢測(cè)到一次(稱為私有突變,占所有檢測(cè)到的 SNV 的 27.2%)。在圖 S1,我們通過(guò) 61 個(gè)樣本中的檢測(cè)次數(shù)來(lái)顯示 SNV 數(shù)量的頻率。如方法部分所述,我們進(jìn)一步過(guò)濾所有變體以從假基因、假基因同源性、片段重復(fù)和多映射變體中去除 SNV,留下 46 033 個(gè)獨(dú)特的 SNV 用于后續(xù)分析。
3.2 過(guò)早截?cái)嘧儺惙治?/h4>
PTV 代表基因中的一種變體,這些變體產(chǎn)生早期終止密碼子,導(dǎo)致蛋白質(zhì)縮短或截短,并導(dǎo)致嚴(yán)重的功能后果。繼羅伯茨等人之后。(2016),我們使用以下標(biāo)準(zhǔn)過(guò)濾了16 個(gè)SNV(i)無(wú)義變體、剪接位點(diǎn)變體(剪接供體變體、剪接受體變體)和移碼 INDEL(移碼變體);(ii) 種系中的雜合子;(iii) 來(lái)自 gnomAD 的次要等位基因頻率 (MAF) < 0.01 和 (iv) 僅存在于一個(gè)個(gè)體中,即“私人”或由家庭中的一級(jí)親屬共享,即“家族性”,在 448 個(gè)基因中總共獲得 492 個(gè)雜合 PTV . 然后我們計(jì)算了每個(gè)基因中 PTV 的數(shù)量。
具有至少一個(gè) PTV 的基因的完整列表顯示在表 S2中。圖 2(A)是基因按其攜帶的 PTV 數(shù)量分布的直方圖。大多數(shù)基因只有 1 個(gè) PTV。有 22 個(gè)基因具有 2 個(gè) PTV,8 個(gè)基因具有≥3 個(gè) PTV(表 1)。圖 2(B)繪制了按托管 PTV 數(shù)量排序的 448 個(gè)基因(紅色標(biāo)記的點(diǎn)表示具有超過(guò) 4 個(gè) PTV 的基因)。在表 1和表 S2中,很明顯,頂級(jí)基因所包含的異源 PTV 的數(shù)量主要由私有突變貢獻(xiàn),盡管也有基因僅與家族中的一級(jí)親屬共享的 PTV。
圖2 過(guò)早截?cái)嘧凅w (PTV) 分析結(jié)果用直方圖說(shuō)明了按其攜帶的 PTV 數(shù)量分布的基因 (a) 和按宿主 PTV 數(shù)量排序的基因散點(diǎn)圖 (b)。紅色圓點(diǎn)是具有 4 個(gè)或更多 PTV 的基因
每個(gè) PTV 的詳細(xì)信息顯示在表 S3中,每個(gè)攜帶突變的樣本一行。“家族” PTV 由同一家族的樣本攜帶,而“私有” PTV 只能在一個(gè)樣本(行)中找到。從表 S3中可以看出,許多基因都被具有高 PHRED 分?jǐn)?shù)和高功能預(yù)測(cè)投票(dbNSFP 功能預(yù)測(cè)投票)的 PTV 富集,表明在功能影響方面具有很高的意義。PHRED 評(píng)分與 dbNSFP 功能預(yù)測(cè)之間的正相關(guān)趨勢(shì)(Spearman 相關(guān)系數(shù) 0.26,p < 1.87e-06)如圖 S2所示。
3.3 罕見(jiàn)變異關(guān)聯(lián)分析
共有 12 297 個(gè) MAF < 0.01 的變體可用于關(guān)聯(lián)分析。這些變異來(lái)自 7229 個(gè)基因,其中 531 個(gè)基因具有至少一個(gè)功能性非同義突變和一個(gè)同義突變,這些突變使用 ProxECAT 進(jìn)行了測(cè)試。圖3中的 QQ 圖 顯示了p值偏離隨機(jī)分布的重要基因。圖4中的曼哈頓圖 顯示了沿染色體位置的基因。FDR < 0.05 ( p ?< 1.5e-03) 的顯著基因有 20 個(gè)(表2),p < 0.05 的基因有 84 個(gè)(表 S4)。排名前 6 位的基因(p ?< 1e-05,F(xiàn)DR < 1e-03)包括PALD1、LRP1B、COL4A2、CYLC2、ZFYVE9、BRD3。10 號(hào)染色體上的PALD1(paladin)非常顯著(p < 1.53e-33),因?yàn)樗趫D3、4中從其他基因中?脫穎而出 。
圖3 使用 ProxECAT 進(jìn)行關(guān)聯(lián)測(cè)試的基因p值(負(fù)對(duì)數(shù))的QQ 圖。顯著基因偏離隨機(jī)分布的p值的對(duì)角線。紅點(diǎn)是 FDR < 0.05 的 20 個(gè)基因
圖4 曼哈頓圖繪制來(lái)自關(guān)聯(lián)測(cè)試的基因與其基因組位置的p值(負(fù)對(duì)數(shù))
在PALD1中觀察到 7 個(gè)SNV ,6 個(gè)錯(cuò)義和 1 個(gè)剪接區(qū)變體。只有 1 個(gè)錯(cuò)義突變 (10:72294183, Ref/Alt: C/T) 和剪接區(qū)變體符合 MAF < 0.01。過(guò)濾后觀察到LRP1B(低密度脂蛋白受體相關(guān)蛋白1B,染色體2)16個(gè)SNV,其中6個(gè)具有MAF <0.01,5個(gè)錯(cuò)義突變和1個(gè)剪接區(qū)變異。我們?cè)?em>COL4A2(膠原蛋白 IV 型 alpha2 鏈)中觀察到 12 個(gè) SNV,其中 4 個(gè)的 MAF < 0.01。過(guò)濾后,剩下 1 個(gè)錯(cuò)義變體(13:111155578,Ref/Alt:G/A)和 1 個(gè)剪接區(qū)域變體。對(duì)于CYLC2(cylicin 2),有 6 個(gè) SNV,其中 3 個(gè)的 MAF < 0.01,有 1 個(gè)錯(cuò)義變體(9:105767091,Ref/Alt:C/A)和 2 個(gè)剪接區(qū)變體。這ZFYVE9(含9鋅指FYVE型)基因有3個(gè)SNV,其中2個(gè)SNV的MAF < 0.01,有1個(gè)剪接受體變異(1:52729440,Ref/Alt:-/CA)和1個(gè)剪接區(qū)變異。BRD3(含 3 個(gè)溴結(jié)構(gòu)域)基因有 5 個(gè) SNV,其中只有 2 個(gè) MAF < 0.01,有 1 個(gè)錯(cuò)義突變(9:136899924,Ref/Alt:T/C)和 1 個(gè)同義剪接區(qū)變異。表 2還具有另一個(gè) BRD 基因,BRD4具有 2 個(gè)錯(cuò)義突變(19:15350625,Ref/Alt:C/T;19:15350625,Ref/Alt:C/T)和 1 個(gè)剪接區(qū)變體。
表2中重要基因中每個(gè)罕見(jiàn)的非同義變體的詳細(xì)信息 可以在表 S5中找到,顯示p ?< 0.05 的所有基因。一般來(lái)說(shuō),這些變體具有高 PHRED 分?jǐn)?shù) (>20),盡管在某些變體中也觀察到低分?jǐn)?shù)。值得注意的是,絕大多數(shù)非同義變體是錯(cuò)義突變。
與圖 S2類似,PHRED 分?jǐn)?shù)顯示出與 dbNSFP 功能預(yù)測(cè)投票(圖 S3)的明顯相關(guān)性,這表明高 PHRED 分?jǐn)?shù)與變體的高功能性相關(guān)。然而,相關(guān)程度遠(yuǎn)高于 PTV(Spearman 相關(guān)系數(shù) 0.78 對(duì) 0.26),具有更高的統(tǒng)計(jì)顯著性(p值 3.07e-75 對(duì) 1.87e-06)。從圖 S3中,與圖 S2相比,更多具有高 PHRED 分?jǐn)?shù)的變體被預(yù)測(cè)為具有破壞性,這表明關(guān)聯(lián)測(cè)試檢測(cè)到的變體在功能上更相關(guān)。
3.4 Over-represented的基因簇
將含有至少一種 PTV 的 448 個(gè)基因提交給 GSEA,以使用超幾何檢驗(yàn)對(duì)典型途徑進(jìn)行Over-represented分析。在來(lái)自 GSEA 數(shù)據(jù)庫(kù)的 2868 條途徑中,有 5 條典型途徑顯著Over-represented(FDR < 0.05),包括宇宙中的 40 071 個(gè)基因(表 3)。由 728 個(gè)基因組成的基因組“小分子轉(zhuǎn)運(yùn)”有 26 個(gè)基因與 448 個(gè) PTV 基因列表重疊,導(dǎo)致 FDR < 2.44e-03。小基因組“butyrophilin (BTN) family interaction”只有 12 個(gè)基因。其中四個(gè)可以在 FDR < 1.29e-02 的 PTV 基因中找到。基因組“離子通道轉(zhuǎn)運(yùn)”由183個(gè)基因組成。其中 11 個(gè)可以在 PTV 基因列表中找到,導(dǎo)致 FDR < 1.29e-02 的顯著Over-represented。“先天免疫系統(tǒng)”是一個(gè)包含1117個(gè)基因的大型基因組。其中,30個(gè)與PTV基因重疊(FDR < 2.35e-02)。有 8 個(gè) PTV 基因與“刺激感應(yīng)通道”中的 106 個(gè)基因重疊,導(dǎo)致 FDR < 2.35e-02。
接下來(lái),我們將表2中 ProxECAT測(cè)試的 20 個(gè)重要基因提 交給 GSEA。一種與細(xì)胞外基質(zhì) (ECM) 相關(guān)的途徑明顯過(guò)多(表 3)。在該通路的 275 個(gè)基因中,有 4 個(gè)基因(LAMB4、DMBT1、BMPER、COL4A2)出現(xiàn)在表 2的重要基因列表中,與超幾何 p 值 9.42e-06(FDR < 2.75e)有顯著重疊-02)。該通路是一組編碼核心細(xì)胞外基質(zhì)的基因,包括 ECM 糖蛋白、膠原蛋白和蛋白聚糖。
3.5 癌癥驅(qū)動(dòng)基因的富集分析
我們最終分別測(cè)試了托管異源 PTV 的基因列表和使用 ProxECAT 測(cè)試的重要基因列表中癌癥驅(qū)動(dòng)基因的重疊。為此,對(duì)檢測(cè)到的基因列表和 Dietlein 等人 (2020) 23鑒定的 460 個(gè)癌癥驅(qū)動(dòng)基因的集合之間的重疊基因數(shù)量進(jìn)行了計(jì)數(shù),并使用超幾何檢驗(yàn)進(jìn)行了測(cè)試。在表 S4中的 84 個(gè)基因中,一個(gè)基因,即 KIT 原癌基因 ( KIT),與癌癥驅(qū)動(dòng)基因列表重疊。雖然只有一個(gè)重疊,但超幾何測(cè)試報(bào)告了p ?< 4.2e-03,表明癌癥驅(qū)動(dòng)基因顯著富集。KIT中的錯(cuò)義變體基因 (4:55595566, Ref/Alt: C/T) 的 PHRED 得分為 32,并且 6 票中的 6 票被預(yù)測(cè)為具有破壞性。
同樣,在表 S2中的 448 個(gè) PTV 基因中,發(fā)現(xiàn)了 12 個(gè)重疊,TCHH、TMPRSS15、CHIT1、ZNF233、AIM2、SPATA31E1、PRDM2、DIS3、ATP11A、CCDC66、NFKBIE、TNFRSF10C,導(dǎo)致超幾何p ?< 2.2e-16 ,癌癥驅(qū)動(dòng)基因的極其顯著的富集。
4 討論
由于高度的遺傳相關(guān)性和家族成員中風(fēng)險(xiǎn)基因的聚集,F(xiàn)PC 患者的一級(jí)親屬患 PDAC 和其他癌癥的風(fēng)險(xiǎn)增加。通過(guò)在全國(guó)隊(duì)列中對(duì) FPC 患者的一級(jí)親屬進(jìn)行首次 WGS,我們發(fā)現(xiàn)基因中罕見(jiàn)基因突變的富集與癌癥發(fā)病機(jī)制具有重要意義。
4.1 罕見(jiàn)過(guò)早截?cái)嘧凅w的相關(guān)性
通過(guò)縮短基因的蛋白質(zhì)編碼序列,PTV 可以導(dǎo)致宿主基因的功能改變,包括通過(guò)例如無(wú)意義介導(dǎo)的 mRNA 衰減而獲得或喪失基因功能。24識(shí)別 PTV 與人類疾病的關(guān)聯(lián)是檢測(cè)藥物靶點(diǎn)和了解疾病的有用方法。使用與 Roberts 等人 (2016) 相同的方法,16我們能夠檢查 FDR 中的 PTV 基因并優(yōu)先考慮它們以進(jìn)行進(jìn)一步評(píng)估。
表1頂部 是CCDC40(包含蛋白質(zhì)的卷曲螺旋結(jié)構(gòu)域),包含 6 個(gè)異源 PTV,所有這些都是“私有”突變。一項(xiàng)研究表明,該基因與原發(fā)性免疫缺陷疾病有關(guān),25這可能與 PDAC 的發(fā)展有關(guān)。26* MUC* (粘蛋白)基因編碼一個(gè)高分子量、高度糖基化的蛋白質(zhì)家族,這些蛋白質(zhì)在癌細(xì)胞周圍形成一層保護(hù)層。它們?cè)谝认侔┑陌l(fā)病機(jī)制中至關(guān)重要,并且與對(duì)細(xì)胞毒性藥物的耐藥性、癌癥侵襲性、轉(zhuǎn)移和細(xì)胞增殖有關(guān)。27* MUC的表達(dá)基因已被證明與胰腺癌的前體病變(胰腺上皮內(nèi)瘤變,PanIN)和總生存期有關(guān)。28據(jù)報(bào)道,在表 1中的其他基因中, DNAH* (動(dòng)力蛋白軸索重鏈)的體細(xì)胞突變與胃癌存活和治療反應(yīng)有關(guān)。29* ANO7*中的一個(gè) SNP被發(fā)現(xiàn)與侵襲性前列腺癌的風(fēng)險(xiǎn)相關(guān),該基因的表達(dá)升高與疾病嚴(yán)重程度和結(jié)果相關(guān)。30
除了觀察到的 PTV,我們還在已知的 FPC 易感基因16中發(fā)現(xiàn)了符合我們的 PTV 定義但在 Ensembl Variation 數(shù)據(jù)庫(kù)中缺失等位基因頻率的致病變異。在已知的12個(gè)FPC易感基因中,我們觀察到2個(gè)家族中BRCA2基因2個(gè)致病變異(每個(gè)家族1個(gè)),1個(gè)家族ATM基因1個(gè)移碼變異, 1個(gè)家族CDKN2A基因1個(gè)移碼變異,1個(gè)停止獲得MSH6中的變體在一個(gè)家庭中。當(dāng)先證者(即各自家族中的 FPC 患者)獲得類似的測(cè)序數(shù)據(jù)時(shí),這些致病變異與上述明確定義的 PTV 可作為 FPC 家族分離分析的候選者。這種分析將有助于識(shí)別新的因果變異,并進(jìn)一步表征 FPC 中已知變異的功能特征。
4.2 關(guān)聯(lián)檢驗(yàn)顯著基因的相關(guān)性
在使用 ProxECAT 的關(guān)聯(lián)分析中顯示最高統(tǒng)計(jì)顯著性的基因是PALD1(表 2)。通過(guò)使用機(jī)器學(xué)習(xí),Deeb 等人 (2015) 31發(fā)現(xiàn)PALD1是他們對(duì)彌漫性大 B 細(xì)胞淋巴瘤患者進(jìn)行分類的四種最具預(yù)測(cè)性的蛋白質(zhì)之一。在另一項(xiàng)研究中,發(fā)現(xiàn)抑制PALD1的表達(dá)可增強(qiáng)永生化人內(nèi)皮細(xì)胞的血管生成,從而促進(jìn)癌癥的發(fā)展。32通過(guò)篩選堿基特異性突變,Tuupanen 等人 (2014) 33在結(jié)直腸癌的PALD1中發(fā)現(xiàn)了熱點(diǎn)突變。
表2中一些重要基因的突變和轉(zhuǎn)錄變化 先前已被證明與 PDAC 相關(guān)。Brar 等人 (2019) 34發(fā)現(xiàn)LRP1B(低密度脂蛋白受體相關(guān)蛋白 1B)突變?cè)谵D(zhuǎn)移性病變中比在原發(fā)性胰腺組織中更常見(jiàn),這表明該腫瘤抑制基因的突變可能促進(jìn) PDAC 轉(zhuǎn)移。表2中的兩個(gè)基因 BRD3和BRD4屬于溴結(jié)構(gòu)域和末端外 (BET) 蛋白家族,這是人類癌癥中最突出的轉(zhuǎn)錄脆弱性之一——可作為癌癥治療的潛在治療靶點(diǎn)。35已經(jīng)表明,BET 溴結(jié)構(gòu)域抑制劑可以阻止胰腺癌細(xì)胞的生長(zhǎng)。36最近的一項(xiàng)研究表明,AHDC1基因通過(guò) lncRNA 和 miRNA 之間的競(jìng)爭(zhēng)性內(nèi)源性 RNA (ceRNA) 相互作用上調(diào),從而促進(jìn)宮頸癌的進(jìn)展。37* MCM* (微型染色體維持)基因的過(guò)表達(dá)與 PDAC 進(jìn)展和預(yù)后顯著相關(guān),38* MCM的表達(dá)可作為 PDAC 的預(yù)后和治療生物標(biāo)志物。39 MCM5中發(fā)現(xiàn)的錯(cuò)義突變?cè)谶@項(xiàng)研究中,它可能作為影響基因表達(dá)的順式調(diào)節(jié)突變(作為表達(dá)數(shù)量性狀基因座,eQTL)發(fā)揮作用,并導(dǎo)致 PDAC 的潛在風(fēng)險(xiǎn)。DMBT1(在惡性腦腫瘤中缺失1)是一種抑癌基因。已經(jīng)從 PDAC 細(xì)胞系中發(fā)現(xiàn)了DMBT1的 COOH 末端片段的分泌, 40而該基因也被發(fā)現(xiàn)在 PDAC 中差異表達(dá)。41目前檢測(cè)到的基因錯(cuò)義突變可能導(dǎo)致其抑癌活性失調(diào),從而促進(jìn) PDAC 的發(fā)展。同樣,IGF2BP3的表達(dá)增加(胰島素樣生長(zhǎng)因子 2 mRNA 結(jié)合蛋白 3)被發(fā)現(xiàn)可促進(jìn) PDAC 的侵襲性和轉(zhuǎn)移,42 , 43而SGK2(血清/糖皮質(zhì)激素調(diào)節(jié)激酶 2)的失調(diào)影響 PDAC 的治療反應(yīng)。44 RIF1基因已成為染色體維持的保守調(diào)節(jié)因子,用于控制 DNA 復(fù)制和修復(fù)。*該基因在胰腺癌細(xì)胞系中被發(fā)現(xiàn)高度上調(diào),被認(rèn)為是胰腺癌診斷和治療的潛在生物標(biāo)志物。45
總之,我們確定了多個(gè)先前已被證明與癌癥發(fā)展、進(jìn)展和轉(zhuǎn)移相關(guān)的基因——其中一些基因與 PDAC 發(fā)病機(jī)制直接相關(guān)。我們檢測(cè)到的重要基因的表達(dá)可能受到種系突變的影響,例如,通過(guò) DNA 轉(zhuǎn)錄因子導(dǎo)致相應(yīng)蛋白質(zhì)的表達(dá)改變或通過(guò)對(duì) micro-RNA 結(jié)合的親和力增加。46 , 47鑒于基因表達(dá)在 PDAC 中的高度重要性,闡明所涉及的潛在調(diào)節(jié)機(jī)制將很誘人。
值得注意的是,檢測(cè)到的重要基因中的罕見(jiàn)變異主要是錯(cuò)義變異(表 S5)。長(zhǎng)期以來(lái),人們一直在討論癌癥易感基因中錯(cuò)義突變的影響48,并且建議識(shí)別新易感基因的努力不應(yīng)忽視錯(cuò)義變異,因?yàn)樗鼈冊(cè)诎┌Y易感性中的重要作用。49* BRCA1和BRCA2的大區(qū)域攜帶錯(cuò)義變異,盡管最近已證明發(fā)生在冷點(diǎn)區(qū)域的錯(cuò)義變異不太可能致病。50已發(fā)現(xiàn)乳腺癌基因TP53中的大多數(shù)致病變異是錯(cuò)義變體,而其他兩個(gè)乳腺癌基因ATM和CHEK2*中的錯(cuò)義變體在頻率方面可能與 PTV 同等甚至更重要。49
如圖 S3 所示,PHRED 分?jǐn)?shù)與預(yù)測(cè)的功能顯著相關(guān),因此表明我們的關(guān)聯(lián)測(cè)試中罕見(jiàn)的錯(cuò)義變體具有很強(qiáng)的功能相關(guān)性。對(duì)于p ?< 0.05 (表 S5 ) 測(cè)試的基因中所有罕見(jiàn)的非同義變體(主要是錯(cuò)義),PHRED 中位數(shù)為 15.1,而 FDR < 0.05 ( p ?< 1.5e-03) 測(cè)試的基因中的變體具有中位數(shù) PHRED 分?jǐn)?shù)23。這再次表明高度重要基因中的錯(cuò)義變體在功能上比不重要基因中的變體更具功能相關(guān)性。
4.3 豐富途徑的相關(guān)性
在表 3中,來(lái)自 ProxECAT 關(guān)聯(lián)分析的 20 個(gè)重要基因富集的唯一途徑是核心基質(zhì)體途徑,包括 ECM 糖蛋白、膠原蛋白和蛋白聚糖。在最近對(duì) FPC 和散發(fā)性胰腺癌基因表達(dá)數(shù)據(jù)的基于網(wǎng)絡(luò)的分析中,發(fā)現(xiàn)細(xì)胞外結(jié)構(gòu)和 ECM 組織的活性增加。51有趣的是,兩種不同的組學(xué)方法(WGS 和轉(zhuǎn)錄組學(xué))發(fā)現(xiàn)了 ECM 通路的顯著關(guān)聯(lián),這表明檢測(cè)到的罕見(jiàn)變異可能參與 ECM 通路基因的調(diào)節(jié)。在通路中的 4 個(gè)重疊基因中,LAMB4(層粘連蛋白基因家族的亞基)是表達(dá)最廣泛的 ECM 蛋白之一,在多個(gè)器官中發(fā)揮許多重要功能。52 COL4A2、DMBT1、BMPER也高度參與 ECM 通路,因?yàn)?em>COL4A2是幾乎所有基底膜中最豐富的成分之一——基底膜是一種薄而柔韌的片狀 ECM,可提供細(xì)胞和組織支持。53 DMBT1編碼負(fù)責(zé)上皮間質(zhì)轉(zhuǎn)化和分化的 ECM 蛋白。54 BMPER(BMP 結(jié)合內(nèi)皮調(diào)節(jié)劑)已被證明在多種惡性腫瘤(肺、結(jié)腸和子宮頸)中高度表達(dá)。55
PTV 基因富集的五種途徑之一,即小分子的運(yùn)輸,已知會(huì)影響癌癥的發(fā)展、轉(zhuǎn)移和對(duì)治療的反應(yīng)。56第二個(gè)豐富的途徑是嗜丁酸 (BTN) 家族相互作用。嗜丁酸被視為新興的免疫調(diào)節(jié)劑家族。57 BTN 基因在功能上與 T 細(xì)胞抑制和上皮細(xì)胞-T 細(xì)胞相互作用的調(diào)節(jié)有關(guān),因此在遺傳上與炎癥性疾病有關(guān)。BTN 成員基因之一 BTN3A2被確定為三陰性乳腺癌的獨(dú)立預(yù)后標(biāo)志物。58
另一個(gè)顯著豐富的途徑與先天免疫系統(tǒng)有關(guān)。先天免疫系統(tǒng)的細(xì)胞包括:粒細(xì)胞、單核細(xì)胞、巨噬細(xì)胞和樹突狀細(xì)胞,在癌細(xì)胞識(shí)別以及炎癥和抗腫瘤免疫反應(yīng)的啟動(dòng)中起重要作用。59然而,持續(xù)性炎癥已被證明是許多惡性腫瘤中腫瘤進(jìn)展的驅(qū)動(dòng)因素,它通過(guò)促進(jìn)免疫抑制和癌癥轉(zhuǎn)移,如 PDAC 的情況。60
PTV 基因中其他兩個(gè)顯著豐富的途徑是離子通道轉(zhuǎn)運(yùn)和刺激傳感通道。兩者都涉及信號(hào)轉(zhuǎn)導(dǎo)機(jī)制和細(xì)胞根據(jù)不同離子通道的特征組合檢測(cè)特定刺激的能力。眾所周知,離子通道調(diào)節(jié)多種細(xì)胞功能,并參與細(xì)胞外事件和細(xì)胞內(nèi)信號(hào)通路之間的通訊。離子通道活性的改變可能對(duì)不受控制的增殖、促進(jìn)癌癥的侵襲和遷移產(chǎn)生影響。研究表明,某些離子通道參與了 PDAC 的異常腫瘤生長(zhǎng)和轉(zhuǎn)移過(guò)程。61參與癌癥發(fā)展的多種途徑的顯著富集表明,F(xiàn)DR 中罕見(jiàn)的 PTV 可能會(huì)影響廣泛的功能過(guò)程,這些過(guò)程共同導(dǎo)致 FPC 家族中 PDAC 風(fēng)險(xiǎn)的增加。
4.4 重疊癌癥驅(qū)動(dòng)基因的相關(guān)性
有趣的是,表 S2中的基因(主要代表私人突變的 PTV)富含癌癥驅(qū)動(dòng)基因,其突變?yōu)榘┘?xì)胞提供了生長(zhǎng)優(yōu)勢(shì)。2312 個(gè) PTV 基因與已知癌癥驅(qū)動(dòng)基因的高度顯著重疊表明罕見(jiàn)的種系突變可能構(gòu)成 PDAC 發(fā)展的潛在風(fēng)險(xiǎn)。在這 12 個(gè)基因中,DIS3具有等位基因特異性表達(dá),在胰腺癌風(fēng)險(xiǎn)增加等位基因攜帶者中觀察到表達(dá)降低,因此可能影響核 RNA 加工。62在另一個(gè)基因中,TNFRSF10C(TNF 受體超家族成員 10c),在胰腺癌細(xì)胞系中經(jīng)常觀察到啟動(dòng)子區(qū)域的異常甲基化,這表明該基因的遺傳變異可以通過(guò)表觀遺傳機(jī)制調(diào)節(jié)基因活性。63有趣的是,同一基因家族的兩個(gè)成員TNFRSF11A和TNFRSF17的表達(dá)水平最近已被證明與 PDAC 亞組在進(jìn)展和治療反應(yīng)方面相關(guān)。64 TMPRSS15(跨膜絲氨酸蛋白酶 15) 編碼一種酶,可將胰酶原胰蛋白酶原轉(zhuǎn)化為胰蛋白酶,從而激活其他酶原,包括胰凝乳蛋白酶原和羧肽酶原。在慢性胰腺炎患者的基因中發(fā)現(xiàn)了強(qiáng)烈的遺傳異質(zhì)性。65 ZNF233(鋅指蛋白 233)在核心信號(hào)通路的全球基因組分析中被發(fā)現(xiàn)與胰腺癌有關(guān)。66
總體而言,對(duì)癌癥驅(qū)動(dòng)基因中罕見(jiàn)的種系 PTV 的觀察提供了新的數(shù)據(jù),以支持 FPC 易感家族中 FDR 發(fā)生癌癥的潛在風(fēng)險(xiǎn)增加,并揭示了 FPC 易感性的高度遺傳異質(zhì)性。
4.5 優(yōu)勢(shì)和局限
與胰腺癌和其他癌癥類型相關(guān)的多個(gè)突變的鑒定驗(yàn)證了 ProxECAT 測(cè)試作為使用現(xiàn)有大型外部測(cè)序數(shù)據(jù)庫(kù)作為對(duì)照的罕見(jiàn)變異關(guān)聯(lián)研究的有用工具。最重要的是,在 FPC 患者的一級(jí)親屬中發(fā)現(xiàn)的罕見(jiàn)變異可能共同導(dǎo)致疾病在家族內(nèi)的共同聚集。研究設(shè)計(jì)的一個(gè)限制是,這種分析無(wú)法確定檢測(cè)到的罕見(jiàn)變異與 FPC 的直接關(guān)聯(lián),因?yàn)椴⒎撬幸患?jí)親屬都可能發(fā)展為 PDAC。一級(jí)親屬中 PDAC 發(fā)展的前瞻性后續(xù)數(shù)據(jù)將提供有用的信息,以驗(yàn)證已識(shí)別的變異對(duì)PDAC風(fēng)險(xiǎn)的潛在關(guān)聯(lián)和預(yù)測(cè)價(jià)值。
ProxECAT 是一種負(fù)擔(dān)測(cè)試,與單變體測(cè)試相比,它折疊稀有變體數(shù)據(jù)以估計(jì)它們?cè)诨騾^(qū)域內(nèi)的富集度以實(shí)現(xiàn)統(tǒng)計(jì)功效。67通過(guò)比較病例和對(duì)照之間功能變異與同義變異的比率差異,ProxECAT 允許在統(tǒng)計(jì)測(cè)試中使用外部對(duì)照。然而,這也帶來(lái)了代價(jià),因?yàn)榕c直接比較病例組和對(duì)照組之間的功能變體相比,這種比較可能不夠有力。盡管如此,從外周血中獲得的高質(zhì)量 DNA 樣本和使用 gnomAD 數(shù)據(jù)庫(kù)的外部對(duì)照的大樣本量彌補(bǔ)了功率問(wèn)題,從而確保了 ProxECAT 分析的重要統(tǒng)計(jì)測(cè)試。
結(jié)論
FPC 患者的親屬患 PDAC 的風(fēng)險(xiǎn)很高。分析癌癥易感性的遺傳變異對(duì)于風(fēng)險(xiǎn)評(píng)估和早期干預(yù)至關(guān)重要。我們對(duì) FPC 患者一級(jí)親屬中罕見(jiàn)變異的 WGS 分析確定了生殖系突變和在癌癥相關(guān)基因和驅(qū)動(dòng)基因中復(fù)發(fā)的 PTV。鑒定出的罕見(jiàn)種系變異有助于了解 FPC 患者親屬癌癥易感性的遺傳基礎(chǔ)。