外顯子拷貝數(shù)分析之cnvkit

作者，Evil Genius

跟美國人交流的時(shí)候，討論起外顯子的CNV檢測(cè)，國內(nèi)用的cnvkit居多，但是我翻了很多的推文，感覺都寫的很膚淺，美國人問到的問題都比較深入，涉及到算法核心，所以這一篇我們好好梳理一下cnvkit的運(yùn)用。

反正不詳細(xì)的深入理解，糊弄不過去，這一點(diǎn)美國人還是很較真的,在大佬面前真的是一點(diǎn)僥幸心理都不能有。

cnvkit的官網(wǎng)網(wǎng)址https://cnvkit.readthedocs.io/en/stable/

文章在CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing

cnvkit方法使用targeted reads和nonspecifically captured off-target reads來均勻地推斷整個(gè)基因組的拷貝數(shù)。這種組合在目標(biāo)區(qū)域?qū)崿F(xiàn)了外顯子水平的分辨率，在較大的內(nèi)含子和基因間區(qū)實(shí)現(xiàn)了足夠的分辨率，以識(shí)別拷貝數(shù)的變化。

知識(shí)背景

拷貝數(shù)變化是包括癌癥在內(nèi)的許多疾病的有用診斷指標(biāo)。
對(duì)于臨床應(yīng)用，通常更傾向于對(duì)基因組分區(qū)(如外顯子組或一組疾病相關(guān)基因)進(jìn)行測(cè)序，以富集感興趣的區(qū)域，并在更高的覆蓋范圍內(nèi)對(duì)其進(jìn)行測(cè)序，以提高call變異的敏感性。
在目標(biāo)區(qū)域富集過程中，通過雜交捕獲目標(biāo)區(qū)域;然而，文庫中仍然保留了大量的脫靶DNA，這些DNA被測(cè)序，代表了相當(dāng)大的一部分reads。因此，除了在目標(biāo)區(qū)域獲得高覆蓋率測(cè)序外，脫靶reads提供了全基因組的極低覆蓋率測(cè)序。雖然脫靶讀取本身不能提供足夠的覆蓋范圍來調(diào)用單核苷酸變異(snv)和其他小變異，但它們可以在更大的范圍內(nèi)提供有關(guān)拷貝數(shù)的有用信息。
CNVKIT利用在靶和脫靶測(cè)序讀取并應(yīng)用一系列校正來提高拷貝數(shù)檢測(cè)的準(zhǔn)確性。

pipeline

CNVkit使用on-target reads和非特異性捕獲的off-target reads來計(jì)算每個(gè)樣本基因組的log2拷貝比。簡而言之，off-target bin是從目標(biāo)區(qū)域之間的基因組位置分配的，off-target bin的平均大小比平均on-target bin大得多，以匹配它們的read counts.然后分別使用目標(biāo)位置和非目標(biāo)位置來計(jì)算每個(gè)間隔內(nèi)的平均reads深度。然后將目標(biāo)reads深度和非目標(biāo)reads深度結(jié)合起來，將其歸一化為來自對(duì)照樣本的參考，并對(duì)幾個(gè)系統(tǒng)偏差進(jìn)行校正，從而得到 log2 copy ratios的最終表。內(nèi)置的segmentation algorithm可以在log2 copy ratios上運(yùn)行，以推斷discrete copy number segments。

Calculation of off-target intervals

用于計(jì)數(shù)脫靶reads的基因組間隔最初是從目標(biāo)間隔的基因組位置計(jì)算的。CNVkit根據(jù)target regions，將每個(gè)target之間的非target區(qū)域劃分為bin，通常按100 kilobases的順序劃分。作為可選的輸入，在創(chuàng)建off-target bins時(shí)，可以使用可測(cè)序的染色體區(qū)域和低映射區(qū)域的單獨(dú)列表來排除端粒、著絲粒和其他不可測(cè)序或不可映射的重復(fù)區(qū)域。
每個(gè)連續(xù)的非目標(biāo)區(qū)域被劃分為大小相等的bin，使得該區(qū)域內(nèi)的平均bin大小盡可能接近指定大小。可以通過計(jì)算目標(biāo)區(qū)域平均大小與目標(biāo)區(qū)域測(cè)序reads的fold-enrichment的乘積來選擇合適的off-target bin大小，使得平均大致相同數(shù)量的reads被映射到on - and - off-target bin上。為了最大限度地增加bin的數(shù)量，CNVkit將偏離指定的bin大小，將bin放入小的區(qū)域，如內(nèi)含子，這些區(qū)域的大小受到限制。還可以指定bin大小的下限，以避免評(píng)估非常小的非目標(biāo)區(qū)域，在這些區(qū)域中，捕獲的reads太少，無法給出可靠的拷貝數(shù)估計(jì)。一旦生成了一組可靠的off-target bin并保存為BED文件，同一個(gè)BED文件可以在CNVkit中重復(fù)使用，用于使用相同panel的其他樣品的拷貝數(shù)分析，并在相同的平臺(tái)上測(cè)序。

Estimation of copy number by read depth

CNVkit coverage命令使用BAM格式的測(cè)序reads比對(duì)和BED或interval list格式的on或off-target bins的位置，計(jì)算樣本中每個(gè)bin中的log2平均讀取深度。對(duì)于每個(gè)bin，使用pysam計(jì)算和求和bin中每個(gè)堿基對(duì)的read depths，然后除以bin的大小。輸出是一個(gè)表，其中顯示了每個(gè)給定bin的平均reads depths，經(jīng)過log2變換并以所有常染色體centered to the median read depth of all autosomes。

Construction of a copy number reference

在每個(gè)基因組bin中，提取每個(gè)給定對(duì)照樣本的read depths。對(duì)每個(gè)control樣本執(zhí)行reads深度偏差校正。在每個(gè)bin中，計(jì)算control samples中l(wèi)og2 reads深度的加權(quán)平均值，以標(biāo)記上具有較高或較低覆蓋率的bin，the spread or statistical dispersion of log2 read depths indicates bins that have erratic coverage so that they can be de-emphasized at the segmentation step. 也可以使用單個(gè)成對(duì)的control sample，或者，在沒有任何control samples的情況下，可以構(gòu)建一個(gè)“通用”參考，讀取深度為log2，分配給所有箱子的擴(kuò)展為0。在所有情況下，都可以指定一個(gè)“男性參考”，其中X染色體bin的預(yù)期讀取深度是常染色體的一半。

Bin size and resolution

人類基因組中的外顯子平均大小約為200bp。選擇目標(biāo)bin大小默認(rèn)值267，這樣拆分較大的外顯子將產(chǎn)生最小大小為200的bin。由于包含較少 reads的bin會(huì)導(dǎo)致更嘈雜的拷貝數(shù)信號(hào)，因此這種方法確保通過分裂較大外顯子產(chǎn)生的bin的“噪聲”不會(huì)比平均水平差。
例如，將目標(biāo)bin的平均大小設(shè)置為100bp，將產(chǎn)生大約兩倍的目標(biāo)bin，這可能會(huì)導(dǎo)致更高分辨率的分割。然而，在每個(gè)bin中計(jì)數(shù)的讀取次數(shù)將減少大約一半，從而增加了bin級(jí)覆蓋率的方差或“噪聲”。過多的噪聲bin會(huì)使可視化變得困難，并且由于噪聲可能不是正態(tài)分布的，特別是在存在許多reads為零的bin的情況下，分割算法可能會(huì)在低覆蓋率樣本上產(chǎn)生不太準(zhǔn)確的結(jié)果。因此，建議總體靶向測(cè)序覆蓋深度至少為200x至300x，reads長度為100bp，以證明將平均目標(biāo)bin大小減少到100bp是合理的。
對(duì)于混合捕獲，如果targets are not tiled with uniform density——例如，target panel is designed with a subset of targets having twice or half the usual number of tiles for a fixed number of genomic bases ——不需要做任何特別的事情來彌補(bǔ)這一點(diǎn)，as long as you are using a pooled reference。當(dāng)測(cè)試樣本的讀深度歸一化到pool引用時(shí)，log2比率將趨于平衡.

Filtering segments

cn值，merging adjacent with the same called value.
Keeping only high-level amplifications (5 copies or more) and homozygous deletions (0 copies) (ampdel).
Confidence interval overlapping zero (ci).
Standard error of the mean (sem), a parametric estimate of confidence intervals which behaves similarly.

在每種情況下，根據(jù)給定的標(biāo)準(zhǔn)將具有相同值的相鄰段合并在一起，并適當(dāng)?shù)刂匦掠?jì)算列值。即使總拷貝數(shù)相同，位于不同染色體上或具有不同等位基因特異性拷貝數(shù)值的片段也不會(huì)合并。

breaks

cnvkit.py breaks Sample.cnr Sample.cns

這有助于鑒定(a)發(fā)生不平衡融合或其他結(jié)構(gòu)重排斷點(diǎn)的基因，或(b)由于拷貝數(shù)信號(hào)不一致而難以調(diào)用CNV的基因。

Columns:

gene, chromosome – as in .cns, the gene where the breakpoint occurs and the chromosome it lies on.

location – the end of the segment to the left of the breakpoint, and start of the segment to the right.

change – the difference in log2 values between the adjacent segments.

probes_left, probes_right – the number of probes on each side of the breakpoint within the gene. (Not the same as the number of probes supporting each segment; just the portion within the gene.)

genemetrics

Identify targeted genes with copy number gain or loss above or below a threshold.

The remaining output columns have slightly different meaning depending on whether or not segments were provided. Without segments (.cnr alone):

log2: Weighted mean of log2 ratios of all the gene’s bins, including any off-target intronic bins.
depth: Weighted mean of un-normalized read depths across all this gene’s bins.
weight: Sum of this gene’s bins’ weights.
nbins: The number of bins assigned to this gene.

With segments (-s):

log2: The log2 ratio value of the segment covering the gene, i.e. weighted mean of all bins covered by the whole segment, not just this gene.
depth, weight, probes: As above.
seg_weight: The sum of the weights of the bins supporting the segment.
seg_probes: The number of probes supporting the segment.

今天就看panel部分，生活很好，有你更好

最后編輯于：2024.05.26 12:44:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,923評(píng)論 6贊 535
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,740評(píng)論 3贊 420
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,856評(píng)論 0贊 380
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,175評(píng)論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,931評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,321評(píng)論 1贊 324
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,383評(píng)論 3贊 443
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,533評(píng)論 0贊 289
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,082評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,891評(píng)論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,067評(píng)論 1贊 371
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,618評(píng)論 5贊 362
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,319評(píng)論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,732評(píng)論 0贊 27
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,987評(píng)論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,794評(píng)論 3贊 394
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,076評(píng)論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

外顯子拷貝數(shù)分析之cnvkit

外顯子拷貝數(shù)分析之cnvkit

作者，Evil Genius

跟美國人交流的時(shí)候，討論起外顯子的CNV檢測(cè)，國內(nèi)用的cnvkit居多，但是我翻了很多的推文，感覺都寫的很膚淺，美國人問到的問題都比較深入，涉及到算法核心，所以這一篇我們好好梳理一下cnvkit的運(yùn)用。

反正不詳細(xì)的深入理解，糊弄不過去，這一點(diǎn)美國人還是很較真的,在大佬面前真的是一點(diǎn)僥幸心理都不能有。

cnvkit的官網(wǎng)網(wǎng)址https://cnvkit.readthedocs.io/en/stable/

文章在CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing

知識(shí)背景

pipeline

Calculation of off-target intervals

Estimation of copy number by read depth

Construction of a copy number reference

Bin size and resolution

Filtering segments

breaks

genemetrics

今天就看panel部分，生活很好，有你更好

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

外顯子拷貝數(shù)分析之cnvkit

作者，Evil Genius

跟美國人交流的時(shí)候，討論起外顯子的CNV檢測(cè)，國內(nèi)用的cnvkit居多，但是我翻了很多的推文，感覺都寫的很膚淺，美國人問到的問題都比較深入，涉及到算法核心，所以這一篇我們好好梳理一下cnvkit的運(yùn)用。

反正不詳細(xì)的深入理解，糊弄不過去，這一點(diǎn)美國人還是很較真的,在大佬面前真的是一點(diǎn)僥幸心理都不能有。

cnvkit的官網(wǎng)網(wǎng)址https://cnvkit.readthedocs.io/en/stable/

文章在CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing

知識(shí)背景

pipeline

Calculation of off-target intervals

Estimation of copy number by read depth

Construction of a copy number reference

Bin size and resolution

Filtering segments

breaks

genemetrics

今天就看panel部分，生活很好，有你更好

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频