一、Explainable Artificial Intelligence Helps in Understanding the Effect of Fibronectin on Survival of Sepsis
可解釋的人工智能有助于了解纖連蛋白對膿毒癥存活率的影響
基于隨機森林算法的機器學習模型預測膿毒癥患者在入住 ICU 時的生存概率。除了膿毒癥患者臨床狀況的常用指標外,該模型還包括入住ICU當天記錄的纖連蛋白濃度。此外,使用可解釋的人工智能(XAI)——BreakDown、SHAP、Ceteris Paribus?技術來更好地理解模型預測。
邏輯回歸模型、隨機森林模型和梯度提升模型。將結果與不同的測試數據集進行比較。基準測試包括將輸入數據集劃分為測試集和訓練集,在訓練數據集上準備模型,并在測試數據集上計算曲線下面(AUC)。該過程重復了五次。測試與訓練患者的比例為1:2。隨機森林模型的平均檢驗AUC為0.85,梯度提升模型為0.78,logistic回歸模型為0.81。
機器學習模型的輸入特征包括血漿纖維連接蛋白濃度、INR 值、SOFA 評分、患者年齡、APACHE II 評分、降鈣素原水平、血小板計數和 d-二聚體水平。為了優化隨機森林模型參數和獨特的過擬合,進行了 10 次交叉驗證。對測試數據集計算的 10 次交叉驗證平均 AUC 為 0.82。最終模型是在訓練數據集上建立的。隨機森林模型的 ROC 曲線分析表明,使用該模型對患者進行分類的成功率為 0.92(對整個數據集計算的 AUC)(圖 3),靈敏度為 0.92(召回率),陽性預測值為 0.76(精確度),準確率為 0.79。
特定特征對預測患者生存概率的重要性。變量的條形越長,該特征在隨機森林模型中越重要。根據該圖,INR值和血漿纖連蛋白濃度是隨機森林模型最重要的變量。APACHE II評分和年齡也是模型的重要變量。該模型表明,SOFA 評分、血小板計數和降鈣素原水平是信息量較小的變量。d-二聚體的水平似乎對模型預測沒有影響。
根據所提出的隨機森林模型,該患者入住ICU時計算的28天生存期預測為0.764,高于平均模型預測。基于BreakDown(Breakdown方法是一種可解釋性機器學習方法,用于解釋機器學習模型的預測結果。 它可以幫助我們理解模型對不同特征的依賴程度,并揭示出模型中每個特征對最終預測的貢獻。)方法,模型中提高預測準確性的最重要變量是 SOFA 評分,貢獻 + 0.064,以及 pFN 水平,貢獻 + 0.45。其他變量不太重要,唯一對預測有負面影響的變量是年齡。使用SHAP值(SHAP 為每個輸入特征生成一個值(也稱為 SHAP 值),該值指示該特征如何有助于指定數據點的預測;有些因素會對預測概率產生積極影響,而另一些因素則會對其產生負面影響。)獲得了非常相似的結果。此外,當考慮到 Ceteris Paribus (即在其他所有因素保持不變的情況下研究該因素對結果的影響。 它的主要作用是減少干擾因素,從而更好地理解變量之間的關系。)概況時, pFN 值的損失甚至 SOFA 水平的小幅增加都會導致對該患者的預測更差。根據醫院文件,該患者在治療的第28天還活著。
二、Verifying explainability of a deep learning tissue classifier trained on RNA-seq data
驗證在RNA-seq數據上訓練的深度學習組織分類器的可解釋性
作者下載了47 種組織類型的16,651 樣本用于分析,將樣本中14301個樣本用于訓練模型,選擇47個組織×50個樣本=2350個樣本作為測試集由訓練好的分類模型(CNN)對標簽進行預測,然后由測試集標簽作用于前兩者計算出SHAP值并選擇過濾樣本,并篩選出47個組織排名前103位的基因(47×103=4841),發現其中大約50%(2423)的基因為SHAP基因,也就是獨特基因。之后對整個樣本按組織分類鑒定了不同組織間的差異基因,經由FDR<0.01和LogFC>0.4得到排名最高的差異基因,最后和SHAP基因進行比較。
1、測試集數據輸入為2,350×18,884的矩陣,一個格子代表某個樣本對應的某個基因的表達量。通過模型對測試集的輸出,可以看到某一個基因在47類組織下的SHAP值,圖中柱子的高低代表SHAP的大小,正負代表在某一類組織上基因更傾向于這類組織和不傾向于這類組織
2、使用不平衡和平衡類大小的卷積神經網絡 (CNN) 性能?CNN 性能使用 F1 分數進行測量,F1 分數是精確度和召回率的調和平均值。
(引申:所謂的不平衡指的是不同類別的樣本量差異非常大,或者少數樣本代表了業務的關鍵數據(少量樣本更重要),需要對少量樣本的模式有很好的學習。樣本類別分布不平衡主要出現在分類相關的建模問題上。樣本類別分布不平衡從數據規模上可以分為大數據分布不平衡和小數據分布不平衡兩種。
大數據分布不均衡。這種情況下整體數據規模大,只是其中的少樣本類的占比較少。但是從每個特征的分布來看,小樣本也覆蓋了大部分或全部的特征。例如擁有1000萬條記錄的數據集中,其中占比50萬條的少數分類樣本便于屬于這種情況。
小數據分布不均衡。這種情況下整體數據規模小,并且占據少量樣本比例的分類數量也少,這會導致特征分布的嚴重不平衡。例如擁有1000條數據樣本的數據集中,其中占有10條樣本的分類,其特征無論如何擬合也無法實現完整特征值的覆蓋,此時屬于嚴重的數據樣本分布不均衡。
樣本分布不均衡將導致樣本量少的分類所包含的特征過少,并很難從中提取規律;即使得到分類模型,也容易產生過度依賴于有限的數據樣本而導致過擬合的問題,當模型應用到新的數據上時,模型的準確性和魯棒性將很差。樣本分布不平衡主要在于不同類別間的樣本比例差異。
SMOTE過采樣方法的主要作用是通過合成少數類樣本來增加其在數據集中的數量,以達到樣本平衡。這對于改善模型的訓練效果至關重要。通過SMOTE過采樣,可以使得模型更好地學習到少數類別的特征,從而提高模型的泛化能力和準確性。此外,SMOTE過采樣方法還可以減少模型的過擬合傾向,提高模型的穩健性(Robustness)。)
訓練集中每種組織類型的樣本數量從腎臟-皮層的 35 個到肌肉-骨骼的 753 個不等。評估平衡(753或752)和不平衡的訓練樣本量對保留測試數據的CNN表現的影響。圖中紅線與藍線分別代表平衡和不平衡組,顏色不同的菱形代表47類組織。使用不平衡數據預測組織類型時,CNN 的宏觀平均 F1 分數為 95.31%,而使用 SMOTE 平衡數據時為 96.10%。當樣本數<200時平衡組F1 分數明顯高于不平衡組,隨著樣本數量的增大,樣本數>250時,平衡組和不平衡組F1 分數近似擬合。
3、選擇繼續使用使用 SMOTE 平衡數據訓練的 CNN。該分類器對每個組織的召回率從 58% 到 100% 不等,精確度從 70% 到 100% 不等(圖 2b)。召回率最低的組織是食管-GJ(58%)和結腸-Sig(80%),38%(n = 19)的食管-GJ 樣本被預測為食管-Mus,20%(n = 10)的結腸-Sig 樣本被預測為結腸-Tra 和小腸。平衡后召回率低于 90% 的其他組織包括腦-Hyp、腦-Hip 和腦-ACCB,這三種組織類型的召回率均為 88%,而它們各自的錯誤分類是其他腦組織類型。(召回率:正確預測為正的占全部實際為正的比例)
人類蛋白質圖譜(HPA)的 126 個樣本的獨立數據集驗證
通過按每個組織內的中值 SHAP 值對每個基因進行排序,確定了區分 47 種組織類型的最顯著基因。在每種組織排第一的 47 個基因中,93.6%(47 個中的 44 個)是獨特的(如果在 > 1 個組織中發現一個基因,則只計算一次),87.2%(47 個中的 41 個)是組織獨有的(目前僅在一張組織中)。前 103 個(如何確定)總共包含 4,841 個基因(47 個類別 × 103 個等級 = 4,841),其中大約 50% 的基因(2,423 個基因;稱為“SHAP 基因”)是獨特的,29.1%(1407 個基因)的基因是組織排他性。組織專有基因的數量因類別而異,睪丸含有最多的專有基因(80 個基因),子宮含有最少的專有基因(14個)。
((a) 折線圖顯示,在所有 47 個類別(y 軸)中,獨特基因(黑線)和組織排他性基因(灰線)在擴展前 n 個可能基因的排名中百分比遞減。前 103 個等級(紅色虛線)總共包含 4,841 個基因(47 個類別× 103 個等級 = 4,841 個),但有些基因存在于多個組織中,大約 50% 的基因(2,423 個基因)是唯一的。(b) 每個組織類型排名前103位的基因中組織排他性基因的數量。)
為了將 SHAP 基因(2,423 個基因)與非 ML 方法進行比較,EdgeR 鑒定出的顯著差異表達基因總數為 30,532 個,睪丸顯示出最多數量的上調基因,全血顯示出最多數量的下調基因。edgeR和SHAP基因進行比較發現,98.6%的SHAP基因與edgeR識別的基因重疊,只有34個SHAP基因未被edgeR識別為顯著基因。后續又將47類組織SHAP基因與edgeR識別的重疊基因分析,作者發現47類組織上調基因大于下調基因數量。
SHAP 方法識別出 4841 個顯著基因,edgeR 方法識別出 30,532 個顯著基因。SHAP 和edgeR 方法有3499 個共同基因(“SHAP 和edgeR”,紫色)。因此,30,532–3,499 = 27,033 個基因是edgeR 方法特有的(“僅edgeR”,紅色),4841–3,499 = 1342 個基因是SHAP方法特有的(“僅SHAP”,藍色)。