如何實現(xiàn)可信 AI:可解釋性

1. 可信人工智能

最近人工智能的話題又火熱了起來,關(guān)于人工智能所給出的內(nèi)容也引起了很多爭議。我們希望自己所使用的 AI 是可信的。人類對于 AI 的信任程度和滿意程度是基于人類視角出發(fā)的,也許會涉及到用戶的個人情感和能力。從技術(shù)角度出發(fā),AI 的可信可以從以下幾個角度進行評估:

  • 魯棒性。一般而言,魯棒性是指算法或系統(tǒng)處理執(zhí)行錯誤、錯誤輸入或看不見的數(shù)據(jù)的能力。魯棒性是影響人工智能系統(tǒng)在實證環(huán)境中性能的重要因素。缺乏健壯性還可能導(dǎo)致系統(tǒng)出現(xiàn)意外或有害行為,從而降低其安全性和可信度。術(shù)語魯棒性適用于多種情況:
    • 數(shù)據(jù),考慮數(shù)據(jù)在不同場景下的多樣化分布的情況下訓(xùn)練 AI 模型。
    • 算法,人們普遍認為,人工智能模型可能容易受到惡意攻擊。在各種形式的攻擊中,對抗性攻擊及其防御近年來引起了學(xué)術(shù)界和工業(yè)界的關(guān)注。
    • 系統(tǒng),在現(xiàn)實的 AI 產(chǎn)品中,還應(yīng)仔細考慮針對非法輸入的系統(tǒng)級魯棒性。
  • 泛化性。泛化一直是機器學(xué)習模型中的一個關(guān)注點。它代表了從有限的訓(xùn)練數(shù)據(jù)中提煉知識以對未見數(shù)據(jù)做出準確預(yù)測的能力。一方面,泛化要求 AI 系統(tǒng)對它們未受過訓(xùn)練的領(lǐng)域或分布上的真實數(shù)據(jù)進行預(yù)測,另一方面,AI 模型應(yīng)該能夠進行概括,而無需為各個領(lǐng)域詳盡地收集和注釋大量數(shù)據(jù),從而使 AI 系統(tǒng)在廣泛應(yīng)用中的部署更加經(jīng)濟實惠和可持續(xù)。
  • 透明性與可解釋性。可解釋性旨在理解 AI 模型如何做出決策 。從科學(xué)研究的角度來看,理解人工智能系統(tǒng)中數(shù)據(jù)、參數(shù)、過程和結(jié)果的所有內(nèi)在機制是有意義的。這些機制還從根本上決定了 AI 的可信度。從構(gòu)建人工智能產(chǎn)品的角度來看,對可解釋性存在各種實際需求。對于像銀行高管這樣的操作員來說,可解釋性有幫助了解 AI 信用系統(tǒng)以防止其中的潛在缺陷。相關(guān)研究將可解釋性分為兩個層次來解釋:
    • 模型可解釋性設(shè)計。在過去半個世紀的機器學(xué)習研究中,設(shè)計了一系列完全或部分可解釋的 ML 模型。代表包括線性回歸、決策樹、KNN、基于規(guī)則的學(xué)習器、廣義加性模型(GAM)和貝葉斯模型。可解釋模型的設(shè)計仍然是 ML 中的一個活躍領(lǐng)域。
    • 事后模型可解釋性。盡管上述傳統(tǒng)模型具有良好的可解釋性,但更復(fù)雜的模型在最近的工業(yè) AI 系統(tǒng)中表現(xiàn)出了更好的性能。由于相關(guān)方法仍不能從整體上解釋這些復(fù)雜模型,研究人員轉(zhuǎn)而求助于事后解釋。它通過分析模型的輸入、中間結(jié)果和輸出來處理模型的行為。對于深度學(xué)習模型,如 CNN 或transformer,檢查中間特征是一種廣泛使用的解釋模型行為的方法。
  • 公平性。在開發(fā)和應(yīng)用 AI 系統(tǒng)的過程中,偏差可能有多種形式,例如數(shù)據(jù)偏差、模型偏差和程序偏差。偏見通常表現(xiàn)為基于受保護的信息(例如,性別、種族和民族)對不同人群的不公平待遇。盡管在不同場景下對于公平?jīng)]有統(tǒng)一的定義,但是減少算法模型的偏見依然可以提高用戶對于使用 AI的信心。
  • 隱私保護。隱私保護主要是指防止未經(jīng)授權(quán)使用可以直接或間接識別個人或家庭身份的數(shù)據(jù)。對隱私保護的承諾被認為是決定人工智能系統(tǒng)可信度的重要因素。學(xué)界針對隱私泄露問題提出了多種針對性的保護方法,最常見的為基于差分隱私和基于聯(lián)邦學(xué)習的隱私保護方法。

上述內(nèi)容多少顯得有些泛泛而談,具體到技術(shù)上應(yīng)該如何實現(xiàn)提升模型的可信度呢?由于時間和精力有限,這里只總結(jié)了可解釋和不確定性估計的相關(guān)內(nèi)容。

不確定性估計:如何實現(xiàn)可信 AI:不確定性估計

2. 模型可解釋性

從工業(yè)需求來看,由于自動駕駛、醫(yī)療保健、刑事司法、金融服務(wù)等領(lǐng)域的安全和社會問題,模型的可解釋性有時比準確性等其他指標更重要。


圖源:https://docs.aws.amazon.com/whitepapers/latest/model-explainability-aws-ai-ml/interpretability-versus-explainability.html

可解釋性一詞對應(yīng)到英文有兩種說法:interpretablilty 和 explainability,兩者的區(qū)別在于解釋的對象不同(只是針對這兩個單詞作為“可解釋模型”出現(xiàn)在論文里的情況)。Interpretability 指的是可以通過模型內(nèi)部機制或者參數(shù),來理解模型如何進行預(yù)測的能力,即模型本身是可解釋的、可以理解的。Explainability 指的是使用外部輔助工具或技術(shù)來描述一個模型預(yù)測背后的邏輯或推理的能力,也就是人類來解釋模型,模型本身不提供解釋。

舉個例子,線性回歸模型是 interpretable,因為我們可以通過觀察系數(shù)看到每個輸入特征是如何影響輸出的。神經(jīng)網(wǎng)絡(luò)模型不是 interpretable,因為它有許多隱藏層和非線性激活,使我們很難追蹤每個輸入特征如何影響輸出。然而,如果我們使用特征重要性、saliency map等技術(shù)來說明神經(jīng)網(wǎng)絡(luò)模型是如何進行預(yù)測的,那么它就是 explainable。

進一步可以引申出內(nèi)在可解釋(Intrinsic )和事后可解釋(post hoc)。內(nèi)在可解釋性是指結(jié)構(gòu)被認為可解釋的機器學(xué)習模型,例如線性回歸、邏輯回歸和決策樹。事后解釋性是指解釋方法在模型訓(xùn)練后的應(yīng)用。事后方法也可以應(yīng)用于本質(zhì)上可解釋的模型。例如,可以為決策樹計算置換特征重要性。

事后可解釋模型又可以分為模型特定和模型無關(guān)。模型特定的解釋工具僅限于特定的模型。模型無關(guān)的工具可用于任何機器學(xué)習模型,并在模型經(jīng)過訓(xùn)練(事后)后應(yīng)用。這些模型無關(guān)方法通常無法訪問模型內(nèi)部信息(例如權(quán)重或結(jié)構(gòu)信息),而是通過分析特征輸入和輸出對來工作。

模型無關(guān)方法可以進一步分為全局方法與局部方法。全局方法通過利用關(guān)于模型、訓(xùn)練和相關(guān)數(shù)據(jù)的整體知識,專注于模型的內(nèi)部,從總體上解釋模型的行為。局部解釋方法適用于模型的單一結(jié)果。

2.1 全局模型無關(guān)方法

一些全局方法,包括:

  • 部分依賴圖(PDP)是顯示的是邊緣化其他輸入特征時,模型作為函數(shù)得到目標值和一組感興趣的輸入特征之間的關(guān)系。PDP的假設(shè)是感興趣的輸入特征都獨立于其他特征,然而實際場景中往往不是這樣的;

  • 累積局部效應(yīng)圖(ALE)是解決了當特征具有依賴性時,PD出現(xiàn)的偏差。ALE的思想大致就是估計一個小窗口內(nèi)的變化,然后累加所有小窗口,看輸入對于輸出的影響;

  • 特征交互作用(Feature interaction, H-statistic)量化了預(yù)測在多大程度上是特征聯(lián)合作用的結(jié)果;

  • 互換特征的重要性(Permutation feature importance),隨機打亂時預(yù)測準確度降低程度的度量,衡量特征的重要性;

  • 全局代用模型(Global surrogate models),用一個更簡單的模型代替原始模型進行解釋。

2.2 局部模型無關(guān)方法

  • 個體條件期望曲線(individual conditional expectation curves, ICE)是描述了目標函數(shù)和感興趣特征之間的依賴關(guān)系,與PDP不同的是,ICE對每個樣本在預(yù)測結(jié)果上對特征的依賴都可視化了出來。

  • 局部替代模型 (LIME) 通過用局部可解釋的替代模型替換復(fù)雜模型來解釋模型的預(yù)測。它通過調(diào)整特征值來修改單個數(shù)據(jù)樣本,并觀察其對輸出的影響。LIME的輸出是一組解釋,代表每個特征對單個樣本預(yù)測的貢獻。

  • 反事實解釋(counterfactual explanation)通過檢查需要更改哪些特征來實現(xiàn)預(yù)期的預(yù)測,從而解釋預(yù)測結(jié)果。假如現(xiàn)在一組輸入得到了結(jié)果A(比如貸款不被模型通過),反事實的期望結(jié)果是B(貸款通過),我們希望盡可能小地改變輸入特征以得到預(yù)期的結(jié)果(比如換個銀行)。

  • Shapley 值是一種歸因方法,可以將預(yù)測公平地分配給各個特征。Shapley 值是特征值在所有可能的組合中的平均邊際貢獻。

  • SHAP 是另一種計算 Shapley 值的方法,是一種解釋個人預(yù)測的方法。SHAP是基于博弈理論上的最優(yōu)Shapley值。但也有人提出了基于跨數(shù)據(jù)的 Shapley 值組合的全局解釋方法。

LIME 和 Shapley 值是歸因方法,因此單個實例的預(yù)測被描述為特征效果的總和。其他方法,例如反事實解釋,是基于示例的。

ICE和PDP(虛線)

2.3 神經(jīng)網(wǎng)絡(luò)的可解釋性

上面的方法大都是使用在機器學(xué)習方法上的,當然也可以把一些模型無關(guān)的方法用在神經(jīng)網(wǎng)絡(luò)上。現(xiàn)在已經(jīng)有很多針對于神經(jīng)網(wǎng)絡(luò)的解釋方法。

像素歸因
像素歸因方法可以根據(jù)baseline設(shè)置分為:

  • 純梯度歸因(gradient-only method):像素的變化是否會改變預(yù)測。例如 Vanilla Gradient 和 Grad-CAM。解釋是:如果我要增加像素的顏色值,預(yù)測的類別概率將上升(對于正梯度)或下降(對于負梯度)。梯度的絕對值越大,表示該像素變化的效果越強。關(guān)于CAM和Grad-CAM可以看 特征型可視化 GradCAM

  • 路徑歸因方法:將當前圖像與baseline進行比較,baseline圖像可以是一張全灰圖像,也可以是一個圖像的分布。對于路徑歸因方法,解釋總是相對于baseline進行的:實際圖像和基線圖像的分類分數(shù)之間的差異歸因于像素。參考圖像(分布)的選擇對解釋有很大影響。通常的假設(shè)是使用“中性”圖像(分布)。此類別包括模型特定的基于梯度的方法,例如 Deep Taylor 和 Integrated Gradients,以及與模型無關(guān)的方法,例如 LIME 和 SHAP。

Integrated Gradients(IG) 滿足兩個可解釋性公理:1) 靈敏度,其中對于每個期望的輸入 x 和baseline x_i 在一個特征上不同但具有不同的預(yù)測,這個不同的特征應(yīng)該被賦予非零的歸因; 2) 實現(xiàn)不變性,它指出如果兩個網(wǎng)絡(luò)的輸出對于所有輸入都相等,則它們在功能上是等價的。

對于一個給定的輸入x,函數(shù)映射表示為F,IG計算x在不同尺度上相對于零尺度的baseline x_i的梯度,然后使用Gauss-Legendre正交來近似梯度的積分。

像素歸因方法的優(yōu)點是直觀易懂,可以進行可視化,缺點是缺少定量的分析,在一些情況下會變得相當不可靠(比如向所有輸入數(shù)據(jù)添加一個恒定的偏移量),以及我們很難知道可視化出來的解釋是否是正確的。

概念檢查
基于特征歸因的方法存在著一些局限性,比如單個像素通常沒什么意義,表達能力受限等。基于概念的方法可以檢測嵌入在網(wǎng)絡(luò)學(xué)習的潛在空間中的那個概念。換句話說,基于概念的方法可以產(chǎn)生不受神經(jīng)網(wǎng)絡(luò)的特征空間限制的解釋。

TCAV(Testing with Concept Activation Vectors)量化某一(給定的)概念對于模型分類結(jié)果的重要程度。例如,它可以告訴你“斑馬”的預(yù)測有多敏感于“條紋”的存在。TCAV的核心思想是使用概念激活向量(CAVs),它們是某個概念在神經(jīng)網(wǎng)絡(luò)的激活空間中的數(shù)字表示。

記 CAV 為v_l^C,其中C為概念, l為神經(jīng)網(wǎng)絡(luò)。需要兩個數(shù)據(jù)集,一個是包括特征C的概念數(shù)據(jù)集,另一個是隨機數(shù)據(jù)集。然后訓(xùn)練一個二元分類器,區(qū)分概念集生與隨機集。這個經(jīng)過訓(xùn)練的二元分類器的系數(shù)向量就是 CAV。我們可以通過計算單位 CAV 方向的預(yù)測的方向?qū)?shù)來衡量其“概念敏感性”:

從而得到一個 -1 到 1之間的分數(shù),反映了模型對某個概念的敏感程度分數(shù)越高,說明模型越依賴于該概念進行分類;分數(shù)越低,說明模型越不關(guān)注該概念。

TCAV需要對整個類別計算整體概念敏感性,方法是計算具有正概念敏感性的輸入與一個類別的輸入數(shù)量的比率


TCAV 的優(yōu)點在于不需要用戶有太多的機器學(xué)習專業(yè)知識,只需要定義一些感興趣的概念。TCAV可以適應(yīng)不同的模型和數(shù)據(jù)集,用戶可以研究任何概念,只要該概念可以由其概念數(shù)據(jù)集定義即可。TCAV可以提供概念的全局解釋,有利于提高模型性能。

缺點在于TCAV需要數(shù)據(jù)和時間,以及額外的標注工作;神經(jīng)網(wǎng)絡(luò)較淺時表現(xiàn)不佳;對于更加抽象的概念,TCAV不能捕捉到更加復(fù)雜的交互。

其他基于概念的方法有:

  • 基于概念的自動解釋(Automated Concept-based Explanation,ACE)可以被看作是TCAV的自動版本。ACE通過一個類別的圖像集,根據(jù)圖像片段的聚類自動生成概念。

  • 概念瓶頸模型(Concept bottleneck models ,CBM)是內(nèi)在可解釋神經(jīng)網(wǎng)絡(luò)。CBM類似于編碼器-解碼器模型,CBM的前半部分將輸入映射為概念,后半部分使用映射的概念來預(yù)測模型輸出。然后,瓶頸層的每個神經(jīng)元的激活代表了一個概念的重要性。此外,用戶可以操縱瓶頸層的神經(jīng)元激活來生成模型的反事實解釋。

  • 概念白化(Concept whitening ,CW)是另一種產(chǎn)生內(nèi)在可解釋圖像分類器的方法。為了使用CW,人們用CW層代替了歸一化層,如批量歸一化層。因此,當用戶想把他們預(yù)先訓(xùn)練好的圖像分類器轉(zhuǎn)變?yōu)閮?nèi)在可解釋的,同時保持模型的性能時,CW就非常有用。

對抗性樣本
一個對抗性的樣本是一個具有小的、有意的特征擾動的實例,導(dǎo)致機器學(xué)習模型做出錯誤的預(yù)測。對抗性樣本是反事實的,目的是欺騙模型,而不是解釋它。一個例子就是通過在輸入圖像添加噪聲,使模型的輸出改變,但是人類肉眼卻無法分辨輸入的區(qū)別。

深度學(xué)習的可解釋性依然有很多有趣的方向(充滿了未解之謎),但從大方向來看,可解釋性能夠幫助我們實現(xiàn)更好的人工智能。

2.4 醫(yī)學(xué)影像分析中的臨床可解釋AI

可解釋性一直是AI在醫(yī)療領(lǐng)域的應(yīng)用的一個挑戰(zhàn)。[8]提出了臨床可解釋AI的指南,包括:

  • 可理解性。解釋的格式和上下文應(yīng)該易于臨床用戶理解。用戶無需具備機器學(xué)習、人工智能或編程方面的技術(shù)知識即可解讀說明。
  • 醫(yī)學(xué)相關(guān)。為使人工智能具有臨床效用,解釋信息應(yīng)與醫(yī)生的臨床決策模式相關(guān),并能支持其臨床推理過程。
  • 真實性。解釋應(yīng)如實反映模型決策過程,這是面向臨床的解釋的基本要求。
  • 信息合理。用戶對解釋合理性的判斷可以讓用戶了解有關(guān) AI 決策質(zhì)量的信息。
  • 計算高效。在臨床上,不應(yīng)該花費太多時間等待解釋。

參考:
[1] Li B, Qi P, Liu B, et al. Trustworthy ai: From principles to practices[J]. ACM Computing Surveys, 2023, 55(9): 1-46.
[2] 可信人工智能白皮書 - 中國信息通信研究院
[3] X, XIONG H, LI X, et. Interpretable deep learning: interpretation, interpretability, trustworthiness, and beyond[J]. Knowledge and Information Systems, Knowledge and Information Systems, 2022, 64(12): 3197–3234.
[4] Mishra, P. (2022). Model Explainability and Interpretability. In: Practical Explainable AI Using Python. Apress, Berkeley, CA. https://doi.org/10.1007/978-1-4842-7158-2_1
[5] Christoph Molnar, Interpretable Machine Learning
[6] PDP和ICE
[7] 深度學(xué)習的可解釋性方向的研究是不是巨坑? - 知乎 (zhihu.com)
[8] Weina Jin, Xiaoxiao Li, Mostafa Fatehi, Ghassan Hamarneh,
Guidelines and evaluation of clinical explainable AI in medical image analysis,Medical Image Analysis,Volume 84,2023,102684,ISSN 1361-8415,https://doi.org/10.1016/j.media.2022.102684.
[9] 可解釋性之積分梯度算法(Integrated Gradients)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容