HBR | 噪音:如何克服決策不一致所帶來的高額隱性成本

今天和大家分享的文章標題是《噪音:如何克服決策不一致所帶來的高額隱性成本》(《Noise: How to Overcome the High, Hidden Cost of Inconsistent Decision Making》)。

這篇文章由四位作者共同完成,首先簡單介紹下作者:

Daniel Kahneman,是普林斯頓大學榮休的心理學教授。2002年,他因在認知偏差方面的工作(與阿莫斯·特沃斯基合作)獲得了諾貝爾經濟科學獎。

Andrew M. Rosenfield,是咨詢公司TGG集團的首席執行官和管理合伙人

Linnea Gandhi,是芝加哥布斯大學行為科學副教授,經營著一家致力于將學術研究應用于商業的公司BehavioralSight。

Tom Blaser,是咨詢公司TGG集團的常務董事。

文章主要介紹了在專業人員在判斷中受到噪音的影響而產生決策的不一致問題,接著解釋了噪聲和偏差之間的區別,說明如何審計組織中的噪聲水平和影響。然后,向我們描述了一種低成本且有效的方法來構建修正噪聲的算法,并概述了當算法不可行時,可以提高判斷一致性的步驟。

首先什么是噪音呢?

作者向我們舉了一個例子,在他們所服務的一家金融服務公司,對于相同的金融服務申請資料,審核人員給出了完全不同的報價。許多組織的專業人員,例如信用評級機構的評估人員、急診室的醫生、貸款和保險的保險商等,他們的判斷受到不相關因素的強烈影響,例如他們當前的情緒、距離上一頓飯后的時間和天氣。這種決策的隨機變異被稱為噪音。噪音不僅廣泛存在,而且往往是隱蔽的。即使是成功的公司在沒有意識到的情況下都會由于噪音損失大量的金錢。

噪音和偏見有什么區別呢?

作者用四幅圖為我們做出了直觀的解答:


image.png

A組是準確的:射擊是正中靶心的,而且相互靠近。

B組是噪音:以靶心為中心,但分散得很廣。

C組是偏見:都沒射中靶心,但都聚集在一起。

D組既有噪音,也有偏見。

另外,與偏見不同,噪聲可以在不知道正確響應的情況下測量。B組和D組的分散的射擊是有問題的:不管靶心在哪里,他們都沒有向集中的方向射擊。所以可以通過設計實驗,即使在不知道正確答案的情況下,可以觀察到判斷的分散。這種實驗稱為噪聲審計。噪聲審計的重點不是要出具報告。最終目標是提高決策質量,并且需要得到高層的支持,噪音審計才能得以成功實施。

而如何能降低噪音呢?

對噪音問題最根本的解決辦法是用被稱為算法的正式規則來代替人類的判斷。不需要特別復雜精細的計算,只要在條件允許的情況下,我們可以基于常識推理選擇一些(可能是6到8個)明確與結果相關的變量,通過簡單的加減運算來構建算法。并且這種方法和精細構建的算法有同等的作用。

而在許多情況下,運行算法是不實用的或者是不被公眾接受的。那么我們需要為判斷提供一套程序(流程和工具),加強流程規范的培訓,提供檢查清單,問題列表等工具。

下面是全文,有興趣的同學可以繼續閱讀:

在我們合作的一家全球金融服務公司,一位長期客戶意外地向兩個辦事處提交了同一份申請文件。雖然審查該文件的員工應該遵循相同的指導方針,從而得出類似的結果,但不同的辦公室返回的報價卻截然不同。后來客戶就把業務交給了公司的一個競爭對手。從公司的角度來看,同一角色的員工應該是可以互換的,但在這個案例中,他們不是。不幸的是,這是一個常見的問題。

許多組織的專業人員,信用評級機構的評估人員、急診室的醫生、貸款和保險的保險商等,被隨意分配到案例中。組織期望這些專業人員的一致性:相同的案例應該被同樣地對待。問題是,人類是不可靠的決策者;他們的判斷受到不相關因素的強烈影響,例如他們當前的情緒、距離上一頓飯后的時間和天氣。我們將決策的隨機變異稱為噪音。這是許多公司的一種無形成本。

有些工作沒有噪音。銀行或郵局的職員執行復雜的任務,但他們必須遵守經過設計的嚴格的規則,用來限制主觀判斷和保證相同的案例將被同等對待。相比之下,醫療專業人員、貸款官員、項目經理、法官和高管都會做出判斷,這些判斷是由非標準化的經驗和一般原則指導的,而不是嚴格的規則。如果他們的回答與其他人的回答不完全一致,那是可以接受的;這就是我們所說的決策是“判斷問題”的意思。一個員工進行判斷的公司并不希望決策完全沒有噪音。但通常情況下,噪音遠高于高管們認為可以容忍的水平,而且他們完全沒有意識到這一點。

噪聲的廣泛存在已經在一些研究中得到證實。學術研究人員反復證實,專業人士在不同場景下對于相同的數據,往往會做出與自己先前的判斷相矛盾的判斷。例如,當軟件開發人員被要求在分割的兩天里分別估計某個給定任務的完成時間時,他們預測的小時數平均相差71%。當病理學家對活檢結果的嚴重程度進行兩次評估時,他們的評分之間的相關性僅為.61(完美的1.0),這表明他們經常做出不一致的診斷。不同的人做出的判斷更有可能產生分歧。研究證實,在許多任務中,專家的決定是高度可變的:評估股票、評估房地產、判決罪犯、評估工作表現、審計財務報表等。直觀的結論是,專業人士的決策往往與同齡人的決策、自己先前的決策以及自己聲稱遵守的規則有很大的偏差。

噪音往往是隱蔽的:它甚至導致成功的公司在沒有意識到的情況下損失了大量的金錢。有多大?為了得到一個估計值,我們詢問了我們研究過的其中一個組織的高管:“假設一個案例的最佳評估值是100000美元。如果負責此案的專業人員評估了11.5萬美元的價值,該組織的成本是多少?評估它的費用是多少?85000美元?“成本估計很高。在每年的評估中,噪音成本以數十億計,即使是對于一家大型的全球公司,也是一個不可接受的數字。即使只降低幾個百分點的噪音,其價值也將達到數千萬美元。值得注意的是,在那之前,該組織完全忽略了一致性的問題。

長期以來,人們都知道,簡單統計算法產生的預測和決策往往比專家作出的預測和決策更準確,即使專家獲得的信息比公式使用的信息更多。眾所周知,算法的主要優點是無噪音:與人類不同的是,對于任何給定的輸入,公式總是返回相同的輸出。卓越的一致性甚至允許簡單和不完美的算法實現比人類專業人員更高的精度。(當然,有時算法在操作上或政治上是不可行的,正如我們將要討論的那樣。)

在本文中,我們將解釋噪聲和偏差之間的區別,并研究主管如何審計其組織中的噪聲水平和影響。然后,我們描述了一種低成本、未被充分利用的方法來構建修正噪聲的算法,并概述了當算法不是一個選項時可以提高判斷一致性的步驟。

噪音與偏見

當人們考慮到判斷和決策的錯誤時,他們很可能會想到社會偏見,如對少數群體的成見或認知偏見,如過度自信和毫無根據的樂觀主義。我們稱之為噪聲的無用的易變性是一種不同類型的錯誤。想一想你的浴室磅秤,就知道這一區別了。我們可以說,如果標度的讀數通常過高或過低,則標度是有偏差的。如果你的體重似乎取決于你將腳放在哪里,那么天平就會發出噪音。一直低估實際重量4磅的天平是有嚴重偏差的,但沒有噪音。當你踩兩次刻度盤時,它會給出兩個不同的 讀數,這是噪音。許多測量誤差都是由偏壓和噪聲共同引起的。大多數廉價的浴室磅秤都有些偏頗和相當的噪音。

為了直觀地說明這一區別,請考慮附圖“噪音和偏差如何影響準確性”中的標靶。這些標靶顯示了四人小組的標靶練習結果,其中每個人射擊一次。


image.png

A組是準確的:射擊是正中靶心的,而且相互靠近。

其他三個組不準確,但有著各自的不同方式:

B組是噪音:以靶心為中心,但分散得很廣。

C組是偏見:都沒射中靶心,但都聚集在一起。

D組既有噪音,也有偏見。

正如A組和B組的比較所表明的那樣,噪聲的增加總是會在沒有偏見的情況下降低準確度。當存在偏見時,不斷增加的噪音實際上可能會造成幸運的擊中,就像D組所發生的那樣。當然,沒有任何組織會相信運氣。噪音總是不受歡迎的,有時是災難性的。

對于一個組織來說,了解員工決策中的偏見和噪音顯然是有用的,但是收集這些信息并不簡單。測量這些誤差時冒出了不同的問題。一個主要的問題是,決策的結果往往直到遙遠的將來才知道,如果有的話。例如,貸款官員經常要等上幾年才能看到他們批準的貸款產生的結果,而且他們幾乎無法知道他們拒絕的申請人會發生什么。

      凡決策必有噪音——通常比你想象的要多。

與偏見不同,噪聲可以在不知道正確響應的情況下測量。為了說明這一點,假設射擊者瞄準的目標被從展覽中抹去。你可能對整體的精準度一無所知,但你可以肯定的是,B組和D組的分散的射擊是有問題的:不管靶心在哪里,他們都沒有向集中的方向射擊。測量判斷中的噪聲所需要的只是一個簡單的實驗,在這個實驗中,由一些專業人員對一些實際案例進行獨立評估。同樣,在不知道正確答案的情況下,可以觀察到判斷的分散。我們稱這種實驗為噪聲審計。

執行噪音審計

噪聲審計的重點不是要出具報告。最終目標是提高決策質量,只有當部門領導準備接受不愉快的結果并采取行動時,審計才能成功。如果高管們把對于噪音的審計視為自己的創造,那么就更容易實現。為此,案例應該由受尊敬的團隊成員編寫,并且應該涵蓋通常遇到的問題范圍。為了使結果與每個人都相關,所有單位成員都應參加審核。一個有嚴格的行為實驗經驗的社會科學家應該監督審計的技術方面,但審核的過程必須由專業單位完成。

最近,我們幫助兩個金融服務機構進行噪音審計。我們所研究的兩個小組的職責和專業知識是完全不同的,但兩者都需要對中等復雜的材料進行評估,通常涉及數十萬美元的決策。我們在兩個組織中都遵循相同的協議。首先,我們要求相關專業團隊的管理人員構建幾個實際的案例文件進行評估。為了防止實驗信息泄露,當天進行了整個練習。員工被要求花大約半天的時間分析兩到四個案例。按照正常的工作例程,他們為每個案例以美元為單位進行評估。為了避免合謀,參與者沒有被告知該研究與可靠性有關。例如,在一個組織中,目標被描述為理解員工的專業思維,提高工具的實用性,以及改善同事之間的溝通。A組織約有70名專業人員參加,B組織約有50名。

我們為每一個案例構建了一個噪聲指數,它回答了以下問題:“兩個隨機選擇的員工的判斷有多大差異?”我們將此指數值表示為其平均值的百分比。假設兩名員工對一個案例的評估是600美元和1000美元。他們評估的平均值是800美元,他們之間的差額是400美元,所以這對人的噪音指數是50%。我們對所有員工對進行了相同的計算,然后計算出每種情況下的總體平均噪聲指數。

對這兩個組織的高管進行的審計前訪談表明,他們預計他們的專業人員決策之間的差異在5%到10%之間——這是他們認為“判斷事項”可以接受的水平。結果令人震驚。A組6個案例的噪聲指數為34%-62%,總體平均為48%。在B組的4個案例中,噪聲指數在46%到70%之間,平均為60%。也許最令人失望的是,工作經驗似乎并沒有減少噪音。在工作五年或五年以上的專業人員中,A組的平均不一致率為46%,B組的平均不一致率為62%。

沒人預料到這樣的結果。但由于他們全程參與這項研究,兩個組織的高管都接受了這樣一個結論:他們的專業人士的判斷的不可靠程度是不可容忍的。所有人都很快同意必須采取措施來控制這個問題。

因為這些發現與之前關于專業判斷可靠性低的研究是一致的,所以我們并不感到驚訝。對我們來說,最大的困惑是兩個組織都沒有將可靠性視為一個問題。

在商業世界中,噪音問題實際上是不可見的;我們觀察到,當專業判斷的可靠性被作為一個問題提出時,人們會非常驚訝。是什么阻止了公司認識到員工的判斷是有噪音的呢?答案在于兩種常見的現象:經驗豐富的專業人士往往對自己判斷的準確性有很高的信心,他們也對同事的智力有很高的評價。這種結合必然導致對一致性的高估。當被問到同事會說什么時,專業人士預期別人的判斷比實際情況更接近自己的判斷。當然,大多數時候,經驗豐富的專業人士完全不關心別人的想法,只是假設他們的想法是最好的答案。噪音問題的不可見的一個原因是,人們不會在生活中想象他們做出的每一個判斷的合理的替代品。

別人與你的預期相符有時是合理的,尤其是在判斷已熟練得用直覺就能做出的情況下。高水平的象棋和駕駛是練習到近乎完美的任務的標準示例。觀察棋盤上情況的大師級玩家對游戲狀態的評估都非常相似,比如說,白皇后處于危險之中,或者黑國王的防守薄弱。司機也是如此。如果我們不能假定我們周圍的司機在交叉口和環形交叉口共享我們對通行順序的理解,那么交通通行將極其危險。在高水平的技能上很少或沒有噪音。

國際象棋和開車的技能水平在一個可預測的環境中通過多年的實踐不斷提升。在這種環境中,行動之后會立即得到明確的反饋。不幸的是,很少有專業人士處在在這樣一個的環境中。在大多數工作中,人們通過聽經理和同事的解釋和批評來學習判斷——這是一種比從錯誤中學習更不可靠的知識來源。長期的工作經驗總是增加人們對自己判斷的信心,但在缺乏快速反饋的情況下,信心既不能保證準確性,也不能保證共識。

我們總結成一句格言:凡判斷必有噪音,通常比你想象的要多。一般來說,我們認為,無論是專業人士還是他們的管理者,都不能對他們的判斷的可靠性做出很好的猜測。獲得準確評估的唯一方法是進行噪音審計。并且至少在某些情況下,這個問題會嚴重到需要采取行動。

調低噪音

對噪音問題最根本的解決辦法是用被稱為算法的正式規則來代替人類的判斷,這些規則使用有關案例的數據來生成預測或決策。在過去的60年里,人們在數百次精確性競賽中與算法展開了競爭,從預測癌癥患者的預期壽命到預測畢業生的成功率。在大約一半的研究中,算法比人類專業人員更精確,而在其他研究中,算法與人類有著大致相當的精確性。這種大致相當的精確性也應該算作算法的勝利,因為它更具成本效益。

當然,在許多情況下,算法是不實用的。當輸入具有特殊性或難以以一致格式編碼時,規則的應用是不可行的。對于涉及多個維度或依賴于與另一方談判的判斷或決策,算法也不太可能有用。即使在原則上有可用的算法解決方案,組織上的考慮有時也會阻止實現。用軟件替換現有員工是一個痛苦的過程,除非它能讓這些員工獲得更愉快的任務,否則會遇到阻力。

但是如果條件是正確的,那么開發和實現算法就非常容易。通常的假設是,算法需要對大量數據進行統計分析。例如,與我們交談的大多數人都認為,要建立一個預測商業貸款違約的方程,就需要數千份貸款申請及其結果的數據。很少有人知道,在沒有任何結果數據的情況下,僅在少數情況下輸入信息,就可以開發出適當的算法。我們稱無需結果數據的預測公式為“推理規則”,因為它們是基于常識推理。

推理規則的構建從選擇一些(可能是6到8個)變量開始,這些變量與所預測的結果是非常明確的相關。例如,如果結果是貸款違約,資產和負債肯定會包括在清單中。下一步是在預測公式中為這些變量分配相等的權重,將它們的符號設置在明顯的方向上(資產為正,負債為負)。然后可以通過幾個簡單的計算來構造規則。

許多研究的令人驚訝的結果是,在許多情況下,推理規則與用結果數據建立的統計模型一樣準確。標準統計模型結合了一組預測變量,這些預測變量根據它們與預測結果的關系以及彼此之間的關系來分配權重。然而,在許多情況下,這些權重在統計上都不穩定,實際上并不重要。為所選變量分配相等權重的簡單規則可能同樣有效。在人員選擇、選舉預測、足球比賽預測和其他應用中,相等權重的變量和不依賴結果數據的算法已經證明是成功的。

這里的底線是,如果您計劃使用一種算法來減少噪聲,那么您不需要等待結果數據。您可以通過使用常識來選擇變量和最簡單的規則來獲得大部分好處。

研究表明,在決策者的角色中,算法比人類做得更好。

當然,無論采用哪種算法,人們都必須保持最終控制。必須對算法進行監控和調整,以應對各種案例的變化。管理者還必須關注個人決策,并有權在明確的情況下推翻算法。例如,如果公司發現申請人已被逮捕,批準貸款的決定應暫時撤銷。最重要的是,管理人員應該決定如何將算法的輸出轉化為實際操作。該算法可以告訴您哪些預期貸款在所有貸款申請的前5%或后10%中,但必須有人決定如何處理這些信息。

算法有時被用作專業人員做出最終決定的中間信息源。一個例子是公共安全評估,一個公式——旨在幫助美國法官決定是否可以安全釋放被告讓他等待審判。在肯塔基州使用的前六個月,被告在審前釋放中的犯罪率下降了約15%,而已釋放的審前釋放的人所占比例有所上升。很明顯,在這種情況下,人類法官必須保留最終決定權:公眾會震驚地看到一個公式的公正性。

盡管人們可能對這個想法感到不安,但研究表明,雖然人類可以為公式提供有用的輸入,但算法在最終決策者的角色中做得更好。如果避免錯誤是唯一的標準,應強烈建議管理者僅在特殊情況下否決算法。

把紀律帶到判斷上來

當專業判斷充滿噪音時,應該考慮用算法代替人工決策,但在大多數情況下,這種解決方案過于激進或根本不切實際。另一種方法是采用程序,通過確保同一職位的員工使用類似的方法來尋求信息,將其納入案例的觀點,并將該觀點轉化為決策,從而促進一致性。對所有需要做的事情進行全面的檢查超出了本文的范圍,但是我們可以提供一些基本的建議,重要的警告是,在判斷中逐漸灌輸紀律一點也不容易。

當然,培訓是至關重要的,但即使是在一起接受培訓的專業人員,也傾向于以自己的方式做事。公司有時會組織圓桌會議,讓決策者聚集在圓桌會議上審查案例,以此來應對噪音。不幸的是,大多數圓桌會議的運行方式使得達成協議過于容易,因為參與者很快就會集中在第一個或最自信地陳述的觀點上。為防止這種不可靠的一致,圓桌會議的參與者應獨立研究案例,形成他們準備為之辯護的意見,并在會議前將這些意見發送給組長。這樣的圓桌會議將有效地提供對噪音的審計,并增加小組討論的步驟,探討意見分歧。

作為圓桌會議的替代方案或補充,應向專業人員提供用戶友好的工具,如清單和精心制定的問題,以指導他們收集有關案例的信息、進行中間判斷和制定最終決定。在這些階段中的每一個階段都會發生不期望的變化,公司可以并且應該測試這些工具減少了多少不期望的變化。理想情況下,使用這些工具的人會將它們視為幫助他們有效和經濟地完成工作的輔助工具。不幸的是,我們的經驗表明,構建既有效又便于用戶使用的判斷工具的任務比許多高管認為的要困難得多。控制噪音是很困難的,但是我們期望一個以美元進行審計和評估噪音成本的組織會得出結論,減少隨機變化是值得的努力。

我們在本文中的主要目標是向管理者介紹噪聲作為一個錯誤源的概念,并解釋它是如何區別于偏見的。“偏見”一詞已經進入公眾意識,以至于“錯誤”和“偏見”兩個詞經常可以互換使用。事實上,更好的決策不僅僅是通過減少普遍偏見(如樂觀主義)或特定的社會和認知偏見(如對婦女的歧視或錨定效應)來實現的。關注準確度的高管也應該面對專業判斷中不一致的普遍存在。噪音比偏見更難被意識到,但它真實存在且會帶來不小的損失。

英文原文地址:https://hbr.org/2016/10/noise

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。