《醫(yī)療革命》的讀書筆記
作 者:邵學(xué)杰
出版社:中信出版社
版 次:2016年9月第1版
作者簡介:
邵學(xué)杰:我國醫(yī)學(xué)大數(shù)據(jù)概念提出的實踐者與先行者,2011年與國家衛(wèi)計委醫(yī)政醫(yī)管司醫(yī)療質(zhì)量監(jiān)測中心HQMS合作,首席提出建設(shè)“中國醫(yī)療云”的設(shè)想;我國醫(yī)學(xué)圖像人工智能識別的先行者,于是2012年建立第一家民營人工智能與深度學(xué)習(xí)研究機構(gòu),在醫(yī)學(xué)圖像的人工智能與機器深度學(xué)習(xí)方面有豐富的實操經(jīng)驗;醫(yī)學(xué)數(shù)據(jù)挖掘的先行者,他領(lǐng)街的研究團(tuán)隊在研究胰腺癌與心肌缺血事件的關(guān)聯(lián)性,低位保肛手術(shù)的隨訪大數(shù)據(jù)研究中取得重要進(jìn)展。
本書的重點內(nèi)容及感悟:
第1章 數(shù)據(jù)分析與數(shù)據(jù)挖掘的力量
1、葡萄牙醫(yī)生解決世界新生兒出生缺陷的故事
葡萄牙醫(yī)生在本故事中采用了分群與分層抽樣調(diào)查相結(jié)合的方法,按五大洲分群抽取,每個洲又按歷史高地區(qū)分層抽取。整群的聚類是數(shù)據(jù)挖掘技術(shù)上一個很重要的概念,把某維度屬性相似的實例聚類是數(shù)據(jù)技術(shù)最基礎(chǔ)的方法;聚類后,距離太遠(yuǎn)的數(shù)據(jù)就是異常值。對數(shù)據(jù)處理的常規(guī)方法第一步就是聚類,把某些屬性相近似的數(shù)據(jù)聚會聚類后就可以進(jìn)一步分析它們之間的關(guān)系,數(shù)據(jù)的聚類可以做回歸(預(yù)測),數(shù)據(jù)的離散可以做預(yù)警(異常值)。
本故事中,葡萄牙醫(yī)生的重要發(fā)現(xiàn)是:第一、歐洲大量新移民聚類中產(chǎn)生了新生兒缺陷高發(fā)的現(xiàn)象,這一數(shù)據(jù)甚至超過了傳統(tǒng)落后地區(qū)非洲的新生兒出生缺陷率;第二、伊拉克戰(zhàn)爭、敘利亞戰(zhàn)爭、也門內(nèi)戰(zhàn)導(dǎo)致的難民大量涌入歐洲,人口的大規(guī)模遷徙改變了歐洲的新生兒人口健康狀況。用抽樣的方法獲取數(shù)據(jù),最后導(dǎo)出了近年來歐洲新生兒缺陷增加的主要原因:大規(guī)模移民難民潮。其中一個典型調(diào)查發(fā)現(xiàn)西班牙邊境地區(qū)一個廢棄的化學(xué)工廠是外來移民長期居住后新生兒缺陷發(fā)生的重要原因。
2、醫(yī)學(xué)數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘例子:1)腸道細(xì)菌與糖尿病、抑郁癥相關(guān);2)腸道疾病與心血管疾病相關(guān);
3、醫(yī)學(xué)數(shù)據(jù)模式識別的七大原理與案例講解
模式識別:數(shù)據(jù)挖掘的本質(zhì)就是模式識別。七種模式識別方法:解釋性數(shù)據(jù)建模;描述性建模;預(yù)測性建模;知識性建模;序列模式建模;依賴關(guān)系的建模;異常與趨勢建模。醫(yī)學(xué)模式識別就是利用臨床醫(yī)學(xué)大數(shù)據(jù)來建模,找到疾病之間的相互關(guān)系,無論是依賴關(guān)系,關(guān)聯(lián)關(guān)系還是序列模式等關(guān)系都可臺在數(shù)據(jù)中找到真相。
1) 解釋性數(shù)據(jù)建模:解釋性建模的實質(zhì)是模糊建模,模糊建模的特點在于它用模糊規(guī)則對知識進(jìn)行表達(dá),而且可以解決一些復(fù)雜的、非線性的、用傳統(tǒng)的數(shù)學(xué)方法難以解決的問題。
一個好的數(shù)據(jù)模型具備以下三點:描述性、預(yù)測性、說明性。具體地說就是,一個好的數(shù)學(xué)模型能描述建模基于的系統(tǒng),并且對其做出預(yù)測,同時能解釋為什么這么建模以及建模得出的結(jié)論。
2)描述性建模:反映了從特殊到一般的認(rèn)識過程,它是從分析客觀事物的具體特征入手,經(jīng)過逐步抽象而得到的。把客觀事物中的關(guān)系概括于一個數(shù)據(jù)結(jié)構(gòu)之中,是描述性數(shù)學(xué)模型的主要特征,也是解決問題的重要手段。
3)預(yù)測性建模:谷歌搜索引擎從側(cè)面顯示出了搜索這些信息的人本身的情況,比如他們的想法,需求,憂慮等非常有價值的信息。如果這些信息的搜索可以準(zhǔn)確地反映出人們的生存情況,那么分析人員就有可能利用這些信息追蹤疾病情況,預(yù)測新商品的銷售情況,甚至預(yù)測選舉的結(jié)果。
4)知識性建模:屠呦呦諾貝爾獎的故事。這是一個典型的知識性建模,利用先驗的知識經(jīng)驗,屠呦呦從中醫(yī)古籍中找到了啟發(fā)與靈感,先后篩選2000多種藥物(在當(dāng)時的條件下都要是人工篩選),最后采用化學(xué)提純與晶體分離的方法獲得了青蒿素,為千百萬瘧疾患者帶來福音。
5)序列模式建模:啤酒與尿片的故事。通過在多組商品中選取銷量最高的幾組進(jìn)行關(guān)聯(lián)分析,這時候往往能夠發(fā)現(xiàn)一些意想不到的規(guī)律。商品排序的方法按時間就叫時間序列,按銷量就叫銷量序列,按品類就叫品類序列。
6)依賴關(guān)系建模:激素的故事。長期的醫(yī)學(xué)實踐與數(shù)據(jù)分析表明,許多女性疾病與激素依賴高度相關(guān)。最常見的是子宮內(nèi)膜癌與乳腺癌。重要的激素依賴性腫瘤是女性多發(fā)的激素依賴性疾病。2003年,SAS襲擊中國,中國醫(yī)生率先在世界上用激素抑制SAS病毒,取得了很好的療效。然而,大量不規(guī)范的激素使用也使得幸存的SAS患者大多患者有嚴(yán)重的骨質(zhì)疏松,激素依賴疾病又一次被數(shù)據(jù)驗證。
7)異常與趨勢建模:蘭州大學(xué)醫(yī)學(xué)院附屬醫(yī)院的醫(yī)生在數(shù)據(jù)分析中應(yīng)用離散值,特別是離散度的關(guān)系來判讀心肌缺血事件的風(fēng)險。
4、臨床醫(yī)學(xué)領(lǐng)域的機器學(xué)習(xí)與人工智能
乳腺癌的X射線診斷在臨床醫(yī)學(xué)中一直有著比較高的誤診率,為了解決這個問題,芝加哥大學(xué)的華裔醫(yī)生嘗試用機器學(xué)習(xí)的SVM(支持向量機)來提高診斷的準(zhǔn)確率。SVM算法明顯優(yōu)于人工讀片產(chǎn)生的誤診率,表明了機器學(xué)習(xí)在乳腺癌的影像學(xué)初診中產(chǎn)生的巨大作用,與人式判讀相比,機器學(xué)習(xí)對乳腺癌診斷的準(zhǔn)確率大大提高。
感悟:機器學(xué)習(xí)提高乳腺癌的診斷水平,人工智能提高手術(shù)的精確性。這兩項技術(shù)對醫(yī)生的沖擊很大。在未來,我們還有什么用?我們還能有什么用?走進(jìn)大數(shù)據(jù),走進(jìn)人工智能領(lǐng)域,是我們生存的唯一之道。
5、神經(jīng)元網(wǎng)絡(luò)的基本原理
神經(jīng)元網(wǎng)絡(luò)算法是基于模仿大腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)。學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)研究的一個重要內(nèi)容,它的適應(yīng)性是通過學(xué)習(xí)實現(xiàn)的。根據(jù)環(huán)境的變化,對權(quán)值進(jìn)行調(diào)整,改善系統(tǒng)的行為。
收斂的最本質(zhì)的意義是指算法函數(shù)有效地產(chǎn)生了結(jié)果,就像傳統(tǒng)的線性議程有了根式解,就是函數(shù)存在可以逼迫的極限,收斂是一切數(shù)據(jù)挖掘計算機數(shù)據(jù)處理追求的目標(biāo)。
第2章 臨床醫(yī)學(xué)的數(shù)據(jù)挖掘
1、房顫與腎功能關(guān)聯(lián)現(xiàn)象的故事:慢性腎功能不全與房顫性病率的相關(guān)性研究。
1)病例來源:收集重慶醫(yī)科大學(xué)附屬第二醫(yī)院、重慶市中山醫(yī)院、重慶市第三人民醫(yī)院三所醫(yī)院的2006年1月到2009年6月住院的慢性腎功能不全患者的住院病例。
2)診斷與分期標(biāo)準(zhǔn):慢性腎功能不全的診斷依據(jù):定義為經(jīng)過腎活檢或檢測損傷標(biāo)記物證實的腎臟損傷或腎小球濾過率<60ml/(min.1.73m2,持續(xù)時間大于3個月。)
第一步:采用三所醫(yī)院的700多例住院病人數(shù)據(jù),如果是大數(shù)據(jù)ETL去除數(shù)據(jù)的雜音。第二步:建立變量模型,就是找到因變量與自變量的關(guān)系科目,這是醫(yī)學(xué)數(shù)據(jù)挖掘的關(guān)鍵之處,它需要豐富的臨床經(jīng)驗與醫(yī)學(xué)知識才能有效地完成;第三步就是面對數(shù)據(jù)的聚類回歸或離散預(yù)警。其中,在大數(shù)據(jù)條件下,大多采用人工智能與機器學(xué)習(xí);在小數(shù)據(jù)條件下,更多地采用傳統(tǒng)統(tǒng)計學(xué)的老方法,如參數(shù)設(shè)計、假設(shè)檢驗、P值、T值的置信度衡量等。
將年齡、性別、體重指數(shù)、吸煙史、飲酒史、高血壓、高脂血癥、冠心病史、心力衰竭、透析、左房增大以及糖尿病納入多遠(yuǎn)logistic回歸分析。
3)研究局限:首先:納入的慢性腎功能不全患者僅有754例,且全部為住院患者;近一半的患者接受透析治療,因此研究對象的腎功能差、病情重,多數(shù)為終末腎臟病患者。其次:本研究對于房性心律失常的認(rèn)定僅僅來源于病例資料,不排除病例資料缺失,診斷不完整等因素存在。
4)結(jié)論:慢性腎功能不全患者房顫患病率顯著于普通人群,冠心病史、心力衰竭、糖尿病、透析與房顫和房性心律失常發(fā)生的相對風(fēng)險增加密切相關(guān)。
5)研究小結(jié):本案例采用了醫(yī)學(xué)數(shù)據(jù)分析中最常見的logistic多因素回歸預(yù)測方法。logistic回歸是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘、疾病自動診斷、經(jīng)濟(jì)經(jīng)濟(jì)預(yù)測等領(lǐng)域。
logistics回歸幾乎是最有用的醫(yī)學(xué)數(shù)據(jù)挖掘工具之一。第一、尋找危險因素;第二、預(yù)測:如果已經(jīng)建立了回歸模型,則可以根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大;第三、判別。實際上跟預(yù)測有些類似,也是根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大。
小知識:置信水平是指總體參數(shù)值落在樣本統(tǒng)計值某一區(qū)內(nèi)的概率,一般用1-α表示,而置信敬意是指在某一置信水平下,樣本統(tǒng)計值與總體參數(shù)數(shù)值間誤差范圍。置信區(qū)間越大,置信水平越高。一般的置信區(qū)間為:95%。
Logistics回歸幾乎是最有用的醫(yī)學(xué)數(shù)據(jù)挖掘工具。關(guān)鍵是根據(jù)置信水平尋找危險因素,建模,然后根據(jù)模型進(jìn)行預(yù)測和判別。
2、支持向量機的算法原理與應(yīng)用
支持向量機的算法原理:
1)背景:乳腺癌的極高誤診率。
2)支持向量機的主要特點:支持向量機堪稱最有效的數(shù)據(jù)分類工具。主要的特點就是以極小的樣本量也能夠扮演全體的數(shù)據(jù)算法。在解決小樣本、非線笥及高維模式識別問題中表現(xiàn)出來許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)按擬合等其他機器學(xué)習(xí)問題中。SVM的關(guān)鍵在于核函數(shù)。低維空間向量集通常難于劃分,解決的方法是將它們映身到高維空間。但這個辦法帶來的困難就是計算復(fù)雜度的增加,而核函數(shù)正好巧妙地解決了這個問題。也就是說,只要選用適當(dāng)?shù)暮诵暮瘮?shù),就可以得到高維空間的分類函數(shù)。數(shù)據(jù)投射的升維(從一維到二維,從二維到三維,從n維到n+1)是數(shù)據(jù)及統(tǒng)計理論的巨大進(jìn)步。
3)基本思想:數(shù)學(xué)中,元素之間的關(guān)系很難分清的時候,我們往往把它投射到一個更高維的空間,在一個“超平面”上看到元素之間的分界線很清晰。SVM的基本思想是把訓(xùn)練數(shù)據(jù)非線性的映射到一個更高維的特征空間中,在這個高維的特征空間中尋找到一個超平面使得正例和反例兩者間的隔離邊緣被最大化。
4)SVM學(xué)習(xí)方法:線性可分支持向量機、線性支持向量機及非線性支持向量機。當(dāng)訓(xùn)練數(shù)據(jù)線性可分時,通過硬間隔最大化,學(xué)習(xí)一個線性的分類器,即線性可分支持向量機,又稱為硬間隔支持向量機;當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時,通過軟間隔最大化,也學(xué)習(xí)一個線性的分類器,即線性支持向量機,又稱為軟間隔支持向量化;當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時,通過使用技巧及軟間隔最大化,學(xué)習(xí)非線性支持向量化。
支持向量機的應(yīng)用案例:SVM在乳腺癌影像診斷中的應(yīng)用
1)研究內(nèi)容:首先:研究如何對乳腺癥CT圖像進(jìn)行更好的預(yù)處理,為自動提取特征做出有效的準(zhǔn)備,選擇準(zhǔn)確、有效的分類算法,最終獲得滿意的數(shù)據(jù)挖掘結(jié)果;其次:探討和開發(fā)適合乳腺癌影像數(shù)據(jù)庫知識發(fā)現(xiàn)的一般方法和工具。最后:開發(fā)出性能良好的、易于醫(yī)生操作的,接近醫(yī)學(xué)專家水平的具有臨床實踐應(yīng)用價值的乳腺癌的輔助診斷系統(tǒng)。
2)方法:對乳腺癌CT圖像數(shù)據(jù)進(jìn)行正常/異常、良好/惡性分類檢測,PSVM分類器過程如下所述:首先:對乳腺癌圖像的基本預(yù)處理包括圖像去噪、圖像增強、圖像感興趣區(qū)域分割等。其次:提取特征向量,將得到的n個特征值作為分類器的輸入。
3)原理:本案例的數(shù)據(jù)挖掘意義是巨大的,即使是圖像的人工智能處理也可以用“支持向量機”這樣一個算法來解決。首先搜索乳腺癌的CT圖像數(shù)據(jù),剔除噪音,用算法來提取圖像紋理與灰度特征,分別建立健良性/惡性識別模塊,其中的圖像增強、灰度特征提取,紋理特征提取都是數(shù)據(jù)挖掘算法完美的展現(xiàn),把一幀圖像劃分為無數(shù)個點陣與方格,依據(jù)每一個點及其鄰近點的深淺特征比對來識別正常圖像與異常圖像,這就是算法的力量,把困難的問題簡單化。
支持向量機(SVM)在解決小樣本、非線笥及高維模式識別問題中表現(xiàn)出來許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)按擬合等其他機器學(xué)習(xí)問題中。SVM進(jìn)行數(shù)據(jù)挖掘的意義是巨大的,即使是圖像的人工智能處理也可以用“支持向量機”這樣一個算法來解決。
3、疾病規(guī)律與統(tǒng)計學(xué)革命
1)肝膽外科的統(tǒng)計學(xué)故事:本故事中我們看到了醫(yī)學(xué)實踐與數(shù)據(jù)挖掘先天的聯(lián)盟關(guān)系,少數(shù)的和個體的醫(yī)療行為能否成為一種可以推廣的模式,大樣本的數(shù)據(jù)提供了“不可辯駁的事實”,這就是臨床醫(yī)學(xué)的歸納、總結(jié)與推理,遵循嚴(yán)格的科學(xué)范式。
2)雙盲實驗:雙盲實驗是實驗心理學(xué)中一個很好的控制額外變量的方法,是排除法的一種。雙盲控制時讓實驗的操作者和實驗被試都不知道實驗的內(nèi)容和目的,由于實驗者和研究參加者都不知道哪些被試接哪種實驗條件,從而避免了主,被試雙方的主觀期望所引發(fā)的額外變量。雙盲試驗引發(fā)了醫(yī)學(xué)的思維與方法革命,直接導(dǎo)致了循證醫(yī)學(xué)時代的到來。
薈萃分析:當(dāng)時針對大量發(fā)表的科學(xué)論文中,對于同樣的研究卻得出截然不同結(jié)果的問題,他們提出應(yīng)用在全世界范圍內(nèi)收集對某一疾病各種療法的小樣本,單個臨床試驗的結(jié)果,對其進(jìn)行系統(tǒng)評價和統(tǒng)計分析,將盡可能真實的科學(xué)結(jié)論及時提供給社會和臨床醫(yī)師,以促進(jìn)推廣真正有效的治療手段。薈萃分析的主要目的是將以往的研究結(jié)果更為客觀地綜合反映出來。研究者并不進(jìn)行原始的研究,而是將研究已獲得的結(jié)果進(jìn)行綜合分析。薈萃分析逐漸發(fā)展成為一門新興學(xué)科---“循證醫(yī)學(xué)”的主要內(nèi)容和研究手段。
3)肝癌診斷指標(biāo)的優(yōu)劣:路人甲做了一個研究,旨在比較兩個指標(biāo)(A和B)對肝癌的診斷價值。
路人甲經(jīng)過四次投稿,審稿人--路人乙回復(fù):就敏感性,B高于A;就特異性而言,A高于B。審稿人--路人丙回復(fù):從表面上看,B的曲線下面積高于A,但是導(dǎo)致這種差異的原因有兩種,一種是抽樣誤差,一種是試驗效應(yīng),在統(tǒng)計學(xué)上,要確定0.82是否高于0.80,就一定要經(jīng)過統(tǒng)計學(xué)檢驗的。審稿人--路人丁回復(fù):B是常見的診斷指標(biāo),其檢測結(jié)果并不對臨床醫(yī)師設(shè)盲,在很大程度上可以影響臨床醫(yī)師對疾病的診斷。A是新近發(fā)現(xiàn)的診斷指標(biāo),其結(jié)果完全對臨床醫(yī)師設(shè)盲,不可能影響醫(yī)生的診斷。所以作者結(jié)論是不可靠的。審稿人--路人G回復(fù):A和B的檢測并不矛盾,他們之間的關(guān)系不應(yīng)該是競爭關(guān)系,而應(yīng)該是合作關(guān)系。這個故事說明:醫(yī)學(xué)科研是很痛苦的,不重視統(tǒng)計學(xué)和科研設(shè)計,會走很多彎路的。沒有經(jīng)過檢驗的結(jié)論多半是不科學(xué)的。對統(tǒng)計學(xué)結(jié)果的解讀一定要結(jié)合專業(yè)!從專業(yè)中來,到專業(yè)中去。
4、老年肺癌研究
1)數(shù)據(jù)的抓取與來源:醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)構(gòu)成一個復(fù)雜的數(shù)據(jù)庫,包括電子病歷、醫(yī)學(xué)影像、病理參數(shù)、化驗結(jié)果等,而目前數(shù)據(jù)挖掘技術(shù)重要應(yīng)用于以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫,事務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫,對復(fù)雜類型數(shù)據(jù)的挖掘尚處在起步階段。
2)癌癥與老齡化的相關(guān)性分析:就全人群而言,肺癌是發(fā)病率最高的腫瘤,也是癌癥死因之首,胃癌、食管癌和肝癌則緊隨其后......
3)老年肺癌的手術(shù)評價要素:腫瘤評價、老齡因素評價、身體功能、并發(fā)癥、認(rèn)知能力、營養(yǎng)狀況、心理狀況、手術(shù)方式選擇、社會支持因素。
4)老年肺癌腫瘤的數(shù)據(jù)分析:老年肺癌高峰值區(qū)為70~79歲。無論是巴西、加拿大、韓國均是如此。中國最高。有調(diào)查發(fā)現(xiàn),六成的肺癌病者在初診時已屬后期,使得肺癌診療的整體結(jié)果仍不令人滿意。老年肺癌特點:一是起病緩慢,病程平均5.2個月;二是臨床表現(xiàn)以咳嗽、胸痛、痰中帶血或少量咯血居多;三是X線胸片主要表現(xiàn)為塊影,浸潤性病灶、肺不張和胸腔特別積液;四是伴發(fā)病多,伴發(fā)的疾病主要是慢性阻塞性疾病和肺結(jié)核;五是誤診較高,常被誤診為肺炎、肺結(jié)核和結(jié)核性胸膜炎;六是以男性居多,大多數(shù)有吸煙史。
5)結(jié)論:A、80歲以上老年肺癌的手術(shù)禁忌年齡不是問題,只是心肺功能好,都可以承受心胸外科手術(shù);B、老年肺癌的預(yù)后與圍術(shù)期及康復(fù)期的家庭家人護(hù)理密不可分;C、數(shù)據(jù)挖掘表明,開放式手術(shù)與胸腔鏡在老年肺癌手術(shù)的預(yù)后上并沒有太大的差別,小切口的開放式手術(shù)仍然受到外科醫(yī)生的青睞;D、數(shù)據(jù)分析發(fā)現(xiàn),由于女性外來移民的影響,歐洲的女性吸煙者的增加導(dǎo)致女性肺癌患者增加;E、數(shù)據(jù)挖掘表明,非洲的肺癌死亡率最低說明環(huán)境因素與肺癌息息相關(guān)。這就是數(shù)據(jù)挖掘的力量。
5、臨床醫(yī)學(xué)與數(shù)據(jù)挖掘的邊緣學(xué)科
1)實例:某地用A、B和C三種方案治療血紅蛋白不滿10g的嬰幼兒貧血患者,治療一個月后,記錄下每名受試者血紅蛋白的上升克數(shù)。問:三種治療方案對嬰幼兒貧血的療效是否相同?
方差分析計算(F檢驗步驟):建立假設(shè)、確立檢驗水準(zhǔn)、計算檢驗統(tǒng)計量、確定P值、結(jié)論。
2)醫(yī)學(xué)統(tǒng)計學(xué)與醫(yī)學(xué)數(shù)據(jù)挖掘的區(qū)別:數(shù)據(jù)挖掘來源于統(tǒng)計分析,而又不同于統(tǒng)計分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。相反,數(shù)據(jù)挖掘是統(tǒng)計分析方法的擴展和延伸。很多情況下,數(shù)據(jù)挖掘的本質(zhì)是很偶然地發(fā)現(xiàn)非預(yù)期但很有價值的信息。
3)數(shù)據(jù)挖掘一般步驟:分析問題->提取、清洗和效驗數(shù)據(jù)、創(chuàng)建和調(diào)試模型->查詢數(shù)據(jù)挖掘模型的數(shù)據(jù)->維護(hù)數(shù)據(jù)挖掘模型。
聚類分析是數(shù)據(jù)挖掘采用的核心技術(shù),成為該研究領(lǐng)域中一個非常活躍的研究課題。聚類的輸入是一組沒有類別標(biāo)注的數(shù)據(jù),根據(jù)一定的聚類準(zhǔn)則,合理劃分記錄集合,從而使相似的記錄被劃分到同一個簇中,不相似的數(shù)據(jù)劃分到不同的簇中。
4)特征選擇與聚類分析算法(Relief算法、K-Means算法):Relief算法是一種特征權(quán)重算法,根據(jù)各個特征和類別的相關(guān)性賦予不同的權(quán)重,權(quán)重小于某個閾值的特征將被移除。特征的權(quán)重越大,表示該特征的分類能力越強,反之表示該特征分類能力越弱。Relief算法運行效率高,對數(shù)據(jù)類型沒有限制,屬于一種特征權(quán)重算法,算法會賦予所有和類別相關(guān)性高的特征較高的權(quán)重,所以算法的局限性在于不能有效地去除冗余特征。
數(shù)據(jù)挖掘:聚類分析是數(shù)據(jù)挖掘的核心技術(shù),成為該研究領(lǐng)域中一個非常活躍的研究課題,對臨床醫(yī)學(xué)的研究具有廣泛的價值。
第3章 臨床醫(yī)學(xué)與數(shù)據(jù)技術(shù)的深度融合
1、二型糖尿病與胰腺癌的故事
現(xiàn)代臨床醫(yī)學(xué)的數(shù)據(jù)分析表明許多疾病之間存在著共生的關(guān)系,一個臨床醫(yī)生只有掌握必備的數(shù)據(jù)挖掘技術(shù)或醫(yī)學(xué)統(tǒng)計知識才能更多地發(fā)現(xiàn)新的疾病規(guī)律。雖然學(xué)術(shù)界對二型糖尿病與胰腺癌的看法還沒有定論,我們通過數(shù)據(jù)挖掘的辦法采用五變量分析法可以將胰腺癌的高危人群從二型糖尿病患者中分離出來,做到早期診斷,早期發(fā)現(xiàn)。
2、Cox回歸的基本原理與應(yīng)用
Cox回歸無疑是醫(yī)學(xué)數(shù)據(jù)挖掘與醫(yī)學(xué)統(tǒng)計中最有魅力的回歸分析工具,也是最常見的醫(yī)學(xué)數(shù)據(jù)回歸分析工具,深度廣大醫(yī)生的歡迎。
Cox回歸與Logistics區(qū)別:A、都可以用來篩選影響因素;B、都有OR值或者RR值;C、因變量不一樣:Cox回歸的因變量是生存時間;Logistics回歸因變量是分類資料,比如二分類。D、他們有許多相似的地方。SAS程序相同,SPSS里面有條件Logistics回歸分析就是借用Cox比例風(fēng)險模塊進(jìn)行分析。Logistics回歸是Cox回歸的一個特例。Cox回歸可以考察生存函數(shù),而Logistics不可以。
1)晚期肺癌伴腦轉(zhuǎn)移患者的預(yù)后多因素Cox項目
對患者臨床特征如性別、吸煙史、病理類型、PS類型、腦轉(zhuǎn)移數(shù)量、肺癌到腦轉(zhuǎn)移時間、放療方式等情況與預(yù)后關(guān)系進(jìn)行單因素分析,結(jié)果顯示:PS評分、腦轉(zhuǎn)移數(shù)量、腦轉(zhuǎn)移時間、放療方式和肺癌是否切除與患者預(yù)后有關(guān)。總體來說,晚期肺癌患者尤其是出現(xiàn)腦轉(zhuǎn)移患者的預(yù)后較差,生存期較短。
P值:統(tǒng)計學(xué)根據(jù)顯著性檢驗方法得到的P值,一般以P<0.05為顯著,P<0.01為非常顯著,其含義是樣本間的差異由抽樣誤差所致的概率小于0.05或0.01。實際上,P值不能賦予數(shù)據(jù)任何重要性,只能說明某事件發(fā)生的幾率。
2)幾點啟示
.COX多因素回歸模型在臨床的應(yīng)用中的確有不可替代的作用。COX回歸用于生存分析數(shù)據(jù),這一點所有人都知道。這是因為COX回歸在分析時無須考慮數(shù)據(jù)分布,直接便可以應(yīng)用。所以,從簡便的角度出發(fā),更多人喜歡用COX回歸。
.COX回歸跟Logistic回歸模型十分相似,極盡簡單和優(yōu)美的特色。COX回歸和Logistic回歸是流行病學(xué)工作中兩大主要數(shù)據(jù)分析工具。
.COX回歸盡管應(yīng)用廣泛,但也不能說任何生存數(shù)據(jù)都可以用它來分析。它有一個重要的前提假設(shè),即等比例風(fēng)險,它表示某因素對生存的影響在任何時間都是相同的,不隨時間的變化而變化。
.在晚期癌癥的診療方案中,國內(nèi)醫(yī)學(xué)文獻(xiàn)對數(shù)據(jù)挖掘工具的利用效率還十分落后,其中對大樣本、規(guī)范性數(shù)據(jù)的獲取仍然是制約中國臨床醫(yī)生科研水平的重要因素,臨床數(shù)據(jù)標(biāo)準(zhǔn)不規(guī)范,病倒數(shù)據(jù)不能共享是制約中國臨床科研水平的首要因素。
3)方卡檢驗:是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趨于符合,若量值完全相等時,卡方值就是0,表明理論值完全符合。
案例1:1992年,抗抑郁藥物羅西汀(paxil)獲準(zhǔn)上市;1996年,降膽固醇藥物普拉固(pravachol)正式開售。兩種藥品生產(chǎn)企業(yè)的研究證明:每種藥物在單獨服用時是有效且安全的。可是,患者要是同時服用兩種藥是否安全,沒有人知道,甚至很少有人想法。臨床藥品成千上萬,我們怎么可能對任意組合的兩、三種藥聯(lián)合應(yīng)用的安全性和有效性進(jìn)行逐一研究呢?數(shù)據(jù)挖掘很可能是一種有效的、快速的、主動式的探索多種藥品聯(lián)合應(yīng)用問題的方法。
COX回歸和Logistic回歸是流行病學(xué)工作中兩大主要數(shù)據(jù)分析工具。
3、聚類的臨床醫(yī)學(xué)意義
案例:基于聚類的心電信號分類方法研究
1)背景:心電信號是心臟的一種客觀表現(xiàn)方式。心電圖能準(zhǔn)確地反映出心臟興奮的電活動過程,它對心臟基本功能及其病理研究方面,具有重要的參考價值,常用于對各種心律失常,心室心房肥大、心肌梗死、心肌缺血、電解質(zhì)紊亂等病癥的檢查。也可用于床邊24小時晝夜監(jiān)視病人的心臟。
心電信號的脈沖數(shù)據(jù)解讀是一個專業(yè)性很強的工作,往往受到醫(yī)生個人知識水平,經(jīng)驗的限制,因而十分適合數(shù)據(jù)挖掘與機器學(xué)習(xí)的方法來實現(xiàn)大規(guī)模數(shù)據(jù)的批量處理。
2)聚類的原理:按照相似的特征進(jìn)行分類,聚類分析就是根據(jù)模式的特征空間頒布,按照點與點之間的距離大小確定它們的相似度。聚類與分類的不同在于:分類所要求劃分的類是已知的,而聚類所要求劃分的類是未知的,所以,聚類方法也稱為無監(jiān)督法。
3)根據(jù)模式識別的理論,有了采樣數(shù)據(jù)后需要對數(shù)據(jù)進(jìn)行預(yù)處理。(R點前后50--100點圖)
4)數(shù)據(jù)的降維處理:我們可以把這由100個數(shù)據(jù)點組成的波形直接用來分類,然而100維的數(shù)據(jù)對于作為輸入到分類器中的特征值來說顯得過于冗余。而且100維的數(shù)據(jù)對于計算機計算和硬件支持也帶來不少壓力,因此需要對數(shù)據(jù)進(jìn)行有效特征提取或降維。(55個數(shù)據(jù)點來表示一個心電信號波形是可行的)
5)曲線擬合:對數(shù)據(jù)進(jìn)行特征撮的方法有很多,如小波分析、神經(jīng)網(wǎng)絡(luò)訓(xùn)練等,曲線擬合也是其中一種很常用的方法。曲線擬合就是使用一條光滑的曲線近似地去逼迫一個平面上的一系列點,這是一種用解析式逼近離散數(shù)據(jù)的方法。在求得一個解析式后,就等于把離散數(shù)據(jù)點轉(zhuǎn)化為函數(shù)中的參數(shù)表示,這樣能起到有效的降維作用。
6)傅里葉級數(shù)擬合:傅里葉級數(shù)說明,任何周期函數(shù)都可以用正弦函數(shù)和余弦函數(shù)構(gòu)成的無窮級數(shù)來表示。傅里葉級數(shù)在數(shù)論、信號處理、統(tǒng)計學(xué)、聲學(xué)等領(lǐng)域都有廣泛應(yīng)用。我們可以增加階數(shù)來提高擬合精度。如一個6階的傅里葉級數(shù)對于某些波形來說,擬合程度已經(jīng)接近于1。
我們把55個有效數(shù)據(jù)點作為一條記錄去進(jìn)行函數(shù)擬合,結(jié)果發(fā)現(xiàn)利用傅里葉級數(shù)擬合的方法對于大多數(shù)類似于正常的QRS波群能夠很好地進(jìn)行擬合,一個6階的傅里葉級數(shù)擬合精度就能達(dá)到0.99以上,而且函數(shù)的參數(shù)只有13個,大大降低了數(shù)據(jù)的維數(shù)。
7)聚類算法的實現(xiàn)---K-Means算法:首先假設(shè)有若干個數(shù)據(jù)隊列集合等待聚類,隨機選擇K個對象為第一次聚類的中心點,依據(jù)每個元素相對于中心點K的距離遠(yuǎn)近進(jìn)行聚類,然后按照調(diào)整后的新類使用平均值的方法計算新的聚類中心;如果相鄰兩次的聚類中心沒有任何變化,說明樣本調(diào)整結(jié)束且聚類平均誤差準(zhǔn)則函數(shù)已經(jīng)收斂。這樣多次迭代后就可以確保每一個樣本的正確聚類。
聚類又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法,同時也是數(shù)據(jù)挖掘的一個重要算法。聚類算法----降維(傅里葉級數(shù)擬合)---數(shù)據(jù)處理----迭代。
4、貝葉斯算法的應(yīng)用案例
貝葉斯開啟了不確定性問題的解決方案,成為統(tǒng)計學(xué)歷史上的飛躍,也終結(jié)了統(tǒng)計學(xué)大多靈敏解決確定性問題的歷史,開啟了概率論的新篇章。毫不夸張地說,貝葉斯理論的出現(xiàn)對疾病數(shù)據(jù)的研究如虎添翼。
1)研究方法與模型
.本體論:Perez在他的論文中總結(jié)出本體包含5個基本的建模原語。這些原語是:類、關(guān)系、函數(shù)、公理、實例。類即為概念,如高血壓、血常規(guī)、血生化、個人史等。關(guān)系代表了概念在領(lǐng)域之中的相互聯(lián)系,如子類關(guān)系、逆關(guān)系。函數(shù)是一類關(guān)系,不過它比較特殊,類似數(shù)學(xué)函數(shù),由一部分內(nèi)容能推出另一部分的結(jié)果。公理是那些無須去證明的客觀事實或規(guī)律。實例是類的對象,代表元素。
.貝葉斯網(wǎng)絡(luò)模型:在醫(yī)學(xué)診斷中,不確定性來自于信息的不完整或者不可靠,或者知識的不一致性導(dǎo)致決策者不能評估假設(shè)的真實程度。
本文選用本體和貝葉斯網(wǎng)絡(luò)的方法來處理知識管理以及不確定性。本體能夠?qū)㈩I(lǐng)域知識表達(dá)成機器可讀的形式。它能夠表達(dá)大型、復(fù)雜的領(lǐng)域的組織結(jié)構(gòu),但是它不能夠處理不確定性,這是本體應(yīng)用的一個短板。貝葉斯網(wǎng)絡(luò)在解決不確定性知識的置信度時非常有效,適用于不確定知識的表示及推理。為了克服彼此的缺點,本體和貝葉斯網(wǎng)絡(luò)能夠互補。因此,可以創(chuàng)建一個本體驅(qū)動的貝葉斯網(wǎng)絡(luò)模型。
2)小結(jié):本意提出的本體驅(qū)動的貝葉斯網(wǎng)絡(luò)模型能夠自動解析本體中實例之間的層次關(guān)系,來動態(tài)地構(gòu)建貝葉斯網(wǎng)絡(luò),充分利用了本體表達(dá)能力強并且具有語義性的優(yōu)點。另外,該模型也利用了貝葉斯網(wǎng)絡(luò)能夠解決不確定性和非完全性信息的優(yōu)勢。
向本體文件中添加新的實例后無須做任何代碼更改,只需重新讀取本體文件即可更新貝葉斯網(wǎng)絡(luò)模型。本文提出的醫(yī)學(xué)本體模型具有一定的通用性,可以很容易地進(jìn)行本體擴充并將其用于其他疾病的診斷。
應(yīng)用本體論,貝葉斯網(wǎng)絡(luò)算法對高血壓患者心血管風(fēng)險進(jìn)行分類是對貝葉斯概率分布最有效的醫(yī)學(xué)運用之一。
感悟:在眾多數(shù)據(jù)分析方法及數(shù)據(jù)挖掘算法中,如何能在最短的時間學(xué)習(xí)針對醫(yī)療數(shù)據(jù)分析及數(shù)據(jù)挖掘核心的技術(shù)。本章給出了答案----COX、聚類算法、貝葉斯網(wǎng)絡(luò)模型。對于剛接觸數(shù)據(jù)分析及數(shù)據(jù)挖掘的初學(xué)者來說,能接觸到這一些知識內(nèi)容受益無窮呀。
第4章 臨床醫(yī)學(xué)的模式識別(數(shù)據(jù)挖掘)
1、模式識別是什么
模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物傳感器等對象的具體模式進(jìn)行辨識和分類。
臨床醫(yī)學(xué)的模式識別形式多樣,一張CT片的判讀,一個病理分型的確認(rèn),一種術(shù)式的療效,一個靶向治療的方案,臨床醫(yī)學(xué)的模式識別與疾病類型、生物特征、診療方案息息相關(guān)。臨床醫(yī)學(xué)的模式識別的類型主要有解釋性建模、描述性建模、預(yù)測性建模、序列模式建模,知識性建模、依賴關(guān)系建模、異常與趨勢建模等。
2、決策樹算法
1)背景:肝功能衰竭是肝癌肝部分切除術(shù)后危險和致命的并發(fā)癥,為了減少手術(shù)風(fēng)險,術(shù)前準(zhǔn)確客觀評估肝功能及預(yù)測術(shù)后剩余肝實質(zhì)儲備功能到至關(guān)重要。
本研究回顧笥分析2009年2月到2010年7月南京醫(yī)科大學(xué)第一附屬醫(yī)院肝臟外科,采用東京大學(xué)肝膽胰外科制定結(jié)合AEI吲哚清除試驗的決策樹評估82例肝癌患者的肝功能而選擇手術(shù)方式,探討該決策樹在評估肝臟儲備功能中的臨床應(yīng)用價值。
2)對象與方法:本研究嚴(yán)格遵照東京大學(xué)肝膽胰外科制定的結(jié)合AEI吲哚氰綠清除試驗的決策樹行肝部分切除,術(shù)后無重大并發(fā)癥及再次,術(shù)后均安全出院。
3、算法的規(guī)律與臨床醫(yī)學(xué)的本質(zhì):
算法的本質(zhì)是什么:利用關(guān)聯(lián)規(guī)則的Apriori算法分析高考成績對醫(yī)學(xué)生基礎(chǔ)醫(yī)學(xué)課程成績和臨床醫(yī)學(xué)課程成績的影響,總結(jié)高考成績對醫(yī)學(xué)生專業(yè)課成績影響的規(guī)律。這些規(guī)律對專業(yè)建設(shè)、培養(yǎng)方案制定、課程設(shè)置、教學(xué)效果檢查、教學(xué)方法改進(jìn)等有積極作用,并且能夠為教學(xué)管理決策提供依據(jù)。這就是算法的本質(zhì):模式識別。
無論是解釋性建模、描述性建模、預(yù)測性建模、序列模式建模、依賴關(guān)系建模還是異常與趨勢建模都可以具體表現(xiàn)為大數(shù)據(jù)的分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法,這些方法從不同的角度對數(shù)據(jù)進(jìn)行挖掘,其本質(zhì)是借助計算機從數(shù)據(jù)中找規(guī)律。
常見的數(shù)據(jù)挖掘算法包括決策樹算法、關(guān)聯(lián)規(guī)則算法、聚類算法......
第5章 醫(yī)學(xué)數(shù)據(jù)挖掘的常用工具
1、SAS挖掘軟件、Weka軟件、Matlab軟件
2、R語言案例:R語言是一個用于統(tǒng)計計算及統(tǒng)計制圖的優(yōu)秀的開源軟件,也是一個可以從大數(shù)據(jù)中獲取有用信息的絕佳工具。它能在目前主流操作系統(tǒng)上安裝使用,并且提供了很多數(shù)據(jù)管理、統(tǒng)計和繪圖函數(shù)。
例子:使用R語言所提供的函數(shù)的強大的函數(shù)庫來構(gòu)建一棵決策樹并加以剪枝。
決策樹為什么要剪枝?原因是避免決策樹過擬合樣本。前面的算法生成的決策樹非常詳細(xì)并且龐大,每個屬性都被詳細(xì)地加以考慮,決策樹的樹葉節(jié)點所覆蓋的訓(xùn)練樣本都是“純”的。因此用這個決策樹來對訓(xùn)練樣本進(jìn)行分類的話,你會發(fā)現(xiàn)對于訓(xùn)練樣本而言,這個樹表現(xiàn)完好,誤差率極低且能夠正確地對訓(xùn)練樣本集中的樣本進(jìn)行分類。訓(xùn)練樣本中的錯誤數(shù)據(jù)也會被決策樹學(xué)習(xí),成為決策樹的部分,但是對于測試數(shù)據(jù)的表現(xiàn)就沒有想象得那么好,或者極差,這就是所謂的過擬合問題。在數(shù)據(jù)集中,過擬合的決策樹的錯誤率比經(jīng)過簡化的決策樹的錯誤率要高。
3、臨床醫(yī)生如何用好挖掘工具
1)案例:基于R語言的基層門診用藥大數(shù)據(jù)分析
2)目的:利用衛(wèi)生信息技術(shù)探索基層醫(yī)療衛(wèi)生機構(gòu)門診用藥規(guī)律,為衛(wèi)生管理決策和臨床合理用藥提供依據(jù)
3)數(shù)據(jù)集:四川省基層醫(yī)療機構(gòu)管理信息系統(tǒng),提取某縣5個鄉(xiāng)鎮(zhèn)衛(wèi)生院門診2012年9月~2014年3月用藥,采用R語言對門診大數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)集字段:就診日、就診者性別、年齡、診斷、門診用藥等。
4)結(jié)果:基層門診使用最多的是維生素B6片,維生素C片、頭孢克肟分散片等類藥物,藥品合并并使用情況明顯。
5)方法:使用R語言3.1.0版本,配置arules關(guān)聯(lián)規(guī)則分析包,eclat函數(shù)計算頻率項,apriori函數(shù)挖掘關(guān)聯(lián)規(guī)則,參數(shù)設(shè)置s(支持度)為0.03,c(置信度)為0.02。
6)過程:A、基層門診開具的單藥頻繁項:單藥頻繁項通過arules包中的eclat函數(shù),設(shè)置參數(shù)最小(支持度S為0.04)求頻度項集。B、多藥頻繁項:通過arules包中的eclat函數(shù),設(shè)置參數(shù)最小(支持度S為0.04)求多種藥物(2種)頻繁項集。
7)結(jié)論分析:基層用藥以治療上呼吸道感染、腹瀉、咳嗽等常見病、多發(fā)病為主,用藥品種相對集中,可為衛(wèi)生管理部門基本藥物遴選、評價、招標(biāo)、配送等提供參考和為基本藥物循證醫(yī)學(xué)評價提供指導(dǎo)。結(jié)果顯示,維生素類藥物使用過于頻繁,其中維生素C和維生素B6片使用最有頻繁,且一般作用輔助用藥出現(xiàn),提示可能存在維生素類藥物過度使用的情況。研究還發(fā)現(xiàn),激素類藥物和抗生素類藥物使用比較偏高。
感悟:數(shù)據(jù)挖掘技術(shù)進(jìn)行多藥頻繁項集的計算,進(jìn)行多種藥相互之間影響的探索。在計算機與大數(shù)據(jù)時代,醫(yī)學(xué)論文中幾十、數(shù)百個病例的小數(shù)據(jù)時代就要成為過去,在數(shù)據(jù)挖掘工具的導(dǎo)引下,十萬條、百萬條乃至千萬條數(shù)據(jù)的大數(shù)據(jù)時代正在來臨,這樣的技術(shù)趨勢必將改變臨床數(shù)據(jù)處理的規(guī)則。