大數據時代淺談醫療——數據分析在醫療領域的運用

隨著醫療衛生信息化迅速發展

醫學研究正步入大數據時代

大數據的許多承諾正在醫療行業變成現實

大數據的實時處理和數據分析

可以讓醫療領域的從業者

更快更全面的做出決策和行動

該領域正在慢慢成熟

隨著云計算、物聯網、移動互聯網等新技術水平的提高,各行各業所累計的數據已經呈現指數級的增長。“大數據” 時代已經出現。

近年來,大數據解決方案與大數據分析工具開始被廣泛運用于醫療衛生領域。通過數據,可以把醫學專家積累的寶貴經驗,轉化成標準化的知識基礎,做到數據驅動醫療服務,因此從而大大提高服務能力和效率,解決中國醫療領域存在的諸多需求。然而健康醫療大數據究竟指的是何種數據?其“大”又體現在何處?

一.大數據

大數據的類型大致可以分為以下兩種:

第一種類型是通過對海量數據進行分析,獲得巨大價值的產品、服務和見解,我們稱之為“動詞定義”。

第二種類型是基于多源異構、跨域關聯的海量數據(數據量、數據形態、數據分析處理方式),通過分析所產生的決策流程、商業模式、科學范式、生活方式和觀念形態上的顛覆性變化的總和,我們稱之為“名詞定義”。

二.醫療數據

醫生對患者診療和治療過程中產生的數據,包括患者的基本數據、電子病歷、診療數據、醫學影像數據、醫學管理、經濟數據、醫療設備和儀器數據等,以患者為中心,成為醫療數據的主要來源。

三.醫療數據來源

首先來講,“醫療數據”的主要來源有四個方面,第一種是患者就醫,第二種是臨床研究和科研,第三種是生命制藥,第四種是可穿戴設備。

第一種“患者就醫”,源于患者,患者的體征數據、患者的化驗數據、患者的描述,患者的住院數據、醫生對患者的問診數據、醫生對患者的臨床診治、用藥、手術等數據。

第二種“臨床研究和科研”主要是實驗中產生的數據,也包含患者產生的數據。

第三種“生命制藥”主要是實驗產生的數據,與用藥相關的用藥量,用藥時間,用藥成分,實驗對象反應時間,癥狀改善表象等數據,與生命等基因組學相關的數據。

第四種“可穿戴設備”主要通過各種穿戴設備(手環、起搏器、眼鏡等)收集人體的各種體征數據。

四.醫療數據特性

醫療數據首先它屬于數據的一種,所以其大數據也必定具備一般的數據特性:規模大、結構多樣、增長快速、價值巨大,但是其作為醫療領域產生的數據也同樣具備醫療性:多態性、不完整性、冗余性、時間性、隱私性。

多態性:醫療數據包含有像化驗產生的純數據,也會有像體檢產生的圖像數據類似心電圖等信號圖譜,醫生對患者的癥狀描述以及跟進自己經驗或者數據結果做出的判斷等文字描述,另外還有像心跳聲,哭聲,咳嗽聲等類似的聲音資料,同時現代醫院的數據中還有各種動畫數據(像胎動的影像等)。

不完整性:由于各種原因導致有很多醫學數據是不完整的,像醫生的主觀判斷以及文字描述的不完整,患者治療中斷導致的數據不完整,患者描述不清導致的數據不完整等。

冗余性:醫療數據量巨大,每天會產生大量多余的數據,這給數據分析的篩選帶來了很大困難。

時間性:大多醫療數據都是具有時間性、持續性的,像心電圖,胎動思維圖均屬于時間維度內的數據變化圖譜。

隱私性:隱私性也是醫療數據的一個重要特性,同時也是現在大部分醫療數據不愿對外開放的一個原因,很多醫院的臨床數據系統都是相對獨立的局域網絡,甚至不會去對外聯網。

五、數據的處理

數據的處理一般分為6個步驟:挖掘數據、收集數據、分析數據、存儲數據、數據轉化實用,最終在實用過程中產生數據,如此循環。

六.醫療大數據的用途

醫療大數據的主要用途有:用藥分析、病因分析、移動醫療、基因組學、疾病預防、可穿戴醫療等。

隨著醫療大數據的發展和分析方法、人工智能等技術的不斷革新,能夠準確利用醫療大數據來進行分析和預測的場景會越來越多,到時大數據將會成為醫療決策的一種重要輔助依據。

七.醫療大數據

醫療大數據企業主要分為三類:慢病及健康管理(輔助患者)、臨床決策支持(輔助醫生)、醫藥研發。

醫療大數據的服務對象主要有:居民、醫生、科研、管理機構、公眾健康。

醫療大數據的主要用途有:用藥分析、病因分析、移動醫療、基因組學、疾病預防、可穿戴醫療等。

八.統計學在醫療方面的運用

統計學是醫學科學研究的重要工具,運用概率論與數理統計的原理及方法,結合醫學實際,研究數字資料的搜集、整進行理分析與推斷。正確的統計分析能夠幫助人們正確認識客觀事物的規律性,做到胸中有數,有的放矢地開展工作,提高工作質量。

在統計分析領域中,有一種用途極其廣泛的特征曲線,叫做接受者操作特性曲線。

得此名的原因在于曲線上各點反映著相同的感受性,它們都是對同一信號刺激的反應,只不過是在幾種不同的判定標準下所得的結果而已。

接受者操作特性曲線就是以虛驚概率為橫軸,擊中概率為縱軸所組成的坐標圖,和被試在特定刺激條件下由于采用不同的判斷標準得出的不同結果畫出的曲線。

在統計學中常講到的AUC就是”Area Under the ROC curve“,它的值是介于0.1到1之間,是當前分類算法根據計算所得的一個score值,AUC值越大說明正樣本越有可能排在負樣本之前,從而能更好進行統計樣本的分類。

在現有的一個統計學方法中,我們對樣本的診斷通常是分為兩類,一個是健康類,另一類是得病類。除了這兩類以外,還存在一種人群叫亞健康人群,如果我們還是按照原有的方法去給病人進行分類的話,那么我們所得到的一些結果可能是具有誤導性的。

在統計學中概率樣本的置信區間是對樣本的某個總體參數的區間,估計通常來說,比如說我們說有95%的置信區間,那么就是說測試者有95%的統計量是落在置信區間內的。

它其實展示了這個參數的真實值,有一定概率落在測試結果周圍的一個程度,也給出被測量參數測試測量值的一個可信程度。

怎么去判斷這個診斷的一個精確性,我們需要看的是置信區間的一個覆蓋率,如果這個覆蓋率越接近于既定的一個概率的話,那么這個方法就越精確。

廣泛搜尋,就是把所有的值結合在一起,然后去比較它們之間的大小,用這種比對的方法來找出最大的不同。

如此可見,隨著醫療服務提供者越來越善于從患者數據中提取有意義的見解,他們也將學習更好的提供治療的方法,提高服務質量。隨著大數據技術領域的成熟,許多組織將受益于運營的改善、費用的降低和健康狀況的改善。

通過許多方式,大數據和人工智能可以幫助解決日益嚴重的護理提供者短缺問題。醫療服務提供商也將充分利用大數據技術為醫療技術框架持續提供動力。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容