入門級:關(guān)于數(shù)據(jù)挖掘的幾個問題!

近幾年,大數(shù)據(jù)被炒得火熱,一大批“不明覺厲”的朋友蜂擁而至,希望能進入這個行業(yè)大撈一把,但眾多撞破頭也沒擠進去。根本原因就是根本沒有理解什么是數(shù)據(jù)挖掘,理解數(shù)據(jù)挖掘的相關(guān)概念,所以,今天我們大圣眾包(www.dashengzb.cn小編就為大家講幾點數(shù)據(jù)挖掘的入門必知的概念。

1、DataMining和統(tǒng)計分析有什么不同?

硬要去區(qū)分DataMining和Statistics的差異其實是沒有太大意義的。一般將之定義為DataMining技術(shù)的CART、CHAID或模糊計算等等理論方法,也都是由統(tǒng)計學(xué)者根據(jù)統(tǒng)計理論所發(fā)展衍生,換另一個角度看,DataMining有相當(dāng)大的比重是由高等統(tǒng)計學(xué)中的多變量分析所支撐。但是為什么DataMining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言,DataMining有下列幾項特性:

1.處理大量實際數(shù)據(jù)更強勢,且無須太專業(yè)的統(tǒng)計背景去使用DataMining的工具;

2.數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機分析軟件,DataMining的工具更符合企業(yè)需求;

3.純就理論的基礎(chǔ)點來看,DataMining和統(tǒng)計分析有應(yīng)用上的差別,畢竟DataMining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學(xué)家檢測用的。

2、OLAP能不能代替DataMining?

所謂OLAP(OnlineAnalyticalProcess)意指由數(shù)據(jù)庫所連結(jié)出來的在線分析處理程序。有些人會說:「我已經(jīng)有OLAP的工具了,所以我不需要DataMining。」事實上兩者間是截然不同的,主要差異在于DataMining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡單來說,OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立;而DataMining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但DataMining是用工具在幫助做探索。

舉個例子來看,一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時,可能會先假設(shè)嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用OLAP的工具去驗證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但DataMining則不然,執(zhí)行DataMining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。DataMining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報表來確認(rèn)某些關(guān)系,是以DataMining此種自動找出甚至不會被懷疑過的數(shù)據(jù)模型與關(guān)系的特性,事實上已超越了我們經(jīng)驗、教育、想象力的限制,OLAP可以和DataMining互補,但這項特性是DataMining無法被OLAP取代的。

3、完整的DataMining包含哪些步驟?

以下提供一個DataMining的進行步驟以為參考:

1.理解業(yè)務(wù)與理解數(shù)據(jù);

2.獲取相關(guān)技術(shù)與知識;

3.整合與查詢數(shù)據(jù);

4.去除錯誤或不一致及不完整的數(shù)據(jù);

5.由數(shù)據(jù)選取樣本先行試驗;

6.建立數(shù)據(jù)模型

7.實際DataMining的分析工作;

8.測試與檢驗;

9.找出假設(shè)并提出解釋;

10.持續(xù)應(yīng)用于企業(yè)流程中。

由上述步驟可看出,DataMining牽涉了大量的準(zhǔn)備工作與規(guī)劃過程,事實上許多專家皆認(rèn)為整套DataMining的進行有80%的時間精力是花費在數(shù)據(jù)前置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知DataMining只是信息挖掘過程中的一個步驟而已,在進行此步驟前還有許多的工作要先完成。

4、DataMining包含哪些主要功能?

DataMining實際應(yīng)用功能可分為三大類六分項來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測類;Association和Sequence則屬于序列規(guī)則類。

Classification是根據(jù)一些變量的數(shù)值做計算,再依照結(jié)果作分類。(計算的結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為“可能會響應(yīng)”或是“可能不會響應(yīng)”兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實際的運作來測試;譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取樣來建立一個ClassificationModel,再利用這個Model來對數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測。

Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識來解讀這些分群的意義。

Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測一個連續(xù)數(shù)值的可能值。若將范圍擴大亦可利用LogisticRegression來預(yù)測類別變量,特別在廣泛運用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。

Time-SeriesForecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時間有關(guān)。Time-SeriesForecasting的工具可以處理有關(guān)時間的一些特性,譬如時間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性)。

Association是要找出在某一事件或是數(shù)據(jù)中會同時出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個顧客同時也會買牛奶的機率是85%。)

SequenceDiscovery與Association關(guān)系很密切,所不同的是Sequence Discovery中事件的相關(guān)是以時間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機率是68%)

5、Data Warehousing 和 Data Mining 的關(guān)系為何?

若將Data Warehousing(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù),也不是點石成金的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。

要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲存區(qū)內(nèi)。所以其實就是一個經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng)(Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來看,數(shù)據(jù)倉庫的目標(biāo)是在組織中,在正確的時間,將正確的數(shù)據(jù)交給正確的人。

許多人對于Data Warehousing和Data Mining時常混淆,不知如何分辨。其實,數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個新主題,利用計算機系統(tǒng)幫助我們操作、計算和思考,讓作業(yè)方式改變,決策方式也跟著改變。

數(shù)據(jù)倉庫本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫 中整合而來的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)昂哭中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個轉(zhuǎn)換及整合數(shù)據(jù)的過程,是建立一個數(shù)據(jù)倉庫最大的挑戰(zhàn)。因為將作業(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個數(shù)據(jù)倉庫的重點。綜上所述,數(shù)據(jù)倉庫應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed andsummarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉庫挖掘出對決策有用的

(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書,可添加個人微信號(dashenghuaer))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容