第2章 數據挖掘概述

標簽(空格分隔): 數據化運營

2.1 數據挖掘發展史
2.2 數據分析與數據挖掘的主要區別
2.3 數據挖掘的主要成熟技術以及在數據化運營中的主要應用
2.4 互聯網行業數據挖掘應用的特點

2.1 數據挖掘的發展史

始于20世紀下半葉
發展 1989年第11屆國際人工智能聯合會議 首次出現KDD(knowledge discovery in database)
進入21世紀,數據挖掘作為比較成熟的交叉學科,融合了數據庫、人工智能、機器學習、統計學、高性能計算、模式識別、神經網絡、數據可視化、信息檢索和空間數據分析等多個領域的理論核技術。

2.2 統計分析和數據挖掘的主要區別

兩者在很多情況下都是同根同源的。
相對于傳統的統計分析技術,數據挖掘有以下特點:

  1. 數據挖掘特別擅長處理大數據
  2. 數據挖掘在實踐中一般會借助數據挖掘工具
  3. 數據挖掘技術更多的是企業數據分析師、業務分析師在使用,而不是統計學家。
  4. 數據挖掘是統計分析技術的延伸和發展。
    數據挖掘與統計分析的明顯差別:
  5. 統計分析的基礎之一是概率困,在分析時,需要對數據分布和變量間的關系做假設而數據挖掘會自動尋找變量之間的關系。
  6. 統計分析在預測中長表現為一個或一組函數的關系式,數據挖掘在預測應用中的重點在于預測的結果,很多時候不會產生明確的關系式。
  7. 實踐應用中,統計分析常需要分析人員先做假設或判斷,然后利用數據分析技術來驗證該假設是否成立。數據挖掘讓算法自己去尋找數據中隱藏的關系或規律。

2.3 數據挖掘的主要成熟技術以及在數據化運營中的主要應用

決策樹
神經網絡
回歸
關聯分析
聚類
貝葉斯分類方法
支持向量機
主成份分析
假設檢驗

2.4 互聯網行業數據挖掘應用的特點

數據海量
分析周期段
分析失效性明顯變短
互聯網行業的顛覆性迅速、周期短

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容