文章原創(chuàng),最近更新:2018-06-8
課程來源: 李航-統(tǒng)計學(xué)習(xí)方法
1.統(tǒng)計學(xué)習(xí)的特點
統(tǒng)計學(xué)習(xí)(statistical learning)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科。統(tǒng)計學(xué)習(xí)也稱為統(tǒng)計機器學(xué)習(xí)statistical machine learning)
學(xué)習(xí)筆記:
這里重點的詞是模型、預(yù)測、分析
統(tǒng)計學(xué)習(xí)的主要特點是:
(1)統(tǒng)計學(xué)習(xí)以計算機及網(wǎng)絡(luò)為平臺,是建立在計算機及網(wǎng)絡(luò)之上的;(2)統(tǒng)計學(xué)習(xí)以數(shù)據(jù)為研究對象,是數(shù)據(jù)驅(qū)動的學(xué)科;
(3)統(tǒng)計學(xué)習(xí)的目的是對數(shù)據(jù)進行預(yù)測與分析;
(4)統(tǒng)計學(xué)習(xí)以方法為中心,統(tǒng)計學(xué)習(xí)方法構(gòu)建模型并應(yīng)用模型進行預(yù)測與分析;
(5)統(tǒng)計學(xué)習(xí)是概率論、統(tǒng)計學(xué)、信息論、計算理論、最優(yōu)化理論及計算機科學(xué)等多個領(lǐng)域的交叉學(xué)科,并且在發(fā)展中逐步形成獨自的理論體系與方法論
學(xué)習(xí)筆記:
統(tǒng)計學(xué)相關(guān)的課程,具體如下:《高等數(shù)學(xué)》、《概率論及數(shù)理統(tǒng)計》、《矩陣分析》、《數(shù)值分析》、《偏微分方程》等
2.統(tǒng)計學(xué)習(xí)的對象
統(tǒng)計學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學(xué)習(xí)的前提,這里的同類數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù),例如英文文章、互聯(lián)網(wǎng)網(wǎng)頁、數(shù)據(jù)庫中的數(shù)據(jù)等。由于它們具有統(tǒng)計規(guī)律性,所以可以用概率統(tǒng)計方法來加以處理。比如,可以用隨機變量描述數(shù)據(jù)中的特征,用概率分布描述數(shù)據(jù)的統(tǒng)計規(guī)律。
在統(tǒng)計學(xué)習(xí)過程中,以變量或變量組表示數(shù)據(jù)。數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類型。本書以討論離散變量的方法為主。另外,本書只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對數(shù)據(jù)進行分析與預(yù)測,對數(shù)據(jù)的觀測和收集等問題不作討論。
學(xué)習(xí)筆記:
統(tǒng)計學(xué)習(xí)的對象是數(shù)據(jù),同類數(shù)據(jù)都有一定的統(tǒng)計規(guī)律性,用概率統(tǒng)計方法來加以處理.
3.統(tǒng)計學(xué)習(xí)的目的
統(tǒng)計學(xué)習(xí)用于對數(shù)據(jù)進行預(yù)測與分析,特別是對未知新數(shù)據(jù)進行預(yù)測與分析。對數(shù)據(jù)的預(yù)測可以使計算機更加智能化,或者說使計算機的某些性能得到提高;對數(shù)據(jù)的分析可以讓人們獲取新的知識,給人們帶來新的發(fā)現(xiàn).
對數(shù)據(jù)的預(yù)測與分析是通過構(gòu)建概率統(tǒng)計模型實現(xiàn)的。統(tǒng)計學(xué)習(xí)總的目標就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型,以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析,同時也要考慮盡可能地提高學(xué)習(xí)效率.
學(xué)習(xí)筆記:
學(xué)習(xí)的目標:考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型,以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析.
4.統(tǒng)計學(xué)習(xí)的方法
統(tǒng)計學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測與分析。統(tǒng)計學(xué)習(xí)由監(jiān)督學(xué)習(xí)(supervised learning)、非監(jiān)督學(xué)習(xí)(unsupervised learning)、半監(jiān)督學(xué)習(xí)(semi-supervised learning)和強化學(xué)習(xí)(reinforcement learning)等組成.
本書主要討論監(jiān)督學(xué)習(xí),這種情況下統(tǒng)計學(xué)習(xí)的方法可以概括如下:從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā),假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的;并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)的集合,稱為假設(shè)空間(hypothesisspace);應(yīng)用某個評價準則(evaluation criterion),從假設(shè)空間中選取一個最優(yōu)的模型,使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)(test data)在給定的評價準則下有最優(yōu)的預(yù)測;最優(yōu)模型的選取由算法實現(xiàn)。這樣,統(tǒng)計學(xué)習(xí)方法包括模型的假設(shè)空間、模型選擇的準則以及模型學(xué)習(xí)的算法,稱其為統(tǒng)計學(xué)習(xí)方法的三要素,簡稱為模型(model)、策略(strategy)和算法(algorithm).
實現(xiàn)統(tǒng)計學(xué)習(xí)方法的步驟如下
(1)得到一個有限的訓(xùn)練數(shù)據(jù)集合;
(2)確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合;
(3)確定模型選擇的準則,即學(xué)習(xí)的策略;
(4)實現(xiàn)求解最優(yōu)模型的算法,即學(xué)習(xí)的算法;
(5)通過學(xué)習(xí)方法選擇最優(yōu)模型;
(6)利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)進行預(yù)測或分析
本書以介紹統(tǒng)計學(xué)習(xí)方法為主,特別是監(jiān)督學(xué)習(xí)方法,主要包括用于分類、標注與回歸問題的方法。這些方法在自然語言處理、信息檢索、文本數(shù)據(jù)挖掘等領(lǐng)
學(xué)習(xí)筆記:
1)統(tǒng)計學(xué)習(xí)由監(jiān)督學(xué)習(xí)(supervised learning)、非監(jiān)督學(xué)習(xí)(unsupervised learning)、半監(jiān)督學(xué)習(xí)(semi-supervised learning)和強化學(xué)習(xí)(reinforcement learning)等組成
2)學(xué)習(xí)方法的步驟:如上
5.統(tǒng)計學(xué)習(xí)的研究
統(tǒng)計學(xué)習(xí)研究一般包括統(tǒng)計學(xué)習(xí)方法(statistical learning method)、統(tǒng)計學(xué)習(xí)理論(statistical learning theory)及統(tǒng)計學(xué)習(xí)應(yīng)用(application of statistical learning)三個方面。統(tǒng)計學(xué)習(xí)方法的研究旨在開發(fā)新的學(xué)習(xí)方法;統(tǒng)計學(xué)習(xí)理論的研究在于探求統(tǒng)計學(xué)習(xí)方法的有效性與效率,以及統(tǒng)計學(xué)習(xí)的基本理論問題;統(tǒng)計學(xué)習(xí)應(yīng)用的研究主要考慮將統(tǒng)計學(xué)習(xí)方法應(yīng)用到實際問題中去,解決實際問題
學(xué)習(xí)筆記:
1)統(tǒng)計學(xué)習(xí)方法:開發(fā)新的學(xué)習(xí)方法
2)統(tǒng)計學(xué)習(xí)理論:統(tǒng)計學(xué)習(xí)方法的有效性與效率
3)統(tǒng)計學(xué)習(xí)應(yīng)用:應(yīng)用到實際問題中去,解決實際問題
6.統(tǒng)計學(xué)習(xí)的重要性
統(tǒng)計學(xué)習(xí)已被成功地應(yīng)用到人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機應(yīng)用領(lǐng)域中,并且成為這些領(lǐng)域的核心技術(shù)。
學(xué)習(xí)筆記:
應(yīng)用方法有:人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息.我比較關(guān)注的是數(shù)據(jù)挖掘.
統(tǒng)計學(xué)習(xí)學(xué)科在科學(xué)技術(shù)中的重要性主要體現(xiàn)在以下幾個方面:
(1)統(tǒng)計學(xué)習(xí)是處理海量數(shù)據(jù)的有效方法。我們處于一個信息爆炸的時代,海量數(shù)據(jù)的處理與利用是人們必然的需求,現(xiàn)實中的數(shù)據(jù)不但規(guī)模大,而且常常具有不確定性,統(tǒng)計學(xué)習(xí)往往是處理這類數(shù)據(jù)最強有力的工具
(2)統(tǒng)計學(xué)習(xí)是計算機智能化的有效手段,。智能化是計算機發(fā)展的必然趨勢,也是計算機技術(shù)研究與開發(fā)的主要目標。,近幾十年來,人工智能等領(lǐng)域的研究表明,利用統(tǒng)計學(xué)習(xí)模仿人類智能的方法,雖有一定的局限性,但仍然是實現(xiàn)這目標的最有效手段
(3)統(tǒng)計學(xué)習(xí)是計算機科學(xué)發(fā)展的一個重要組成部分。可以認為計算機科學(xué)由三維組成:系統(tǒng)、計算、信息。統(tǒng)計學(xué)習(xí)主要屬于信息這一維,并在其中起著核心作用.
學(xué)習(xí)筆記:
作用:處理海量數(shù)據(jù)/計算機智能化