CH1 統(tǒng)計學(xué)習(xí)方法概論|1.1 統(tǒng)計學(xué)習(xí)《統(tǒng)計學(xué)習(xí)方法》-學(xué)習(xí)筆記

文章原創(chuàng),最近更新:2018-06-8
課程來源: 李航-統(tǒng)計學(xué)習(xí)方法

1.統(tǒng)計學(xué)習(xí)的特點

統(tǒng)計學(xué)習(xí)(statistical learning)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科。統(tǒng)計學(xué)習(xí)也稱為統(tǒng)計機器學(xué)習(xí)statistical machine learning)

學(xué)習(xí)筆記:
這里重點的詞是模型、預(yù)測、分析

統(tǒng)計學(xué)習(xí)的主要特點是:
(1)統(tǒng)計學(xué)習(xí)以計算機及網(wǎng)絡(luò)為平臺,是建立在計算機及網(wǎng)絡(luò)之上的;(2)統(tǒng)計學(xué)習(xí)以數(shù)據(jù)為研究對象,是數(shù)據(jù)驅(qū)動的學(xué)科;
(3)統(tǒng)計學(xué)習(xí)的目的是對數(shù)據(jù)進行預(yù)測與分析;
(4)統(tǒng)計學(xué)習(xí)以方法為中心,統(tǒng)計學(xué)習(xí)方法構(gòu)建模型并應(yīng)用模型進行預(yù)測與分析;
(5)統(tǒng)計學(xué)習(xí)是概率論、統(tǒng)計學(xué)、信息論、計算理論、最優(yōu)化理論及計算機科學(xué)等多個領(lǐng)域的交叉學(xué)科,并且在發(fā)展中逐步形成獨自的理論體系與方法論

學(xué)習(xí)筆記:
統(tǒng)計學(xué)相關(guān)的課程,具體如下:《高等數(shù)學(xué)》、《概率論及數(shù)理統(tǒng)計》、《矩陣分析》、《數(shù)值分析》、《偏微分方程》等

2.統(tǒng)計學(xué)習(xí)的對象

統(tǒng)計學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學(xué)習(xí)的前提,這里的同類數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù),例如英文文章、互聯(lián)網(wǎng)網(wǎng)頁、數(shù)據(jù)庫中的數(shù)據(jù)等。由于它們具有統(tǒng)計規(guī)律性,所以可以用概率統(tǒng)計方法來加以處理。比如,可以用隨機變量描述數(shù)據(jù)中的特征,用概率分布描述數(shù)據(jù)的統(tǒng)計規(guī)律。

在統(tǒng)計學(xué)習(xí)過程中,以變量或變量組表示數(shù)據(jù)。數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類型。本書以討論離散變量的方法為主。另外,本書只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對數(shù)據(jù)進行分析與預(yù)測,對數(shù)據(jù)的觀測和收集等問題不作討論。

學(xué)習(xí)筆記:
統(tǒng)計學(xué)習(xí)的對象是數(shù)據(jù),同類數(shù)據(jù)都有一定的統(tǒng)計規(guī)律性,用概率統(tǒng)計方法來加以處理.

3.統(tǒng)計學(xué)習(xí)的目的

統(tǒng)計學(xué)習(xí)用于對數(shù)據(jù)進行預(yù)測與分析,特別是對未知新數(shù)據(jù)進行預(yù)測與分析。對數(shù)據(jù)的預(yù)測可以使計算機更加智能化,或者說使計算機的某些性能得到提高;對數(shù)據(jù)的分析可以讓人們獲取新的知識,給人們帶來新的發(fā)現(xiàn).

對數(shù)據(jù)的預(yù)測與分析是通過構(gòu)建概率統(tǒng)計模型實現(xiàn)的。統(tǒng)計學(xué)習(xí)總的目標就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型,以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析,同時也要考慮盡可能地提高學(xué)習(xí)效率.

學(xué)習(xí)筆記:
學(xué)習(xí)的目標:考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型,以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析.

4.統(tǒng)計學(xué)習(xí)的方法

統(tǒng)計學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測與分析。統(tǒng)計學(xué)習(xí)由監(jiān)督學(xué)習(xí)(supervised learning)、非監(jiān)督學(xué)習(xí)(unsupervised learning)、半監(jiān)督學(xué)習(xí)(semi-supervised learning)和強化學(xué)習(xí)(reinforcement learning)等組成.

本書主要討論監(jiān)督學(xué)習(xí),這種情況下統(tǒng)計學(xué)習(xí)的方法可以概括如下:從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā),假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的;并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)的集合,稱為假設(shè)空間(hypothesisspace);應(yīng)用某個評價準則(evaluation criterion),從假設(shè)空間中選取一個最優(yōu)的模型,使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)(test data)在給定的評價準則下有最優(yōu)的預(yù)測;最優(yōu)模型的選取由算法實現(xiàn)。這樣,統(tǒng)計學(xué)習(xí)方法包括模型的假設(shè)空間、模型選擇的準則以及模型學(xué)習(xí)的算法,稱其為統(tǒng)計學(xué)習(xí)方法的三要素,簡稱為模型(model)、策略(strategy)和算法(algorithm).

實現(xiàn)統(tǒng)計學(xué)習(xí)方法的步驟如下
(1)得到一個有限的訓(xùn)練數(shù)據(jù)集合;
(2)確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合;
(3)確定模型選擇的準則,即學(xué)習(xí)的策略;
(4)實現(xiàn)求解最優(yōu)模型的算法,即學(xué)習(xí)的算法;
(5)通過學(xué)習(xí)方法選擇最優(yōu)模型;
(6)利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)進行預(yù)測或分析
本書以介紹統(tǒng)計學(xué)習(xí)方法為主,特別是監(jiān)督學(xué)習(xí)方法,主要包括用于分類、標注與回歸問題的方法。這些方法在自然語言處理、信息檢索、文本數(shù)據(jù)挖掘等領(lǐng)

學(xué)習(xí)筆記:
1)統(tǒng)計學(xué)習(xí)由監(jiān)督學(xué)習(xí)(supervised learning)、非監(jiān)督學(xué)習(xí)(unsupervised learning)、半監(jiān)督學(xué)習(xí)(semi-supervised learning)和強化學(xué)習(xí)(reinforcement learning)等組成
2)學(xué)習(xí)方法的步驟:如上

5.統(tǒng)計學(xué)習(xí)的研究

統(tǒng)計學(xué)習(xí)研究一般包括統(tǒng)計學(xué)習(xí)方法(statistical learning method)、統(tǒng)計學(xué)習(xí)理論(statistical learning theory)及統(tǒng)計學(xué)習(xí)應(yīng)用(application of statistical learning)三個方面。統(tǒng)計學(xué)習(xí)方法的研究旨在開發(fā)新的學(xué)習(xí)方法;統(tǒng)計學(xué)習(xí)理論的研究在于探求統(tǒng)計學(xué)習(xí)方法的有效性與效率,以及統(tǒng)計學(xué)習(xí)的基本理論問題;統(tǒng)計學(xué)習(xí)應(yīng)用的研究主要考慮將統(tǒng)計學(xué)習(xí)方法應(yīng)用到實際問題中去,解決實際問題

學(xué)習(xí)筆記:
1)統(tǒng)計學(xué)習(xí)方法:開發(fā)新的學(xué)習(xí)方法
2)統(tǒng)計學(xué)習(xí)理論:統(tǒng)計學(xué)習(xí)方法的有效性與效率
3)統(tǒng)計學(xué)習(xí)應(yīng)用:應(yīng)用到實際問題中去,解決實際問題

6.統(tǒng)計學(xué)習(xí)的重要性

統(tǒng)計學(xué)習(xí)已被成功地應(yīng)用到人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機應(yīng)用領(lǐng)域中,并且成為這些領(lǐng)域的核心技術(shù)。

學(xué)習(xí)筆記:
應(yīng)用方法有:人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息.我比較關(guān)注的是數(shù)據(jù)挖掘.

統(tǒng)計學(xué)習(xí)學(xué)科在科學(xué)技術(shù)中的重要性主要體現(xiàn)在以下幾個方面:

(1)統(tǒng)計學(xué)習(xí)是處理海量數(shù)據(jù)的有效方法。我們處于一個信息爆炸的時代,海量數(shù)據(jù)的處理與利用是人們必然的需求,現(xiàn)實中的數(shù)據(jù)不但規(guī)模大,而且常常具有不確定性,統(tǒng)計學(xué)習(xí)往往是處理這類數(shù)據(jù)最強有力的工具
(2)統(tǒng)計學(xué)習(xí)是計算機智能化的有效手段,。智能化是計算機發(fā)展的必然趨勢,也是計算機技術(shù)研究與開發(fā)的主要目標。,近幾十年來,人工智能等領(lǐng)域的研究表明,利用統(tǒng)計學(xué)習(xí)模仿人類智能的方法,雖有一定的局限性,但仍然是實現(xiàn)這目標的最有效手段
(3)統(tǒng)計學(xué)習(xí)是計算機科學(xué)發(fā)展的一個重要組成部分。可以認為計算機科學(xué)由三維組成:系統(tǒng)、計算、信息。統(tǒng)計學(xué)習(xí)主要屬于信息這一維,并在其中起著核心作用.

學(xué)習(xí)筆記:
作用:處理海量數(shù)據(jù)/計算機智能化

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,494評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,283評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,714評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,186評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,410評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,940評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,776評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,976評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,210評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,654評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,958評論 2 373

推薦閱讀更多精彩內(nèi)容