讀書(shū)計(jì)劃- 數(shù)據(jù)分析實(shí)戰(zhàn)45講?|?02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么?20181224

一,數(shù)據(jù)挖掘的基本流程

在正式講數(shù)據(jù)挖掘知識(shí)清單之前,我先和你聊聊數(shù)據(jù)挖掘的基本流程。

數(shù)據(jù)挖掘的過(guò)程可以分成以下 6 個(gè)步驟。

1. 商業(yè)理解:數(shù)據(jù)挖掘不是我們的目的,我們的目的是更好地幫助業(yè)務(wù),所以第一步我們要從商業(yè)的角度理解項(xiàng)目需求,在這個(gè)基礎(chǔ)上,再對(duì)數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義。

2. 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行探索,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗(yàn)證等。這有助于你對(duì)收集的數(shù)據(jù)有個(gè)初步的認(rèn)知。

3. 數(shù)據(jù)準(zhǔn)備:開(kāi)始收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作。

4. 模型建立:選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類(lèi)結(jié)果。

5. 模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)。

6. 上線發(fā)布:模型的作用是從數(shù)據(jù)中找到金礦,也就是我們所說(shuō)的“知識(shí)”,獲得的知識(shí)需要轉(zhuǎn)化成用戶可以使用的方式,呈現(xiàn)的形式可以是一份報(bào)告,也可以是實(shí)現(xiàn)一個(gè)比較復(fù)雜的、可重復(fù)的數(shù)據(jù)挖掘過(guò)程。數(shù)據(jù)挖掘結(jié)果如果是日常運(yùn)營(yíng)的一部分,那么后續(xù)的監(jiān)控和維護(hù)就會(huì)變得重要。

二,數(shù)據(jù)挖掘的十大算法

為了進(jìn)行數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)科學(xué)家們提出了各種模型,在眾多的數(shù)據(jù)挖掘模型中,國(guó)際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評(píng)選出了十大經(jīng)典的算法。

按照不同的目的,我可以將這些算法分成四類(lèi),以便你更好的理解。

l 分類(lèi)算法:C4.5,樸素貝葉斯(Naive Bayes),SVM,KNN,Adaboost,CART

l 聚類(lèi)算法:K-Means,EM

l 關(guān)聯(lián)分析:Apriori

l 連接分析:PageRank

1. C4.5

C4.5 算法是得票最高的算法,可以說(shuō)是十大算法之首。C4.5 是決策樹(shù)的算法,它創(chuàng)造性地在決策樹(shù)構(gòu)造過(guò)程中就進(jìn)行了剪枝,并且可以處理連續(xù)的屬性,也能對(duì)不完整的數(shù)據(jù)進(jìn)行處理。它可以說(shuō)是決策樹(shù)分類(lèi)中,具有里程碑式意義的算法。

2. 樸素貝葉斯(Naive Bayes)

樸素貝葉斯模型是基于概率論的原理,它的思想是這樣的:對(duì)于給出的未知物體想要進(jìn)行分類(lèi),就需要求解在這個(gè)未知物體出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為這個(gè)未知物體屬于哪個(gè)分類(lèi)。

3. SVM

SVM 的中文叫支持向量機(jī),英文是 Support Vector Machine,簡(jiǎn)稱 SVM。SVM 在訓(xùn)練中建立了一個(gè)超平面的分類(lèi)模型。如果你對(duì)超平面不理解,沒(méi)有關(guān)系,我在后面的算法篇會(huì)給你進(jìn)行介紹。

4. KNN

KNN 也叫 K 最近鄰算法,英文是 K-Nearest Neighbor。所謂 K 近鄰,就是每個(gè)樣本都可以用它最接近的 K 個(gè)鄰居來(lái)代表。如果一個(gè)樣本,它的 K 個(gè)最接近的鄰居都屬于分類(lèi) A,那么這個(gè)樣本也屬于分類(lèi) A。

5. AdaBoost

Adaboost 在訓(xùn)練中建立了一個(gè)聯(lián)合的分類(lèi)模型。boost 在英文中代表提升的意思,所以 Adaboost 是個(gè)構(gòu)建分類(lèi)器的提升算法。它可以讓我們多個(gè)弱的分類(lèi)器組成一個(gè)強(qiáng)的分類(lèi)器,所以 Adaboost 也是一個(gè)常用的分類(lèi)算法。

6. CART

CART 代表分類(lèi)和回歸樹(shù),英文是 Classification and Regression Trees。像英文一樣,它構(gòu)建了兩棵樹(shù):一顆是分類(lèi)樹(shù),另一個(gè)是回歸樹(shù)。和 C4.5 一樣,它是一個(gè)決策樹(shù)學(xué)習(xí)方法。

7. Apriori

Apriori 是一種挖掘關(guān)聯(lián)規(guī)則(association rules)的算法,它通過(guò)挖掘頻繁項(xiàng)集(frequent item sets)來(lái)揭示物品之間的關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用到商業(yè)挖掘和網(wǎng)絡(luò)安全等領(lǐng)域中。頻繁項(xiàng)集是指經(jīng)常出現(xiàn)在一起的物品的集合,關(guān)聯(lián)規(guī)則暗示著兩種物品之間可能存在很強(qiáng)的關(guān)系。

8. K-Means

K-Means 算法是一個(gè)聚類(lèi)算法。你可以這么理解,最終我想把物體劃分成 K 類(lèi)。假設(shè)每個(gè)類(lèi)別里面,都有個(gè)“中心點(diǎn)”,即意見(jiàn)領(lǐng)袖,它是這個(gè)類(lèi)別的核心。現(xiàn)在我有一個(gè)新點(diǎn)要?dú)w類(lèi),這時(shí)候就只要計(jì)算這個(gè)新點(diǎn)與 K 個(gè)中心點(diǎn)的距離,距離哪個(gè)中心點(diǎn)近,就變成了哪個(gè)類(lèi)別。

9. EM

EM 算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種方法。原理是這樣的:假設(shè)我們想要評(píng)估參數(shù) A 和參數(shù) B,在開(kāi)始狀態(tài)下二者都是未知的,并且知道了 A 的信息就可以得到 B 的信息,反過(guò)來(lái)知道了 B 也就得到了 A。可以考慮首先賦予 A 某個(gè)初值,以此得到 B 的估值,然后從 B 的估值出發(fā),重新估計(jì) A 的取值,這個(gè)過(guò)程一直持續(xù)到收斂為止。

EM 算法經(jīng)常用于聚類(lèi)和機(jī)器學(xué)習(xí)領(lǐng)域中。

10. PageRank

PageRank 起源于論文影響力的計(jì)算方式,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強(qiáng)。同樣 PageRank 被 Google 創(chuàng)造性地應(yīng)用到了網(wǎng)頁(yè)權(quán)重的計(jì)算中:當(dāng)一個(gè)頁(yè)面鏈出的頁(yè)面越多,說(shuō)明這個(gè)頁(yè)面的“參考文獻(xiàn)”越多,當(dāng)這個(gè)頁(yè)面被鏈入的頻率越高,說(shuō)明這個(gè)頁(yè)面被引用的次數(shù)越高。基于這個(gè)原理,我們可以得到網(wǎng)站的權(quán)重劃分。

算法可以說(shuō)是數(shù)據(jù)挖掘的靈魂,也是最精華的部分。這 10 個(gè)經(jīng)典算法在整個(gè)數(shù)據(jù)挖掘領(lǐng)域中的得票最高的,后面的一些其他算法也基本上都是在這個(gè)基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新。今天你先對(duì)十大算法有一個(gè)初步的了解,你只需要做到心中有數(shù)就可以了,具體內(nèi)容不理解沒(méi)有關(guān)系,后面我會(huì)詳細(xì)給你進(jìn)行講解。

三,數(shù)據(jù)挖掘的數(shù)學(xué)原理

我說(shuō)了這么多數(shù)據(jù)挖掘中的經(jīng)典算法,但是如果你不了解概率論和數(shù)理統(tǒng)計(jì),還是很難掌握算法的本質(zhì);如果你不懂線性代數(shù),就很難理解矩陣和向量運(yùn)作在數(shù)據(jù)挖掘中的價(jià)值;如果你沒(méi)有最優(yōu)化方法的概念,就對(duì)迭代收斂理解不深。所以說(shuō),想要更深刻地理解數(shù)據(jù)挖掘的方法,就非常有必要了解它后背的數(shù)學(xué)原理。

1. 概率論與數(shù)理統(tǒng)計(jì)

概率論在我們上大學(xué)的時(shí)候,基本上都學(xué)過(guò),不過(guò)大學(xué)里老師教的內(nèi)容,偏概率的多一些,統(tǒng)計(jì)部分講得比較少。在數(shù)據(jù)挖掘里使用到概率論的地方就比較多了。比如條件概率、獨(dú)立性的概念,以及隨機(jī)變量、多維隨機(jī)變量的概念。

很多算法的本質(zhì)都與概率論相關(guān),所以說(shuō)概率論與數(shù)理統(tǒng)計(jì)是數(shù)據(jù)挖掘的重要數(shù)學(xué)基礎(chǔ)。

2. 線性代數(shù)

向量和矩陣是線性代數(shù)中的重要知識(shí)點(diǎn),它被廣泛應(yīng)用到數(shù)據(jù)挖掘中,比如我們經(jīng)常會(huì)把對(duì)象抽象為矩陣的表示,一幅圖像就可以抽象出來(lái)是一個(gè)矩陣,我們也經(jīng)常計(jì)算特征值和特征向量,用特征向量來(lái)近似代表物體的特征。這個(gè)是大數(shù)據(jù)降維的基本思路。

基于矩陣的各種運(yùn)算,以及基于矩陣的理論成熟,可以幫我們解決很多實(shí)際問(wèn)題,比如 PCA 方法、SVD 方法,以及 MF、NMF 方法等在數(shù)據(jù)挖掘中都有廣泛的應(yīng)用。

3. 圖論

社交網(wǎng)絡(luò)的興起,讓圖論的應(yīng)用也越來(lái)越廣。人與人的關(guān)系,可以用圖論上的兩個(gè)節(jié)點(diǎn)來(lái)進(jìn)行連接,節(jié)點(diǎn)的度可以理解為一個(gè)人的朋友數(shù)。我們都聽(tīng)說(shuō)過(guò)人脈的六度理論,在 Facebook 上被證明平均一個(gè)人與另一個(gè)人的連接,只需要 3.57 個(gè)人。當(dāng)然圖論對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的分析非常有效,同時(shí)圖論也在關(guān)系挖掘和圖像分割中有重要的作用。

4. 最優(yōu)化方法

最優(yōu)化方法相當(dāng)于機(jī)器學(xué)習(xí)中自我學(xué)習(xí)的過(guò)程,當(dāng)機(jī)器知道了目標(biāo),訓(xùn)練后與結(jié)果存在偏差就需要迭代調(diào)整,那么最優(yōu)化就是這個(gè)調(diào)整的過(guò)程。一般來(lái)說(shuō),這個(gè)學(xué)習(xí)和迭代的過(guò)程是漫長(zhǎng)、隨機(jī)的。最優(yōu)化方法的提出就是用更短的時(shí)間得到收斂,取得更好的效果。

總結(jié)

今天我列了下學(xué)習(xí)數(shù)據(jù)挖掘你要掌握的知識(shí)清單,只有你對(duì)數(shù)據(jù)挖掘的流程、算法、原理有更深的理解,你才能在實(shí)際工作中更好地運(yùn)用,我將在后面的章節(jié)中對(duì)它們進(jìn)行一一介紹。

最后給你留道思考題吧。

今天我給你講了如何學(xué)習(xí)數(shù)據(jù)挖掘,你從中有什么樣的體會(huì)呢?如果某電商網(wǎng)站想挖掘商品之間的關(guān)聯(lián)關(guān)系,從而提升銷(xiāo)售額,你覺(jué)得可以采用上面的哪個(gè)算法?為什么?

寫(xiě)留言

精選留言

vincent

6

數(shù)學(xué)太差,畢業(yè)很久了怎么學(xué)習(xí)呢?

2018-12-19

 作者回復(fù)

不用擔(dān)心,很多人都有這個(gè)問(wèn)題。我覺(jué)得你可以嘗試:

1、培養(yǎng)興趣:興趣是最好的老師,我們大自然的很多科學(xué)都是和數(shù)學(xué)相關(guān),比如為什么雪花是六邊形?

2、刻意訓(xùn)練:你不需要通過(guò)做項(xiàng)目來(lái)做完整的數(shù)學(xué)訓(xùn)練,比如你和朋友去吃飯的時(shí)候,你可以腦算下一共花了多少錢(qián)?很多時(shí)候,心算是數(shù)學(xué)的一個(gè)能力

3、價(jià)值暗示:數(shù)學(xué)可以幫你很多,尤其是在算法效率、代碼質(zhì)量上。很明顯,數(shù)學(xué)好的人,寫(xiě)出來(lái)的算法效率也更高。

所以一個(gè)代碼完成后,你可以問(wèn)自己個(gè)問(wèn)題:還有沒(méi)有更好的方法?

2018-12-19

五岳尋仙

2

總結(jié)與思考:

1. 商業(yè)理解:如老師之前所講,數(shù)據(jù)挖掘是工具,要么幫我批處理,要么拓展我們思考的規(guī)模。也就是說(shuō)問(wèn)題本身是人能夠處理得了的,只是受限與時(shí)間太長(zhǎng)或者規(guī)模太大,需要借助計(jì)算機(jī)。人工智能是人思考的放大,如果一個(gè)問(wèn)題人都想不通,指望借助人工智能算法解決,目前恐怕還不現(xiàn)實(shí)。遇到問(wèn)題,首先要“商業(yè)理解”,形成一個(gè)思路,然后考慮如何借助算法。

2. 問(wèn)題歸類(lèi):要解決的問(wèn)題是屬于分類(lèi),回歸,聚類(lèi),還是關(guān)聯(lián)分析等。每種類(lèi)別的問(wèn)題都有相對(duì)應(yīng)的算法。不過(guò)有時(shí)候,對(duì)數(shù)據(jù)做不同的處理,能使問(wèn)題適用于不同的算法。

3. 數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備已經(jīng)能提現(xiàn)個(gè)人思想了,處理常規(guī)的缺失值處理、標(biāo)準(zhǔn)化/歸一化,更重要的是所謂的“特征工程”,它決定了數(shù)據(jù)呈現(xiàn)的方式。同樣的數(shù)據(jù),呈現(xiàn)方式不同,算法學(xué)到的東西也不同。

4. 模型評(píng)估。有很多不同的評(píng)估指標(biāo),需要根據(jù)具體問(wèn)題選擇。模型的訓(xùn)練是一個(gè)最優(yōu)化問(wèn)題,目標(biāo)不同,優(yōu)化的方向也不同。

課后思考題:

根據(jù)老師文中講到的方法,我覺(jué)得有如下這些方法可以用來(lái)做商品間關(guān)聯(lián)分析:

1. Apriori:文中提到是通過(guò)挖掘頻繁項(xiàng)集,來(lái)揭示商品間關(guān)系。(不太了解這個(gè)算法,期待后續(xù)學(xué)習(xí))

2. KNN:通過(guò)臨近商品,判斷該商品的特征。我不確定是否試用,但感覺(jué)應(yīng)該能解釋商品間的相似性。

以上是自己對(duì)課程的理解,有不對(duì)的地方,請(qǐng)老師和大家指正。

2018-12-19

房經(jīng)寶

1

C4.5算法中的剪枝是什么意思?機(jī)器學(xué)習(xí)中的梯度下降法是不是也是以最優(yōu)化方法為數(shù)學(xué)基礎(chǔ)的?

2018-12-19

章靜

1

(1)數(shù)據(jù)挖掘?qū)W習(xí)方法體會(huì):有了知識(shí)清單,相當(dāng)于有了一個(gè)系統(tǒng)思維在那,對(duì)快速識(shí)別問(wèn)題的確很有幫助~很好的方法方便實(shí)踐,就像巴菲特和芒格的投資是使用的公司盡調(diào)清單一樣,MECE的解決問(wèn)題

(2)基于電商商品的關(guān)聯(lián)進(jìn)行推薦從而提高銷(xiāo)售的話,個(gè)人認(rèn)為是Apriori算法,其為了提取頻繁項(xiàng)集和一定置信度的關(guān)聯(lián)規(guī)則,即用戶購(gòu)買(mǎi)了X產(chǎn)品有多大概率去買(mǎi)Y,根據(jù)置信度高的原則推薦

2018-12-19

 作者回復(fù)

總結(jié)的很好,大家可以看下。尤其是用到了MECE原則

2018-12-19

一個(gè)小機(jī)靈鬼

0

我現(xiàn)在是在校學(xué)生,我想問(wèn)一下對(duì)于概率論和線代想要學(xué)好數(shù)據(jù)分析需要學(xué)到什么程度

2018-12-19

印第安老斑鳩

0

沒(méi)有接受過(guò)概率論和線性代數(shù)的學(xué)習(xí),能跟上課程嗎

2018-12-19

 作者回復(fù)

可以的 放心吧

2018-12-19

チカラ

0

數(shù)據(jù)挖掘感覺(jué)是整個(gè)流程中類(lèi)似發(fā)動(dòng)機(jī)引擎一樣的作用,應(yīng)該要先要針對(duì)自己想要分析的問(wèn)題的進(jìn)行抽象出來(lái)后,再想要去挖掘哪方面的數(shù)據(jù)吧。那么多算法,還不怎么了解,看起來(lái)得自己先補(bǔ)補(bǔ)課。。

2018-12-19

 作者回復(fù)

慢慢來(lái) 每次課程都跟上 及時(shí)整理筆記 養(yǎng)成好習(xí)慣

2018-12-19

蔣三折

0

感謝老師,讓我這樣只學(xué)過(guò)一點(diǎn)醫(yī)藥統(tǒng)計(jì)學(xué),轉(zhuǎn)型無(wú)門(mén)的小白有機(jī)會(huì)系統(tǒng)地學(xué)習(xí)數(shù)據(jù)分析。

以下是幾點(diǎn)疑問(wèn):

1 可以看到分類(lèi)算法最多,也就是說(shuō)分類(lèi)是數(shù)據(jù)挖掘中最難的?或者說(shuō)不同的需求下分類(lèi)的要求不同導(dǎo)致了不同分類(lèi)方法的產(chǎn)生?是不是用不同的分類(lèi)方法做同一個(gè)項(xiàng)目得出的結(jié)果也會(huì)不同呢?

2 什么叫“減枝”?連續(xù)的屬性,是不是指身高之類(lèi)的具有連續(xù)性的數(shù)據(jù)?

3 KNN算法中,怎么樣算作“近鄰”呢?那“分散的”數(shù)據(jù)也能用這種算法嗎?是不是只適用于有序的數(shù)據(jù)呢?

4 Apriori在網(wǎng)絡(luò)安全中的應(yīng)用,是不是可以實(shí)現(xiàn)類(lèi)似于米國(guó)當(dāng)年波士頓爆炸案之后,因?yàn)橘I(mǎi)了個(gè)高壓鍋被查水表,這樣的操作?

以上,謝謝!~

2018-12-19

 作者回復(fù)

1、關(guān)于分類(lèi)算法

這些分類(lèi)算法都是工具,出發(fā)點(diǎn)是他們看待“分類(lèi)”的視角不同,并不代表這些結(jié)構(gòu)是不同的,當(dāng)然模型算法有適合與否,需要你來(lái)驗(yàn)證哪個(gè)算法針對(duì)你的問(wèn)題是有效的

分類(lèi)算法涉及到數(shù)學(xué)原理,也不能說(shuō)是最難的,當(dāng)你懂了這些原理之后,就會(huì)容易很多

2、關(guān)于連續(xù)屬性和剪枝

你說(shuō)的沒(méi)錯(cuò),身高這種存在可以無(wú)限分割的數(shù)值可能時(shí),就是連續(xù)屬性。

剪枝,是避免過(guò)擬合的一種方式。這個(gè)在決策樹(shù)里,我會(huì)講到。你先記住這個(gè)概念就好

3、關(guān)于KNN

你可以想象一幅畫(huà)面,如果一個(gè)畫(huà)面上有很多點(diǎn)。那么距離點(diǎn)A,一定會(huì)有K個(gè)鄰居。當(dāng)然這個(gè)距離你可以自己來(lái)定義(通常使用歐氏距離或曼哈頓距離)。在實(shí)際操作工程中,你也會(huì)給出定義距離的計(jì)算方式,這樣就可以比較遠(yuǎn)近了

4、關(guān)于Apriori案例

你說(shuō)的這個(gè)是個(gè)有趣的例子!把高壓鍋和爆炸物進(jìn)行了關(guān)聯(lián)

感謝你的分享

2018-12-19

sarach

0

一直對(duì)數(shù)據(jù)挖掘感興趣,但沒(méi)有找到合適的學(xué)習(xí)方法,通過(guò)這節(jié)課 系統(tǒng)的對(duì)數(shù)據(jù)挖掘算法整體有了個(gè)認(rèn)識(shí);希望之后的每一天都可以進(jìn)步·~

課后思考題:

我覺(jué)得可以采用? ‘樸素貝葉斯(Naive Bayes)’? 對(duì)商品進(jìn)行分類(lèi);

? ? ? ? ? ? ? ? ? ? ? ‘ KNN ’ 商品的分類(lèi) 鄰近算法 知道有哪些相關(guān)的 分類(lèi);

? ? ? ? ? ? ? ? ? ? ? 使用關(guān)聯(lián)Apriori 算法 對(duì)購(gòu)買(mǎi)過(guò)相關(guān)品類(lèi)的人進(jìn)行推薦;來(lái)提升銷(xiāo)售額;

麻煩老師點(diǎn)評(píng)是否正確?

2018-12-19

小熊貓

0

請(qǐng)問(wèn)有哪些書(shū)單或者網(wǎng)站可以推薦呢?希望后面能出一節(jié)介紹下一些書(shū)單和網(wǎng)站

2018-12-19

草莓味冰糕

0

①知識(shí)體系的構(gòu)建非常重要,通過(guò)數(shù)據(jù)挖掘的基本流程,將算法與實(shí)際應(yīng)用連接起來(lái)的能力對(duì)一個(gè)數(shù)據(jù)分析師是十分重要的。

②電商想挖掘的商品之間的聯(lián)系,很像以前所聽(tīng)說(shuō)過(guò)的購(gòu)物籃子分析,記得的例子有為什么超市將啤酒和紙尿褲、面包和牛奶放在臨近的地方,利用的算法Apriori算法,計(jì)算各頻繁項(xiàng)同時(shí)發(fā)生的概率,就能很好的給客戶推薦其想要一起購(gòu)買(mǎi)的商品。也可以利用Apriori算法,組建電商針對(duì)客戶的購(gòu)物套餐等。

2018-12-19

0

我覺(jué)得應(yīng)該是關(guān)聯(lián)分析算法,比如說(shuō)Apriori關(guān)聯(lián)規(guī)則算法,一般提到這一挖掘算法就想到經(jīng)典的“啤酒魚(yú)尿布”的案例,這跟老師所提出的某電商網(wǎng)站想挖掘商品之間的關(guān)聯(lián)關(guān)系,從而提升銷(xiāo)售額的問(wèn)題是類(lèi)似的。此外,目前應(yīng)用的比較熱的就是協(xié)同過(guò)濾方法,包括基于用戶的和基于商品的,這個(gè)應(yīng)用也是十分廣泛。此外,想請(qǐng)教老師:商品推薦中冷啟動(dòng)的問(wèn)題有什么比較好的方法?謝謝

2018-12-19

魚(yú)魚(yú)魚(yú)培填

0

感覺(jué)要學(xué)習(xí)的東西還很多,算法的理解需要數(shù)學(xué)原理的支撐,老師講解算法的時(shí)候是否會(huì)詳解運(yùn)用的數(shù)學(xué)原理呢?

思考題:關(guān)聯(lián)關(guān)系首先就想到使用Apriori,覺(jué)得樸素貝葉斯也可以,因?yàn)檫@個(gè)算法也可以對(duì)商品分類(lèi),挖掘商品的關(guān)聯(lián)。剛學(xué)習(xí),對(duì)算法理解不深,希望老師指正

在@Alex王偉健的基礎(chǔ)上整理了筆記 https://mubu.com/doc/iAUqDB8iIf,希望大家能相互交流

2018-12-19

 作者回復(fù)

感謝分享,Apriori和貝葉斯網(wǎng)絡(luò) 都是不錯(cuò)的思路。基于貝葉斯網(wǎng)絡(luò)也可以做推薦算法。Apriori應(yīng)該算是“購(gòu)物籃問(wèn)題”中常用的算法

2018-12-19

告別流浪的喵

0

K-Means(先聚類(lèi))、(KNN)再分類(lèi)、以及Apriori算法,可以用來(lái)做商品分析。

2018-12-19

Destroy、

0

EM 算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種方法。這句話中的最大似然估計(jì)我一開(kāi)始還以為是寫(xiě)錯(cuò)了,后來(lái)查了下原來(lái)‘最大似然估計(jì)’是一種統(tǒng)計(jì)方法。

課后題:Apriori

2018-12-19

 作者回復(fù)

對(duì)的 似然就是可能性的意思,其實(shí)如果說(shuō)“最大可能性估計(jì)”一般人都能理解,不過(guò)術(shù)語(yǔ)上,我們還是叫“最大似然估計(jì)”

2018-12-19

AaronYu

0

體會(huì):數(shù)據(jù)挖掘需要概率論與數(shù)理統(tǒng)計(jì),線性代數(shù)等底層數(shù)學(xué)知識(shí)作為基礎(chǔ)。另外,數(shù)據(jù)挖掘只是一個(gè)手段,工具,是要來(lái)完成我們對(duì)業(yè)務(wù)的訴求的,不可本末倒置。

思考題:采用 Apriori 算法,通過(guò)挖掘頻繁項(xiàng)集來(lái)揭示商品間的關(guān)聯(lián)關(guān)系,很適用于電商網(wǎng)站分析商品。

2018-12-19

 作者回復(fù)

同意你的分享,很多人不知道如何解決業(yè)務(wù)問(wèn)題,就認(rèn)為是工具沒(méi)掌握,或者工具使用有問(wèn)題。其實(shí)這些工具就是分類(lèi)器。他們只是工具,還是要從“業(yè)務(wù)”角度去理解

2018-12-19

0

一、關(guān)聯(lián)分析:Apriori算法。理由是它通過(guò)挖掘經(jīng)常一起出現(xiàn)的事物,來(lái)揭示他們之間某種強(qiáng)相關(guān)性,那么商品之間的關(guān)系也可以利用此算法,就好比牙膏和牙刷,把二者放在同一個(gè)區(qū)域肯定是符合邏輯的。

二、連接分析:PageRank算法。這種算法更多應(yīng)該是電商商品的相關(guān)性分析,例如淘寶,它在下面有一欄是猜你喜歡,鏈接到別的商品。

數(shù)據(jù)挖掘最關(guān)鍵的點(diǎn):算法及其背后的數(shù)學(xué)原理。

難點(diǎn):如何選擇挖掘模型,我覺(jué)得這個(gè)需要通過(guò)實(shí)踐→總結(jié)思考→再實(shí)踐→再總結(jié)思考→......,不斷地循環(huán)迭代的過(guò)程。

2018-12-19

 作者回復(fù)

感謝分享,PageRank你可以抽象是PR的縮寫(xiě),你應(yīng)該知道PR值代表的什么?PR值是衡量一個(gè)事物影響力的指標(biāo)。比如網(wǎng)站的PR值

Apriori算法是最直觀的關(guān)聯(lián)分析算法,它的提出是用來(lái)解決“購(gòu)物籃問(wèn)題”。同樣你提到了“猜你喜歡”,這是個(gè)很好的思路,一般在電商網(wǎng)站里使用的是推薦算法,這個(gè)在后面我會(huì)講到

2018-12-19

德勝

0

KNN,Apriori,K-Means,EM感覺(jué)都可以用于電商物品關(guān)聯(lián)

2018-12-19

 作者回復(fù)

Apriori是更常用的“購(gòu)物籃問(wèn)題”解決方案,它的提出就是解決商品之間的關(guān)聯(lián)關(guān)系。KNN是分類(lèi)算法,和K-Means, EM這兩種聚類(lèi)算法還是有些區(qū)別。K-Means, EM這兩個(gè)聚類(lèi)方法在電商里做客群聚類(lèi)比較多

2018-12-19

tinn

0

老師有推薦的關(guān)于數(shù)據(jù)分析方面的學(xué)習(xí)論壇或者博客嗎?謝謝老師回復(fù):)

2018-12-19

NaNa

0

Apriori和Pagerank

2018-12-19

frazer

0

關(guān)聯(lián)算法Apriori肯定是要用的

2018-12-19

 作者回復(fù)

是的 這個(gè)場(chǎng)景是最常用的

2018-12-19

可樂(lè)不甜

0

用樸素貝葉斯對(duì)商品關(guān)系進(jìn)行分類(lèi)

2018-12-19

可樂(lè)不甜

0

數(shù)據(jù)挖掘算法很多,對(duì)其中一些算法有一定了解。但是不是這些算法就夠了呢

2018-12-19

 作者回復(fù)

算法有很多,還有隨機(jī)森林,xgboost,邏輯回歸,深度學(xué)習(xí)。文章中提到的10大算法是最經(jīng)典的算法。其他算法在實(shí)際工作中,也會(huì)接觸到。算法看起來(lái)很多,當(dāng)你明白原理后,在python中就是一行代碼的問(wèn)題

2018-12-19

風(fēng)翱

0

Apriori和K-Means,聚類(lèi)和關(guān)聯(lián)。

看到其他人的回復(fù),都是在說(shuō)數(shù)據(jù)基礎(chǔ)弱,或者基礎(chǔ)較為一般。看課程,數(shù)據(jù)基礎(chǔ)還是挺重要的。 請(qǐng)問(wèn)這部分怎么補(bǔ)呢? 還是后續(xù)的課程中會(huì)有對(duì)應(yīng)的分析和補(bǔ)充相關(guān)的知識(shí)點(diǎn)和資料信息。

2018-12-19

微光lu

0

關(guān)聯(lián)分析,用來(lái)探究商品之間的潛在聯(lián)系

2018-12-19

奶爸奶爸

0

老師的思路非常清晰,期待后續(xù)更精彩的內(nèi)容。

另外我想問(wèn)一個(gè)無(wú)關(guān)的問(wèn)題,老師圖為什么做得做么漂亮?是工具好, 還是和思路有關(guān)系?有沒(méi)有什么經(jīng)驗(yàn)可以介紹下?

2018-12-19

 作者回復(fù)

首先你需要確定一個(gè)圖片的風(fēng)格,比如小清新的風(fēng)格,以及相應(yīng)的色調(diào)

制作上:你可以使用XMind思維導(dǎo)圖工具,它幫你做一些簡(jiǎn)單的美化

當(dāng)然,最好的體驗(yàn),還是要自己親自動(dòng)手,專(zhuān)欄的圖片都是編輯自己手工制作的,這里要感謝下編輯。里面用到了一些手寫(xiě)字體

2018-12-19

larry

0

關(guān)聯(lián)分析?

2018-12-19

 作者回復(fù)

對(duì)的 關(guān)聯(lián)分析是個(gè)比較顯性的算法,Apriori算法的提出就是來(lái)解決這個(gè)問(wèn)題的。當(dāng)然在推薦算法里,除了關(guān)聯(lián)分析,還有協(xié)同過(guò)濾。現(xiàn)在很多電商網(wǎng)站也會(huì)用到協(xié)同過(guò)濾,從而發(fā)現(xiàn)基于商品之間的關(guān)聯(lián)關(guān)系

2018-12-19

陳波

0

從初步理解,Apriori 挖掘關(guān)聯(lián)規(guī)則的算法,這個(gè)是答案,但是感覺(jué)不是絕對(duì)

2018-12-19

 作者回復(fù)

是的!Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,當(dāng)然也存在其他關(guān)聯(lián)分析的算法。關(guān)聯(lián)分析算法的創(chuàng)建就是用來(lái)解決“購(gòu)物籃問(wèn)題”。如果面試官問(wèn)你這個(gè)題目,你回答這個(gè)就可以了。不過(guò)你可以考慮不同的維度,比如推薦算法,聚類(lèi)算法,因?yàn)樵趯?shí)際工作中,你可能會(huì)使用到多個(gè)算法幫你解決不同問(wèn)題。

比如在一個(gè)產(chǎn)品中,你會(huì)用到推薦算法幫你做商品推薦,也會(huì)用到聚類(lèi)算法幫你來(lái)做客群分析,這些算法的結(jié)果都可能會(huì)對(duì)“購(gòu)物籃問(wèn)題”有幫助。

2018-12-19

無(wú)法言喻.

0

基于物品的協(xié)同過(guò)濾,用關(guān)聯(lián)分析?

2018-12-19

 作者回復(fù)

很好的思路,關(guān)聯(lián)分析是最主要的,同時(shí)也可以從基于物品的協(xié)同過(guò)濾來(lái)考慮

2018-12-19

Jane

0

隨機(jī)森林,xgboost這種在經(jīng)典算法基礎(chǔ)上衍生出來(lái)的算法老師能不能在講基礎(chǔ)算法的時(shí)候拓展介紹一下啊。

應(yīng)該可以通過(guò)Apriori將相關(guān)商品關(guān)聯(lián)起來(lái),比如亞馬遜“購(gòu)買(mǎi)過(guò)此類(lèi)商品的人通常也會(huì)購(gòu)買(mǎi)”這種商品推薦。

2018-12-19

 作者回復(fù)

很好的建議!其實(shí)不光是隨機(jī)森林,xgboost,還有邏輯回歸都是很常用的算法,有時(shí)間一起介紹下

2018-12-19

MJKlose

0

apriori算法,它是用來(lái)揭示物品的關(guān)聯(lián)關(guān)系,在電商網(wǎng)站中,我們不希望用戶只購(gòu)買(mǎi)一件商品就走了,而是希望他能多購(gòu)買(mǎi)幾件,我們需要向用戶推薦合適且關(guān)聯(lián)關(guān)系強(qiáng)的商品,這樣用戶才會(huì)喜歡樂(lè)意購(gòu)買(mǎi)

2018-12-19

 作者回復(fù)

Apriori是常用的關(guān)聯(lián)分析算法,通過(guò)也可以從推薦算法(協(xié)同過(guò)濾)的角度進(jìn)行考慮

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容