2019-03-28

基于模型的協(xié)同過濾算法

基于模型的協(xié)同過濾算法是源自于推薦過程可以被視為分類或預(yù)測問題的這一思想,它將評分矩陣作為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),使用統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方法構(gòu)建出用戶與物品之間的關(guān)系模型,然后據(jù)此產(chǎn)生合理的推薦。

基于隱因子模型的推薦算法:

它是基于用戶觀看或者或者評分等歷史行為數(shù)據(jù),從中挖掘出用戶隱含的興趣,即隱因子,然后將用戶或視頻用隱因子來分類,最后通過這些隱因子進(jìn)行推薦,用戶會對某些特定的隱因子有一定的喜好度,這樣便可以利用這種用戶或視頻與隱因子的關(guān)系來做出推薦。

用SVD分解技術(shù)來從用戶評分?jǐn)?shù)據(jù)中確定出隱因子,以及確定出如何計算用戶或視頻與隱因子的關(guān)系,SVD將U-V矩陣所表示的用戶評分?jǐn)?shù)據(jù)分解為用戶與隱因子的關(guān)系矩陣U、視頻與隱因子的關(guān)系矩陣V,以及表示隱因子的矩陣(求和符號)。

在計算用戶對視頻的喜好程度時,公式中包含了用戶和某一個隱類的關(guān)系,也包含了視頻和隱類的關(guān)系,要計算這兩個參數(shù),需要一個訓(xùn)練集,對于每個用戶,訓(xùn)練集都包含了用戶喜歡的物品和不感興趣的物品,通過學(xué)習(xí)這個數(shù)據(jù)集,就可以獲得上面的模型參數(shù)。

推薦系統(tǒng)的用戶行為分為顯性反饋和隱性反饋,顯性反饋就是用戶對視頻的打分,隱性反饋就是用戶的觀看瀏覽行為。隱因子模型在顯性反饋數(shù)據(jù)上解決評分預(yù)測問題得到了很好的精度。但是對于隱性反饋數(shù)據(jù)集,這種數(shù)據(jù)集只有正樣本(用戶觀看了什么視頻),而沒有負(fù)樣本(用戶對什么視頻不感興趣),因而存在一個負(fù)樣本采樣過程。根據(jù)以往的經(jīng)驗(yàn)總結(jié),負(fù)樣本采樣需要遵循以下原則:

(1)對每個用戶,要保證正負(fù)樣本的平衡。

(2)對每個用戶采負(fù)樣本時,要選取那些很熱門,而用戶卻沒有行為的視頻。

2.算法流程

基于隱因子模型的推薦算法流程如下:

訪問用戶行為數(shù)據(jù)——構(gòu)造訓(xùn)練數(shù)據(jù)集——迭代求解目標(biāo)函數(shù)的參數(shù)——當(dāng)收斂時——輸出用戶興趣向量和視頻的類別向量—

獲取用戶U的興趣向量P(u)——獲取視頻i的類別向量q(i)——計算用戶對視頻的喜好度——根據(jù)喜好度進(jìn)行排序——輸出Top-k視頻列表。

算法輸入:用戶行為日志,用戶興趣向量、視頻類別向量。

算法輸出:初始推薦結(jié)果。

1.從用戶行為日志中獲取最近瀏覽過視頻的用戶集合U.

2.針對集合U中的每個用戶u(可并行處理):

?2.1從用戶行為日志中獲取該用戶近期觀看的視頻集合M(u);

2.2訪問“基于隱因子的視頻相似矩陣”獲取與M(u)相似的視頻集合N(u);

2.3針對視頻集合N(u)中的每個視頻,計算用戶對該視頻的偏好值;

2.4依據(jù)用戶偏好值,對N(u)的視頻進(jìn)行排序;

2.5取Top-k個視頻,為每個視頻賦予解釋,如“您近期瀏覽過與之近似的視頻”;

2.6保存Top-k個視頻到“初始推薦結(jié)果”中。

它主要適用于缺少用戶興趣信息和視頻類別信息,但是具有大量的用戶行為的系統(tǒng),它一般適用于離線推薦,不適用于實(shí)時推薦。

基于樸素貝葉斯分類的推薦算法

算法原理:由于推薦問題可以被看成分類問題,因此可以使用一些機(jī)器學(xué)習(xí)領(lǐng)域中的分類算法對推薦問題加以解決,樸素貝葉斯的基本思想是:對于給出的待分類物品和既定的類別,計算該物品在各個類別中出現(xiàn)的概率,哪個類別計算出的概率最大就將帶分類物品分到那個類別。

樸素貝葉斯分類在推薦系統(tǒng)中有著一定程度的應(yīng)用,它能用于在已知某些評分的情況下通過計算概率預(yù)測出未知評分。

算法流程:

算法輸入:已知目標(biāo)用戶對視頻Vx之外的視頻評分情況,以及其他用戶對各視頻的評分情況。

算法輸出:確定目標(biāo)用戶對視頻Vx的評分。

樸素貝葉斯實(shí)現(xiàn)起來比較簡單,準(zhǔn)確率較高,但是分類的時候需要學(xué)習(xí)全部樣本的信息。因此,樸素貝葉斯分類更適用于數(shù)據(jù)量不大,類別較少的分類問題。

基于內(nèi)容的推薦方法:(CB)

他以物品的內(nèi)容描述信息為依據(jù)來做出推薦,本質(zhì)上是基于對物品和用戶自身的特征或?qū)傩缘闹苯臃治雠c計算。CB推薦方法是依賴于用戶過去時的數(shù)據(jù)對現(xiàn)在時的用戶進(jìn)行推薦,所以不能像CF那樣實(shí)現(xiàn)實(shí)現(xiàn)用戶潛在興趣的挖掘。

在CB推薦系統(tǒng)中,需要為每個物品創(chuàng)建一個物品畫像用于記錄該物品的內(nèi)容固有屬性,也需要為每個用戶創(chuàng)建一個用戶畫像用于記錄用戶的特定偏好,物品/用戶畫像的本質(zhì)是由一些表示特征的向量組成的。我們嘗試使用向量來表示物品的所有屬性,例如,由于演員是電影的一個屬性,那么就假設(shè)每個演員都是這個屬性的一個向量分量,其中,若向量中相應(yīng)位置的演員有出演這部電影,則該向量中的對應(yīng)位置值設(shè)為1,否則為0.同樣的電影的導(dǎo)演、類型等其他固有屬性也可以用0、1來表示。

視頻推薦中的用戶畫像:

我們用效用矩陣代表用戶和物品之間的聯(lián)系。對于用戶喜歡的物品,我們可以做的最好預(yù)測是聚合這些物品畫像。如果效用矩陣只有1這個取值,那么,最簡單的聚合就是將效用矩陣中各個值為1的位置對應(yīng)的物品畫像中的向量取值求平均值得到結(jié)果。

例如,假設(shè)用戶對電影的效用矩陣只有0和1兩種取值,代表用戶是否看過電影,若用戶U看過的電影中由百分之30的電影都有演員王俊凱,那么用戶U的用戶畫像中對應(yīng)王俊凱的分量取值就是0.3.

如果效用矩陣不是布爾型,比如評分取值1~5,那么我們就可以通過數(shù)值來衡量物品相似度。將每個元素減去這個用戶評分的平均值進(jìn)行正則化是很有必要的。通過正則化,當(dāng)用戶物品評分低于均值時就會得到一個負(fù)值,當(dāng)用戶對物品評分高于均值時我們能得到一個正數(shù)。例如,考慮和上例相同的電影信息,但是現(xiàn)在效用矩陣的元素取值為1~5.假設(shè)用戶U對于所有電影的平均分為3,其中4部電影有王俊凱參演,對應(yīng)電影評分分別是3、4、5、4.那么在用戶U的畫像中,對應(yīng)王俊凱的分量取值就是0、1、2、1的平均值,即為1.

基礎(chǔ)CB推薦算法:

該方法不考慮非結(jié)構(gòu)化特征,不考慮反饋,單純基于視頻的內(nèi)容固有屬性來進(jìn)行相似度計算及視頻推薦。在內(nèi)容過濾視頻推薦系統(tǒng)中,最基礎(chǔ)的就是抽取出特征,以及如何通過這些特征計算視頻間的相似度。每個視頻可以用特征向量矩陣來表示,通過該向量和用戶偏好內(nèi)容偏好進(jìn)行加權(quán)內(nèi)積,則可以得到該視頻和用戶喜好的相關(guān)程度,進(jìn)而用相關(guān)程度排序就可以進(jìn)行視頻推薦了。

算法原理

利用視頻的基本信息和用戶偏好內(nèi)容的相似性進(jìn)行視頻推薦。通過分析用戶已經(jīng)觀看過的電影的內(nèi)容,如演員、導(dǎo)演、風(fēng)格等,生成用戶的偏好內(nèi)容,然后推薦與用戶感興趣的電影內(nèi)容相似度高的其他電影

算法流程

視頻信息(類型、演員、上映時間等)——內(nèi)容分析器——視頻特征矩陣(1)

用戶行為(評價、分享、收藏、瀏覽的視頻)——概要學(xué)習(xí)器——用戶內(nèi)容偏好(2)

(1)和(2)相似度計算——根據(jù)相似度排序——輸出Top-k視頻列表

算法輸入:視頻信息,用戶行為日志。

算法輸出:初始推薦結(jié)果。

1.視頻表示:每個視頻使用特征向量表示,分量為視頻的特征屬性,如視頻名稱、導(dǎo)演、主演等。

2.從“用戶行為日志中”,獲取該用戶所瀏覽、收藏、評價、分享的視頻集合M,根據(jù)視頻集合M中視頻的特征數(shù)據(jù),可以學(xué)習(xí)得到用戶的內(nèi)容偏好。用戶的喜好模型包括如下內(nèi)容:

2.1視頻的導(dǎo)演列表:每個導(dǎo)演之間用$符號隔開;

2.2視頻的演員列表:每個演員之間用$符號隔開;

2.3通過計算用戶喜好模型與每個視頻特征向量間的相似度;

2.4對相似度進(jìn)行排序,取Top-k個視頻,為每個視頻賦予解釋。

3.保存Top-k個視頻到“初始推薦結(jié)果中”。

這種方法尤其對新上線視頻會馬上被推薦非常有效,被推薦的機(jī)會與老的視頻時相同的。

基于TF-IDF的CB推薦算法

該方法重點(diǎn)考慮非結(jié)構(gòu)化的處理

1.算法背景:

在實(shí)際的視頻推薦中,上線視頻往往還會結(jié)合用戶給予的評論信息進(jìn)行實(shí)時推薦。用戶的評論一般分為評分與文字評論兩種,前者通過分?jǐn)?shù)直接反應(yīng)用戶對視頻的喜惡,后者則需要我們從冗長的文字中提取關(guān)鍵信息。TF-IDF等技術(shù)被引入。

TF指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù),這個數(shù)字通常會被正則化,以防止它偏向長的文件(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否)。IDF是一個詞語普遍重要性的度量,某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。

算法原理

TF-IDF算法基于這樣一個假設(shè):若一個詞語在目標(biāo)文檔中出現(xiàn)的頻率高而在其他文檔中出現(xiàn)的頻率低,那么這個詞語就可以用來區(qū)分出目標(biāo)目標(biāo)文檔。這個假設(shè)需要掌握的由兩點(diǎn):

1.在本文檔出現(xiàn)的頻率高;

2.在其他文檔出現(xiàn)的頻率低。

因此,TF-IDF算法的計算可以分為詞頻TF和逆轉(zhuǎn)文檔頻率IDF兩部分,由TF和IDF的乘積來設(shè)置文檔詞語的權(quán)重。

TF指的是一個詞語在文檔中的出現(xiàn)頻率。假設(shè)文檔集包含的文檔數(shù)為N,文檔集中包含關(guān)鍵詞Ki的文檔數(shù)為Ni,Fij表示關(guān)鍵詞Ki在文檔Dj中出現(xiàn)的次數(shù),F(xiàn)dj表示文檔Dj中出現(xiàn)的詞語總數(shù),Ki在文檔Dj中的詞頻TFij定義為

TFij=Fij/Fdj

這個數(shù)字通常會被正則化,以防止它偏向長的文件(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否)。

IDF是一個詞語普遍重要性的度量。ni/N表示某一詞語在整個文檔集中出現(xiàn)的頻率,由它計算的結(jié)果取對數(shù)得到關(guān)鍵詞ki的逆文檔頻率IDFi

IDFi=logN/ni

由TF和IDF計算詞語的權(quán)重為TFij*IDFi=Fij/Fdj*logN/ni

可以看出,TF-IDF與詞語在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個文檔集中的出現(xiàn)次數(shù)成反比。在目標(biāo)文檔中,提取關(guān)鍵詞的方法就是將該文檔所有詞語的TF-IDF計算出來并進(jìn)行對比,取其中TF-IDF值最大的K個數(shù)組成目標(biāo)文檔的特征向量用以表示文檔。在此,注意一點(diǎn),文檔中存在的停用詞,如‘是’、‘的’之類的,對于文檔的中心思想表達(dá)沒有意義的詞,在分詞時需要先過濾掉再計算其他詞語的TF-IDF值。

算法舉例

對于計算影評的TF-IDF,以電影“加勒比海盜:黑珍珠號的詛咒”為例,假設(shè)它總共由1000篇影評,其中一篇影評的總詞語數(shù)為200,其中出現(xiàn)最頻繁的詞語為“海盜”、“船長”、“自由”出現(xiàn)最頻繁,分別時20、15、10次,并且這三個詞在所有影評中被提及的次數(shù)分別為1000、800、100就這三個詞語作為關(guān)鍵詞的順序計算如下。

1.將影評中出現(xiàn)的停用詞過濾掉,計算其他詞語的詞頻,以出現(xiàn)最多的三個詞為例進(jìn)行計算如下。“海盜”出現(xiàn)的詞頻為20/200=0.1、“船長”出現(xiàn)的詞頻為0.075,“自由”出現(xiàn)的詞頻為0。05;

2.計算詞語的逆文檔頻率如下。海盜的IDF為IDF=log1000/1000=0、船長出現(xiàn)的IDF為log(1000/800)=0.3,自由的IDF為log(1000/100)=1.

3.由1和2的計算的結(jié)果求出詞語的TF-IDF結(jié)果,海盜為0、船長為00225,自由為0.05.通過對比可得,該篇影評的關(guān)鍵詞排序應(yīng)為:自由、船長、海盜。把這些詞語的TF-IDF值作為它們的權(quán)重按照對應(yīng)的順序依次排列,就得到這篇影評的向量,我們就用這個向量來代表這篇影評,向量中每一個維度的大小對應(yīng)這個屬性的重要性。將總的影評集中所有的影評向量與特定的系數(shù)相乘求和,得到這部電影的綜合影評向量,與電影的基本屬性結(jié)合構(gòu)建視頻的物品畫像,同理構(gòu)建用戶畫像,可采用多種方法計算視頻的物品畫像和用戶畫像之間的相似度,為用戶做出推薦。

基于KNN的CB推薦算法

該方法其實(shí)是一種接近無反饋的方法。

KNN算法基于這樣的假設(shè),如果在特征空間中,一個樣本的K個最鄰近樣本中的大多數(shù)樣本屬于某一個類別,則該樣本也屬于這個類別,KNN算法通過計算樣本個體間的距離或相似度來確定最近鄰,算法的時間復(fù)雜度跟樣本的個數(shù)直接相關(guān)。應(yīng)用在推薦系統(tǒng)中時,KNN算法能夠?qū)⑴c目標(biāo)物品的內(nèi)容的k個最相似物品推薦給用戶。由于內(nèi)容固有屬性一旦創(chuàng)建就基本保持不變,所以基于內(nèi)容固有屬性的KNN最近鄰計算不需要頻繁的重復(fù)刷新。

由于KNN算法依賴于周圍有限的已正確分類的鄰居樣本來對待分類樣本進(jìn)行分類,所以它更適合類域的交叉或重疊較多的待分類樣本集的分類問題。同時,KNN算法的主要不足是當(dāng)分類的各樣本容量不平衡時,會出現(xiàn)計算結(jié)果不準(zhǔn)確的問題,為了克服這個問題,就需要采用一些賦權(quán)值的方法來加以改進(jìn)。

算法原理

KNN在CB推薦算法中的應(yīng)用與在CF推薦算法中的應(yīng)用極為相似,它們都是要首先找到與目標(biāo)物品相似的且已經(jīng)被用戶u評價過的k個物品,然后根據(jù)用戶U對這K個物品的評價來預(yù)測其對目標(biāo)物品的評價。它們的差別在于,CF推薦算法中的KNN時根據(jù)用戶對物品的評分來計算物品間相似度的,而CB推薦算法中KNN是根據(jù)物品畫像來計算物品間相似度的,所以對于后者來說,如何通過物品畫像來計算物品間的相似度是算法中的關(guān)鍵步驟,相似度的計算可以使用杰卡德距離(對于結(jié)構(gòu)化的數(shù)據(jù))、余弦相似度(對于用向量空間模型表示的物品)或者Pearson相關(guān)系數(shù)的計算方法。KNN算法流程如下:

算法輸入:用戶已評分視頻、目標(biāo)視頻i.

算法輸出:用戶對目標(biāo)視頻i的評分。

由于用戶對視頻的評分趨勢各有不同,如有的用戶評分嚴(yán)格,有的用戶評分寬松,這種趨勢被稱為全局作用,所以也需要在KNN的基本模型中考慮到全局作用的影響。常用的全局作用有1.全局評分的平均值2.電影的被評分傾向、用戶的評分傾向、以及用戶第一次評分后相距當(dāng)前的用時。將全局作用納入在KNN模型的目標(biāo)是為該全局作用計算出一個特定的參數(shù),在計算這樣的參數(shù)時,每次只考慮一個全局作用,并使用前一次計算全局作用時的預(yù)測評分與真實(shí)評分之差作為本次計算的真實(shí)評分。

基于Rocchio的CB推薦算法

該方法是一種側(cè)重考慮反饋的方法

1.算法背景

Rocchio是從用戶觀看歷史中抽取用戶喜好的視頻特征構(gòu)建用戶畫像常用的一種算法是信息檢索領(lǐng)域處理相關(guān)反饋的一個著名算法,它提供了如何通過用戶觀看視頻的反饋計算用戶特征向量中屬性值的方法。舉例來說,假如用戶觀看過星球大戰(zhàn)和加勒比海盜并給予高分,那么根據(jù)用戶的歷史行為數(shù)據(jù)構(gòu)建用戶畫像時,用戶的特征向量可表示為{“動作”:1、“歐美”:1,“科幻”:0.5,“冒險”:0.5},當(dāng)該用戶觀看電影“2012”并為其打了個低分時,用戶特征向量更新為{“動作”:1、“歐美”:0.8,“科幻”:0.3,“冒險”:0.5}

算法原理

在視頻推薦系統(tǒng)中,Rocchio算法根據(jù)用戶的歷史數(shù)據(jù)對用戶的原始特征向量不斷地進(jìn)行修改,實(shí)現(xiàn)實(shí)時更新用戶畫像的功能。Rocchio算法基于這樣的假設(shè):如果我們需要計算出最精確用戶特征向量Uc,那么這個用戶特征向量應(yīng)該與用戶喜歡的視頻特征最相似,與用戶討厭的視頻特征最不同。若V1表示用戶喜歡的視頻,Vh表示用戶討厭的視頻,那么根據(jù)Rocchio算法的思想,定義最優(yōu)的用戶特征向量為:用戶特征向量與用戶喜歡的視頻的相似度減去用戶特征向量與用戶討厭的視頻的相似度的最大值。在基于內(nèi)容的視頻推薦中,根據(jù)用戶的歷史行為數(shù)據(jù)建立用戶畫像,我們可以采用Rocchio算法不斷地調(diào)整用戶的特征向量Uc.

基于決策樹的CB推薦算法

1.算法背景

構(gòu)建基于內(nèi)容的推薦系統(tǒng)的另外一個學(xué)習(xí)算法是基于決策樹的推薦算法,不同于其他算法,該算法在訓(xùn)練階段會生成一個顯式的決策模型。決策樹可以通過訓(xùn)練數(shù)據(jù)集構(gòu)建并有效判斷一個新的視頻是否可能受用戶喜歡,當(dāng)視頻的特征屬性較少時采用決策樹算法能夠取得不錯的效果,另外,決策樹學(xué)習(xí)的思想也比較容易被人理解,在視頻推薦理由的可解釋方面較好。

2.算法原理

在視頻推薦系統(tǒng)中,決策樹的內(nèi)部節(jié)點(diǎn)通常表示視頻的特征屬性,這些節(jié)點(diǎn)用于區(qū)分視頻集合,例如,通過視頻中是否包含這個特征將其進(jìn)行分類。在只有兩個分類的簡單數(shù)據(jù)集中,用戶是否對視頻感興趣一般出現(xiàn)在決策樹的葉子節(jié)點(diǎn)上。

如當(dāng)系統(tǒng)為用戶A做推薦時,首先根據(jù)用戶的歷史觀看記錄和對視頻的評分構(gòu)建用戶畫像并得出一個結(jié)論:當(dāng)視頻是奇幻或冒險類型的喜劇片,該用戶很可能會喜歡它,當(dāng)系統(tǒng)為用戶推薦一部新的視頻,首先判斷視頻是否時喜劇,若視頻不是喜劇,系統(tǒng)直接判定該用戶不會喜歡這部視頻并尋找新的視頻繼續(xù)進(jìn)行決策判斷:若視頻時喜劇,那么系統(tǒng)接著判斷視頻是否屬于奇幻或冒險題材,當(dāng)視頻滿足其中一個條件時,系統(tǒng)將做出決策:該視頻時該用戶可能喜歡的視頻:否則判定為用戶不喜歡的類型。

基于線性分類的CB推薦算法

1.算法背景:

將基于內(nèi)容的視頻推薦問題視為分類問題時,多種機(jī)器學(xué)習(xí)的方法都可以被采用。從一個更抽象的角度上看,大部分學(xué)習(xí)方法致力于找到一個可以準(zhǔn)確區(qū)分用戶喜歡和不喜歡的視頻的線性分類模型系數(shù)。

將視頻數(shù)據(jù)用n維特征向量進(jìn)行表示,那么視頻可用點(diǎn)在n維空間表示,線性分類器試圖在給定的視頻數(shù)據(jù)空間中找出一個能夠?qū)⒁曨l正確分類的平面,一類點(diǎn)盡可能在平面的某一邊,另一類則在平面的另一邊,在視頻推薦中,就是將視頻分為用戶喜歡和不喜歡兩類。例如,用戶A只喜歡看喜劇電影,那么劃分用戶A觀看視頻類別的分界條件就是視頻是否為喜劇。

2.算法原理

基于線性分類器的CB推薦算法通過視頻特征的線性組合進(jìn)行分類,若輸入的視頻特征向量為V,輸出的結(jié)果y表示用戶是否喜歡視頻,則線性分類器可以表示為視頻特征向量對應(yīng)的權(quán)重和V向量的內(nèi)積,然后根據(jù)輸入的視頻特征屬性做出決定輸出結(jié)果。

二維的分類器擴(kuò)展為在多維中劃分類別界限的超平面。

使用線性分類器的另一個挑戰(zhàn)是處理數(shù)據(jù)的噪聲。數(shù)據(jù)集上的視頻向量若存在噪聲分量則可能會導(dǎo)致錯誤的分類結(jié)果。另外,也有可能存在噪聲視頻,由于不知名的原因錯誤的分類或者處于分類的邊緣地帶,這種噪聲在數(shù)據(jù)中的識別并不容易,這些問題在使用線性分類器時需要注意。

基于樸素貝葉斯的CB推薦算法

1.算法背景

貝葉斯定理描述在一個隨機(jī)事件發(fā)生下另一個隨機(jī)事件發(fā)生的條件概率的定理。樸素貝葉斯算法是一種常用的分類方法,基于樸素貝葉斯的推薦系統(tǒng)判斷用戶是否對某個視頻有興趣的方法是將這個問題轉(zhuǎn)化為分類問題,例如,將其分為兩類,一類是喜歡,另一類是不喜歡,樸素貝葉斯算法假設(shè)用戶和視頻的特征向量中的各個分量相互之間獨(dú)立并成功的應(yīng)用在基于內(nèi)容的視頻推薦系統(tǒng)中。

2.計算原理

視頻推薦系統(tǒng)中,分類C下的一個視頻的特征屬性Vi的條件概率用Vi在分類C下所有視頻中出現(xiàn)的頻率近似表示。即它等于Vi在標(biāo)記為C的視頻中出現(xiàn)的次數(shù)(即頻度),除以在這些視頻中出現(xiàn)的所有特征屬性的個數(shù),為了預(yù)防計算概率為0的情況,對式子進(jìn)行平滑論,即分子加1,分母加所有視頻中的出現(xiàn)的不同特征屬性數(shù)(類似文章的詞匯量)。

基于知識的推薦方法(KB)

基于知識的推薦方法,是區(qū)別基于CB和基于CF的常見推薦方法。知識表示是一組為實(shí)現(xiàn)知識形式化描述而做的約定,是把知識客體中的知識因子與知識關(guān)聯(lián)起來,便于人們的識別和對知識的理解,它是知識組織的前提和基礎(chǔ),任何知識組織方法都是建立在知識表示的基礎(chǔ)上。

基于知識的推薦方法是針對該領(lǐng)域的特殊需求和更為精細(xì)的結(jié)構(gòu)化內(nèi)容,包括專業(yè)性的優(yōu)質(zhì)特征,幫助提高搜索引擎在特定領(lǐng)域的服務(wù)。以視頻推薦為例,一部電影的上映時間和檔期熱度,哪些導(dǎo)演指導(dǎo)的一定是大片,變形金剛和指環(huán)王系列口碑肯定不會差到多少等,都是非常有價值的推薦信息。因此,推薦系統(tǒng)需要利用特定領(lǐng)域相關(guān)的或者常識相關(guān)的額外的因果知識生成推薦或者輔助推薦決策。

此外,基于知識的推薦,也是更加容易滿足主觀個性化需求的方法。例如,只要是VIP付費(fèi)用戶,如果配置了偏好類型,就可以為其提供更加專注、精準(zhǔn)和深入的推薦服務(wù)。這里主要是面向兩種常見的知識展開基于知識的推薦方法描述:一種是約束知識,主要面向人工知識庫,構(gòu)建if-then推薦規(guī)則;另一種是關(guān)聯(lián)知識,利用數(shù)據(jù)挖掘理論構(gòu)建基于數(shù)據(jù)規(guī)律的自動學(xué)習(xí)的推薦規(guī)則。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容