文本挖掘第二彈
本周目標(biāo)
正式上車
一? 組合關(guān)系發(fā)現(xiàn)和熵(單詞關(guān)聯(lián)挖掘)
1.1熵函數(shù)
一個詞相隨出現(xiàn)的概率定義:
熵函數(shù):表示預(yù)測有多困難(0不困難,1最困難)
以拋硬幣實驗來解釋說明:
熵函數(shù)在文本挖掘中應(yīng)用:
? ? ? ?定量說明某個詞哪個詞很難預(yù)測。
1.2 條件熵
知道文本段中的某部分
下圖為非條件熵的表達(條件概率為1)
而真正的條件熵表達式:
所以相互大小關(guān)系清晰可見。并且條件熵的最大限度也是該事件的熵。
那最小值是多少呢???
在文本挖掘中的應(yīng)用:
捕捉組合關(guān)系
條件熵為最大值(the作為條件,求meat的熵):沒什么用處,不能減小熵的值
條件熵不斷減小:sigma具有更小的熵。意味著兩者之間有更強的聯(lián)系。
計算方法:
注意要為每個詞選取閾值。
? ? ? 衡量預(yù)測W1的值有多難,是可比的。而H(W1|W2)和H(W3|W2)是不可比的,因為兩者的上限都不一樣,所以所得的熵的值不具有可比性。
? ? ?即這個算法并不能幫助我們挖掘最強大的K整個集合的合成關(guān)系,因其相互間不具有可比性。
1.3 組合關(guān)系
作用:標(biāo)準(zhǔn)化條件熵,以便條件熵能和其他不同的配對來進行對比。
在知道Y的情況下我們能得到什么樣的X熵系數(shù)
I值為0,代表X與Y相互獨立,無關(guān)系,所以轉(zhuǎn)化為I值越大,越說明其可能具有組合關(guān)系。
I(X;Y)的最大值是:一個詞與自己之間的交互關(guān)系? ?的情況
計算方法(KL發(fā)散):
兩個變量的聯(lián)合分布/兩變量獨立的聯(lián)合分布
? ? ? ?顯示了交互信息匹配這種真實的聯(lián)合分布的發(fā)散,在獨立性假設(shè)的情況下的期望分布,發(fā)散越大,交互信息的值越高。
共有4個組合
1.4 最大似然估計
作用:用一個事件在可以觀測到的數(shù)據(jù)里所發(fā)生的次數(shù)來計算其概率
步驟:
1? 一共數(shù)三次:
W1出現(xiàn)的次數(shù)、W2出現(xiàn)的次數(shù)、W1,和W2同時出現(xiàn)的次數(shù)
2? 將次數(shù)歸一化:
利用段(片段)的總數(shù)N
平滑化后結(jié)果:
添加一個虛擬片段
總結(jié):
? ? ? ?一旦我們用交互信息來發(fā)掘語義關(guān)聯(lián),我們可以把這個交互信息作為權(quán)重來表征背景,這樣就給了我們另一種描述? ?一個單詞上下文的方式 。
????????比如說一種類別 如果我們對所有的單詞做同樣的處理,我們就可以對單詞進行聚類,通過比較它們背景上的相似性 來比較這些單詞的相似性 。
? ? ? ? 這就給我們提供了另一種確定權(quán)重的方法:建立一個詞聚合關(guān)系語境模型的簡便方法。
片段:
? ? ? ?定義片段 而這個片段也可以被定義為很短小的文本框或一個很長的文章這可以返回不同的關(guān)聯(lián)結(jié)果
二、主題挖掘與分析(內(nèi)容挖掘)
不同種類的挖掘任務(wù):挖掘文本主題與相關(guān)知識
2.1主題
可應(yīng)用于不同尺度:一句話、一段、一篇文章
環(huán)境變量幫助分析主題的模式:時間、出處、作者、數(shù)據(jù)來源
主題選定:
N個文本;找到k個主題;
πij(覆蓋度):表示文檔di覆蓋主題θj的概率
2.2 如何正確定義theta
將一個主題簡單定義為術(shù)語(theta)?
話題挖掘與分析的兩個步驟:
1.發(fā)現(xiàn)話題
2.分析每個文檔中這些主題的覆蓋范圍
1的計算實施:
統(tǒng)計方法設(shè)計評分函數(shù)
刪除冗余:最大邊際相關(guān)性排名(貪婪的算法);
? ? ? ? ? ? ? ? ? 避免選擇太過相似的術(shù)語
所以,綜合冗余刪除? 和? 術(shù)語高分,得到K個主題詞。
2的計算實施:
需要考慮相關(guān)詞匯,而不能只是某個詞出現(xiàn)的次數(shù),頻次。
解決方法:更多的詞匯——解決缺少表現(xiàn)力問題
? ? ? ? ? ? ? ? ? 量化術(shù)語(區(qū)別主題間的細(xì)微差別)——模糊介紹語義相連的詞
? ? ? ? ? ? ? ? ? 將多重語義的詞分開,從而辨識主題——語義模糊問題
用概率主題模型表示
共有詞:主題共用一些詞,共用的意思就是甚至共用概率可能性閥值(黑色)
? ? ? ? ? ? ? ?因其在不同主題中的概率不同,所以也起到了分離語感的作用。
增加:每個主題中的詞匯的總概率和也為1.
2.3生成模型
? ? ? ? 1、為數(shù)據(jù)設(shè)計一個概率模型來還原數(shù)據(jù)的生成(使參數(shù)盡可能匹配)
? ? ? ? 2、已知:特別的模型和參數(shù)^
? ? ? ? ? ? ? ? ? ? ? ? ?即詞匯分布
????????????????????????概率極限數(shù)值(有每個文檔的一組π,因為有n個文檔 所以我們有n組π),
? ? ? ? ? 3、 有多少個參數(shù)?
? ? ? ? ? ? ? ? ?答:n個文檔,K個大主題,假設(shè)每個大主題有t個術(shù)語,即共有kt+k個參數(shù)
? ? ? ? ? ? 4、匹配數(shù)據(jù)后,還原一些參數(shù)值,將使用特定參數(shù)值及這種算法的結(jié)果
Y軸:觀察到的數(shù)據(jù)概率(最大化)。X軸:^
? ? ? ? 當(dāng)定義一個主題為分布,那么文章文字主題數(shù)目和詞匯表組的沖突就是一個輸出。得到的結(jié)果就是一組主題,每一個是一個詞匯分布,同時也覆蓋每個文檔中所有主題。這些可以用Θ和π來指代,在這些參數(shù)上還有兩個限制。第一個是詞匯分布的限制,每個詞匯分布中所有詞的概率總和必須是1 。第二個限制是關(guān)于每個文檔的主題覆蓋,一個文檔不允許在發(fā)現(xiàn)的主題組之外還原,所以一個文檔中k個主題的每一個主題的覆蓋總和為1。
三、統(tǒng)計語言模型(LM)
3.1? ?概念:
統(tǒng)計語言模型:是指??單詞序列? ?的概率分布
明顯地具有上下文依賴的性質(zhì),某些單詞序列相比別的單詞序列具有更高的概率
可看做:文本生成的概率機制
一元語法模型(Unigram LM)
假設(shè):這種模型獨立地生成構(gòu)成文本的每一個單詞
模型給出每個單詞的概率,但是忽略了單詞的順序。但已足夠處理主題分析在內(nèi)的許多課題。
抽樣問題:
? ??給定一個模型,我們觀察到某一類數(shù)據(jù)點的概率
????給定特定的分布,不同的文本將對應(yīng)不同的概率
????在所有字在這個分布中的概率 都非零的假設(shè)前提下,這意味著, 本質(zhì)上我們可以生成所有類型的文本文檔,包括有意義的文本文檔。
估計問題:
????基于給定模型和某些觀測值的參數(shù)估計
? ? 假設(shè),我已經(jīng)知道生成的文本的具體內(nèi)容,用于生成這個文本數(shù)據(jù)的語言模型,最有可能是什么樣的?
? ? 直觀上,根據(jù)生成文本中單詞出現(xiàn)的頻次來估計原始文本。但是這是最優(yōu)的嗎?
? ? 我們的猜測在某種意義上的確是最優(yōu)的,這種估計叫做極大似然估計。稱它是最優(yōu)的是因為它能賦予我們的被觀測數(shù)據(jù)最大概率。
3.2? 兩種參數(shù)估計方法
1、極大似然估計法
? ? ????最優(yōu)定義:數(shù)值似然值達到最大
? ????? 尋求能夠最好地解釋數(shù)據(jù)的參數(shù),但是當(dāng)數(shù)據(jù)太小時它也會產(chǎn)生問題。因為如果數(shù)據(jù)點太小(很少的數(shù)據(jù)點)。在樣本集合很小的情況下, 如果我們完全依賴于已有數(shù)據(jù),并且試圖使估計擬合這些數(shù)據(jù),則將導(dǎo)致偏差。
? ??????未觀察到的單詞的0概率,有時候可能并不合理。尤其當(dāng)我們想要用這個分布來描述文本挖掘主題的特征時。
2、貝葉斯估計(最大后驗估計? MAP估計)
數(shù)據(jù)有偏向
????????假設(shè)p(X):表述的是我們對于X的先驗信念(即在觀察到任何其他數(shù)據(jù)之前,我們已經(jīng)對X有了信念(belief)--我們相信X取某些值的概率比其他值更高)
????????給定Y條件下的X的概率:關(guān)于X的后驗信念(我們觀察到Y(jié)之后對于X值分布的信念)
? ? ? ? 后驗與先驗通過? P(Y|X)? ?建立了聯(lián)系。
? ? ? ? 則通過? ?先驗*似然值? ?得到一個折衷值。
如何定義先驗
?值的分布:哪些?值可能性更大
f(?):根據(jù)給定觀察證據(jù)X條件下 ?的后驗分布得到的 f的期望值作為 f的估計值
作為一個特例,我們假設(shè)f(?) = ?,則我們得到的是?的期望值? 實際上就是?的后驗均值。這個值也對應(yīng)一個?點,這個點有時與后驗眾數(shù)(mode)一致 ,但并非總是如此。所以 ,它也給出了參數(shù)估計的另一種方法。
3.3 實例(一文檔,一主題)
第一步思考:怎樣的數(shù)據(jù),怎樣建模。
第二步:考慮似然函數(shù),或?qū)懴履承┧迫缓瘮?shù),以正式地獲得這個模型中某個數(shù)據(jù)點的概率
第三步:考慮參數(shù)的估計。我們希望用來表示一個主題的詞語分布所以參數(shù)的數(shù)量將和單詞表中的單詞數(shù)一致(M)
約束最大化問題
拉格朗日乘數(shù)法
高概率是功能詞——去掉方法:詳見下周
要注意第5題,要分別計算兩詞的概率,再進行乘積