
基于規(guī)則集,rule-base: XX 是 XXXX 類似于 XXXX 成立于 XX年 XX月規(guī)則集合可以設(shè)置一些限制, 比如實(shí)體的類型。 優(yōu)點(diǎn)...
命名實(shí)體識(shí)別 即專有名詞,如人名,地名,機(jī)構(gòu)等等 有限集合,基于詞庫 1.詞庫+分類詞庫中無法識(shí)別的一些詞,可通過相似度,以及分類方法識(shí)別例如 ...
在講隱馬模型之前,首先要了解下,啥是馬爾可夫模型。 馬爾可夫模型 幾個(gè)條件 當(dāng)前狀態(tài)只與前一個(gè)狀態(tài)相關(guān) 一個(gè)狀態(tài)到所有狀態(tài)的轉(zhuǎn)移概率和為1 概率...
前言 最進(jìn)在看分詞源碼,發(fā)現(xiàn)詞庫的存儲(chǔ)是基于Trie樹的數(shù)據(jù)結(jié)構(gòu),特此了解了下其原理。Trie樹又叫前綴樹,字典樹。Trie樹的用途:字典搜索,...
中期總結(jié) 最近在工作中,涉及到多分類問題,原先采取的是邏輯回歸策略進(jìn)行求解,效果還算理想。主要存在以下幾個(gè)問題: 1.訓(xùn)練的模型較多,one v...
校驗(yàn)二分類特征相關(guān)性 1.1 統(tǒng)計(jì)樣本集中文檔總數(shù)(N)。 1.2 統(tǒng)計(jì)每個(gè)詞的正文檔出現(xiàn)頻率(A)、負(fù)文檔出現(xiàn)頻率(B)、正文檔不出現(xiàn)頻率)...
語言模型 一個(gè)語言模型通常構(gòu)建為字符串的S的概率分布P(s)。比如,每個(gè)人100句話中平均大約有一句“你好”,那么“你好”這句話的概率大致為,像...
概述: 喬姆斯基(Noam Chomky)曾經(jīng)把語言定義為:按照一定規(guī)律構(gòu)成的句子和字符串的有限或無限的集合。也有把語言看成一個(gè)數(shù)學(xué)系統(tǒng).......
過擬合 正則化特點(diǎn) 都是通過限制權(quán)限的大小。L1:讓參數(shù)變得更稀疏,即使更多的參數(shù)變?yōu)?,類似特征提取。L2:弱參數(shù)平方后變的更小,模型優(yōu)化中幾...