R文本分析(二)

文本預處理

1.設置路徑

setwd("e://r語言學習//r代碼")

2.加載詞典

installDict("D:\\R\\sources\\Dictionaries\\news.scel",dictname = "news1")

installDict("D:\\R\\sources\\Dictionaries\\news2.scel",dictname = "news2")

listDict()

3.加載文檔

data <-readLines("d:\\R\\RWorkspace\\fhnews.txt",encoding ="UTF-8")

4.去除特殊詞

dataTemp <- gsub("[0-90123456789 < > ~]","",data)

5.分詞

dataTemp <- segmentCN(dataTemp)

dataTemp[1:2]

6.去除停用詞

stopwords<- unlist(read.table("D:\\R\\RWorkspace\\StopWords.txt",stringsAsFactors=F))

stopwords[50:100]

removeStopWords <- function(x,stopwords) {

temp <- character(0)

index <- 1

xLen <- length(x)

while (index <= xLen) {

if (length(stopwords[stopwords==x[index]]) <1)

temp<- c(temp,x[index])

index <- index +1

}

temp

}

> dataTemp2 <-lapply(dataTemp,removeStopWords,stopwords)

> dataTemp2[1:2]

文本分類

通過詞頻的余弦相似度做文本分類

1.加載語料庫

library("tm")

reuters =VCorpus(VectorSource(doc_CN))

reuters <- tm_map(reuters, stripWhitespace)

2.刪除停用詞

data_stw<- unlist (read.table("E:\\text mining\\stopword\\中文停用詞.txt",stringsAsFactors=F))

#head(data_stw,n=10)

reuters=tm_map(reuters,removeWords,data_stw)

3.生成TF-IDF特征

control=list(removePunctuation=T,minDocFreq=5,wordLengths = c(1, Inf),weighting = weightTfIdf)

doc.tdm=TermDocumentMatrix(reuters,control)

length(doc.tdm$dimnames$Terms)

tdm_removed=removeSparseTerms(doc.tdm, 0.97)

length(tdm_removed$dimnames$Terms)

mat = as.matrix(tdm_removed)####轉換成文檔矩陣

classifier = naiveBayes(mat[1:x,], as.factor(data$標題[1:x]) )##貝葉斯分類器,訓練

predicted = predict(classifier, mat[z:y,]);#預測

A=table(data$標題[z:y], predicted)#預測交叉矩陣

predicted財經 禪道 軍事 科技

財經? 10? 28? ? 34? ? 1

禪道? ? 0? 41? ? 4? ? 0

軍事? ? 0? 10? ? 25? ? 0

科技? ? 4? 21? ? 18? 11

b1=length(which(predicted==data$標題[z:y]))/length(predicted)#計算召回率

b1[1] 0.4202899

補充:其它機器學習分類算法

library(RTextTools)

container = create_container(mat[1:y,], as.factor(data$標題[1:y]) ,

trainSize=1:x, testSize=1:y,virgin=TRUE)

models = train_models(container, algorithms=c("BAGGING" ,? "MAXENT" ,? "NNET" ,? ? "RF"? ? ,? ? "SVM" ,? ? "TREE" ))

results = classify_models(container, models)

#How about the accuracy?

# recall accuracy

森林=recall_accuracy(as.numeric(as.factor(data$標題[z:y])), results[,"FORESTS_LABEL"])

最大熵=recall_accuracy(as.numeric(as.factor(data$標題[z:y])), results[,"MAXENTROPY_LABEL"])

決策樹=recall_accuracy(as.numeric(as.factor(data$標題[z:y])), results[,"TREE_LABEL"])

袋袋=recall_accuracy(as.numeric(as.factor(data$標題[z:y])), results[,"BAGGING_LABEL"])

向量機=recall_accuracy(as.numeric(as.factor(data$標題[z:y])), results[,"SVM_LABEL"])

神經網絡=recall_accuracy(as.numeric(as.factor(data$標題[z:y])), results[,"NNETWORK_LABEL"])

a=c()

c=c()

e=c()

a=cbind( 隨機森林=as.vector(results[,"FORESTS_LABEL"]), 決策樹=as.vector(results[,"TREE_LABEL"]) , 支持向量機=as.vector(results[,"SVM_LABEL"]),貝葉斯=as.vector(predicted), 最大熵=as.vector(results[,"MAXENTROPY_LABEL"]),袋袋=as.vector(results[,"BAGGING_LABEL"]),神經網絡=as.vector( results[,"NNETWORK_LABEL"]))

for(i in 1:length(results[,"FORESTS_LABEL"][z:y]))

{

b=table(a[i,])

c[i]<-names(which(b==max(table(a[i,]))))

}

模型預測=cbind(a,組合模型=c)

A=table(data$標題[z:y],c)

b=length(which(c==data$標題[z:y]))/length(c)

組合模型=b

e=c(貝葉斯=b1,森林=森林,最大熵=最大熵,決策樹=決策樹,袋袋=袋袋,向量機=向量機,神經網絡=神經網絡,組合投票=組合模型)

##結果該滿意了吧!??!

e? 貝葉斯? ? ? 森林? ? 最大熵? ? 決策樹? ? ? 袋袋? ? 向量機? 神經網絡? 組合投票

0.4202899 1.0000000 1.0000000 0.5893720 1.0000000 0.3526570 0.9033816 1.0000000

文本聚類

文本聚類就沒什么技術含量了,主要原因是其實非監督學習,效果一般不是很好。

data=t(mat[,1:50])

data.scale <- scale(data)

d <- dist(data.scale, method = "euclidean")

fit <- hclust(d, method="ward.D")

plot(fit,main="文本聚類")

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容

  • 傻逼有傻逼的通行證,無恥有無恥者的墓志銘
    JessicaMei閱讀 291評論 0 0
  • 昨天聽了Angie老師的第一講,印象最深的一個觀點是Angie老師提出的用事件來衡量時間的使用情況的方法:將對自己...
    愛之涯閱讀 168評論 0 1
  • 聽到過兩次路人媽媽對孩子說“要你有何用”。聽到這樣的話,真的不知道她們要孩子是干嘛用的………… 事件一 ...
    安于身閱讀 846評論 0 0