python day 07關(guān)于孔乙己的索引爬蟲

偶看<<孔乙己>>,用爬蟲爬出了孔乙己文中三個字的詞組.


孔乙己爬蟲

代碼如下

import jieba
# 導入結(jié)巴模塊
with open('kongyiji.txt','r', encoding='utf-8') as f:
    kongyiji = f.read()

seg_list = jieba.cut(kongyiji)
words = list(seg_list)

d = {}
for w in words:
    count = d.get(w, 0)
    d[w] = count + 1

keys = d.keys()

word_list = []
for k in keys:
    word = [k, d.get(k)]
    word_list.append(word)

def max(array):
    m = array[0]
    for i in array:
        if m[1] < i[1]:
            m = i
    return m

def sort(array):
    result = []
    for i in range(len(array)):
        m = max(array)
        result.append(m)
        array.remove(m)
    return result

def fliter(array):
    result = []
    for w in array:
        if len(w[0]) >= 3:
            result.append(w)
    return result

sorted_words = sort(word_list)
result = fliter(sorted_words)

for w in result[:]:
    print(w)

結(jié)果是(后面的數(shù)字是文章中詞組出現(xiàn)的次數(shù))

['孔乙己', 33]
['茴香豆', 5]
['十九個', 4]
['不耐煩', 2]
['掌柜的', 2]
['之乎者也', 2]
['怎么樣', 2]
['半懂不懂', 2]
['端出去', 1]
['睜大眼睛', 1]
['自此以后', 1]
['免不了', 1]
['嘆一口氣', 1]
['十多年', 1]
['伸出頭', 1]
['這時候', 1]
['不一會', 1]
['壞脾氣', 1]
['第二年', 1]
['背地里', 1]
['做點事', 1]
['漲紅了臉', 1]
['大半夜', 1]
['一九一九年', 1]
['努著嘴', 1]
['兩三天', 1]
['多不多', 1]
['二十多年', 1]
['亂蓬蓬', 1]
['君子固窮', 1]
['十二歲', 1]
['嘮嘮叨叨', 1]
['趕熱鬧', 1]
['曲尺形', 1]
['說笑聲', 1]
['對柜里', 1]
['看一看', 1]
['讀書人', 1]
['替人家', 1]
['干不了', 1]
['纏夾不清', 1]
當然想查找其他的索引要求可以隨意添加,技術(shù)比較好實現(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

  • 魯鎮(zhèn)的酒店的格局,是和別處不同的:都是當街一個曲尺形的大柜臺,柜里面預備著熱水,可以隨時溫酒。做工的人,傍午傍晚散...
    簡明估閱讀 28,081評論 0 1
  • 魯鎮(zhèn)的酒店的格局,是和別處不同的:都是當街一個曲尺形的大柜臺,柜里面預備著熱水,可以隨時溫酒。做工的人,傍午傍晚散...
    范pc閱讀 359評論 0 0
  • 咸亨酒店的格局,是和別處不同的。當街一個曲尺形的大柜臺,柜里面預備著熱水,可以隨時溫酒。做工的人,傍午傍晚散了工,...
    Scorpio幻蝶閱讀 1,098評論 0 1
  • 《孔乙己》是魯迅先生的一篇小說,最初發(fā)表于1919年《新青年》第6卷中,后來編入了魯迅先生的小說集子《吶喊...
    方太婆閱讀 1,438評論 0 2
  • 我不抽煙,不愛喝酒。抽煙傷肺,還費錢。喝酒讓人失去理智,誤事,沒用。但是一個人總歸還是有兩個對自己身體不好的習慣。...
    玻璃瓶可樂閱讀 371評論 0 0