三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

關於英文預處理

不要想當然使用split()進行分詞，這樣的分詞並不會去掉標點符號。
常用的分詞工具在nltk中就有。

from nltk import word_tokenize
content = word_tokenize(html_doc.decode('utf8'))

但是這個就不能去除標點符號了

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
content = tokenizer.tokenize(html_doc.decode('utf8'))

# cdoe for stemming
from nltk.stem.porter import PorterStemmer 
porter_stemmer = PorterStemmer()
porter_stemmer.stem(word.lower().decode('utf-8'))

最后編輯于：2017.12.05 02:55:31

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

shell十三問
為何叫做 shell ？ shell prompt(PS1) 與 Carriage Return(CR) 的關系？...
Zero___閱讀 3,182評論 3贊 49
提問的智慧How To Ask Questions The Smart Way
提問的智慧 How To Ask Questions The Smart Way Copyright ? 2001...
Albert陳凱閱讀 2,395評論 0贊 8
Markdown 語法說明
找到了一個不錯的學習Markdown語言的文檔，發在這里供自己隨時查閱，也希望能對大家有所幫助。想要速成的朋友可以...
山公子閱讀 523評論 0贊 1
時光清淺
文/寞霏魚兒在水雀在天。一紙素箋，滿懷思念。遠江連波雨帶寒。時光清淺，往事如煙。三盞冷酒穿腸憂。暮...
寞霏閱讀 310評論 0贊 0
AppleWatch開發入門（3）——Table視圖的應用
本文章是一個系列，如果有興趣可以看看以下文章：AppleWatch開發入門（1）——界面布局AppleWatch開...
小道蕭兮閱讀 2,510評論 0贊 6

1贊2贊

贊賞

手機看全文