三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<em id="pnhu9"></em>

<legend id="pnhu9"><li id="pnhu9"><menuitem id="pnhu9"></menuitem></li></legend>

登錄注冊寫文章

學英語的一種辦法

學英語的一種辦法

我是個興趣廣泛的人，看很多書，經常會下載一些英文的pdf放在ipad上閱讀，英語的單詞量還沒達到專業8級的水平，感覺不認識的單詞比較多，始終是個困擾。

某些英文pdf與中文復印而成的pdf不同，它里面的文本應該是可以提取出來的，

然后對這本書中出現的單詞做統一詞根處理，再進行詞頻統計，從高到低排序，展示給用戶，

用戶對每個單詞都挨個打上標記，哪些已經掌握了，哪些還沒掌握，如果在其他書中已經標記過的，可以直接把標記記錄加載到當前這本書中。日積月累，就行成了一個用戶已掌握、未掌握單詞的數據庫。

經常翻翻那些未掌握的單詞，這些單詞出現在那本書中，出現的句子是什么，單詞的中文意思是什么，等等。

相信會有助于英語單詞的快速掌握。

實現方案：

從pdf中提取文本 - PDFMiner庫
<pre>
import pyPdf
def convertPdf2String(path):
pdf = pyPdf.PdfFileReader(file(path, "rb"))
print pdf.getNumPages()
for page in pdf.pages:
print page.extractText().encode("ascii", "ignore")
</pre>
使用python nltk做詞頻統計
<pre>
tokens = nltk.word_tokenize(content)
x = nltk.FreqDist(tokens)
sorted_x = sorted(x.items(), key=operator.itemgetter(1),reverse=True)
for a in sorted_x:
print a[0],a[1]
</pre>
效果還不是特別好，應該把字符、數字去掉，只保留英文單詞
UI，呈現-標簽
將詞頻統計結果呈現給用戶，允許用戶打標簽：已掌握，尚未掌握
單詞復習，詞頻高、又沒有掌握的

數據庫表：用戶、圖書、用戶-單詞、圖書-單詞-詞頻、單詞

~原始想法：
自然語言處理，統計詞頻，按高低排序，用戶可以為每個詞打個記號，哪些是已經知道意思的，哪些是不知道的，形成一個用戶都掌握了哪些單詞的詞典庫，經過積累后，用戶對于自己掌握哪些單詞，就非常清楚了。

最后編輯于：2017.12.03 04:23:42

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

作業筆記10_nltk
加載nltk.book中的text，完成以下問題在text2中有多少個詞？有多少個不同的詞？嘗試寫一個切片表達...
ChZ_CC閱讀 2,454評論 0贊 3
Android - 收藏集
Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
passiontim閱讀 173,359評論 25贊 708
??[1/2]Clojure入門教程: Clojure – Functional Program...
//Clojure入門教程: Clojure – Functional Programming for the J...
葡萄喃喃囈語閱讀 3,771評論 0贊 7
我不后悔
我愛你
我與女友的記錄本閱讀 243評論 0贊 0
2.14.思維導圖班 Day14 15:00-18:00作業點評
轉眼已到異國他鄉，作業收到7份。外出地鐵上點評。死磕軍團第一人！贊一個！從斷舍離開始引爆，內容豐富舒展，又體現了...
陌上花開wen閱讀 911評論 0贊 0

2贊3贊

贊賞

手機看全文

主站蜘蛛池模板：东安县| 深水埗区| 嵊州市| 卫辉市| 泽普县| 保德县| 榆社县| 若羌县| 靖江市| 红安县| 泸溪县| 兴文县| 姚安县| 噶尔县| 乐都县| 乐亭县| 太谷县| 大埔区| 井研县| 大悟县| 云和县| 麟游县| 儋州市| 大英县| 昭平县| 龙南县| 铁力市| 天镇县| 呼图壁县| 温宿县| 波密县| 长宁县| 响水县| 介休市| 镇原县| 西畴县| 沁阳市| 黔西| 城口县| 阜南县| 桓仁|

<blockquote id="f858j"><i id="f858j"><video id="f858j"></video></i></blockquote>

<sub id="f858j"><p id="f858j"><form id="f858j"></form></p></sub>