python處理中文文本

最近遇到一個問題,要處理一堆中文文本,這些中文文本在同一個文件夾中,編碼格式各不相同。我用codecs的時候需要指定文件的編碼格式,這個時候就不是那么好用了。

搜來搜去,發現python-magic這個庫可以完成我的任務。

首先安裝python-magic

pip install python-magic

然后我們可以處理這個文件夾了

# -*- coding= utf-8 -*-
import codecs as cs
import os

for p, d, fs in os.walk('test'):
    for f in fs:
        blob = open(os.path.join(p, f)).read()
        m = magic.Magic(mime_encoding=True)
        encoding = m.from_buffer(blob)
        if encoding == 'utf_16be':
            encoding = 'utf_16_be'
        ......
        with cs.open(os.path.join(p, f), 'r', encoding):
            some operations
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Python 二三事 面向初學者介紹Python相關的一些工具,以及可能遇到的常見問題。 最后更新 2013.5....
    hzyido閱讀 67,817評論 2 42
  • 引言 在這里我假設你已經看完了一篇Python教程,基本熟悉了Python的結構和語法,在命令行下的Python互...
    Programmer客棧閱讀 65,142評論 0 17
  • (這是很早之前寫的但內容沒有太過時,發到這邊補全一下...)面向初學者介紹Python相關的一些工具,以及可能遇到...
    jagttt閱讀 67,353評論 3 44
  • 如果說前二個咖啡館都不算真正意義上的咖咖啡館,那開在新世界國貿大廈寫字樓的才算第一間真正的參差咖啡館,名字...
    秀麗有約閱讀 296評論 2 12
  • 是誰剝奪了我們生產的樂趣? 你還會生產嗎?除了工作,你下過廚房嗎?除了旅游,你體驗過耕種嗎?過去我們有自己土地、田...
    元子豐豐閱讀 253評論 0 0