Python日常問題記錄

  1. 使用scrapy抓取百科的鏈接,抓到的都是經(jīng)過encode的地址,試圖將其decode并顯示在控制臺時,顯示亂碼

解決過程:
1. import urllib,試圖使用urllib.unquote將其解碼
import urllib
url = urllib.unquote(url.strip()) #url => "/fenlei/%E9%87%91%E8%9E%8D%E5%B8%82%E5%9C%BA"
print(url)
//顯示 "'gbk' codec can't encode character u'\xe5' in position 8: illegal multibyte sequence"
//查閱資料,應(yīng)該是windows控制臺的編碼是gbk導(dǎo)致
//于是各種嘗試:
url = urllib.unquote(url.strip()).decode("utf-8") //不行
url = urllib.unquote(url.strip()).decode("gbk") //不行
//最終通過下邊代碼成功
url = urllib.unquote(str(url.strip())).decode("utf-8")

  1. 使用json模塊處理中文,或者list等結(jié)構(gòu)中含有中文,用json.dumps()轉(zhuǎn)換為json存入到數(shù)據(jù)庫中時,中文會自動轉(zhuǎn)變?yōu)閡nicode,當(dāng)取出來時,變成比如:
    a = '\u7387\u4e0a\u5347\u3001\u571f\u5730\u653f\u7b56\u653e\u677e\u3001'
    print a #"\u7387\u4e0a\u5347\u3001\u571f\u5730\u653f\u7b56\u653e\u677e\u3001"
    //這是可以用a.decode("unicode_escape")將其轉(zhuǎn)換為unicode
    a = a.decode("unicode_escape") #a=u'\u7387\u4e0a\u5347\u3001\u571f\u5730\u653f\u7b56\u653e\u677e\u3001'
    print a #率上升、土地政策放松、
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容