1、Unicode在很長一段時間內無法推廣,直到互聯網的出現?
我的理解是由于互聯網的出現,全世界說著各種語言的人,需要大頻次的交流,導致了語言的編解碼問題。
2、unicode是一個碼表(全世界每一個已知的符號均有一個一一對應的碼(4個16進制的數))
3、py開頭和ide中當前類(setting——》file encoding——》右邊的加號)都設置都是utf-8,那么當從鍵盤輸入“中”時,將“中”的unicode碼使用utf-8的方式存儲起來,“中”對應的unicode碼使用utf-8對應的值是3個字節(所以使用len("中”)是3),而setting——》file encoding——》project encoding 包含了下面控制臺的編碼,如果這里也使用utf—8的編碼方式,那兩者的編碼方式方式一樣,字就不會亂碼(我理解的是都轉回unicode,然后在查碼表)
4、如果py 開頭和ide中當前類設置的是gbk或者gb2312,那就利用這個碼表將“中”轉化為相應的字節串,如果project ?encoding設置的utf-8,那么就需要將“中”解碼為unicode,或解碼為unicode,然后編碼為utf-8(從這里看utf-8編碼后的值和unicode 值,utf-8都認識
5、windows 系統默認的是gbk ,可以使用cmd 輸入“chcp”對應的936就是gbk,其他系統默認的不是gbk?
6、從電腦中直接度過來的語句就是電腦默認的編碼格式,就是系統默認的編碼格式,除非是之前另存過其他編碼格式,而在pycharm中直接輸入的語句就是當前的編碼格式。