【Python自學】03.字符串和編碼(上)

打了雞血,一天二更
     

動態(tài)圖嘗試上傳ing

   之前也說過字符串是一種數(shù)據(jù)類型,但是它比較特殊,主要是因為編碼問題。既然如此,先搞清楚下計算機編碼的相關內(nèi)容。

計算機編碼

  • 只處理數(shù)字,要處理文本就得先把文本轉(zhuǎn)為數(shù)字才能處理。
  • 早期設計 8 bit 表示一個字節(jié),一字節(jié)表示最大整數(shù) 11111111=十進制255
  • 兩字節(jié)可表示最大65535,四字節(jié)4294967295
  • 世界上有上百種語言,不同的國家可能有不同的標準,例如 ASCII 和 GB

ASCII編碼:

美國人最早只把127個字母編碼進計算機去,大小寫英文字母、數(shù)字和符號。例如大寫 A 編碼 65,小寫 z 編碼是122。

GB2312編碼:

我國為了計算機處理中文(需要至少兩個字節(jié)),創(chuàng)建的一種與 ASCII 編碼不沖突的編碼。

Unicode標準/編碼

因為各國標準不一,創(chuàng)的編碼也許完全不同,所以會不可避免地出現(xiàn)沖突,結(jié)果就是在多語言混合的文本當中,顯示出來一堆的亂碼。于是乎,Unicode標準就是在此時應運而生,將所有語言統(tǒng)一到一套編碼里面。

  • 常用兩個字節(jié)表示一個字符,非常偏僻的字符用上 4 個
  • 現(xiàn)代大多數(shù)操作系統(tǒng)和編程語言都支持該編碼

ASCII與Unicode的區(qū)別:

  • ASCII編碼是 1 字節(jié),而Unicode通常是2字節(jié)
  • ASCII編碼中,A 是十進制的65(010000001),字符 0 是十進制的48(00110000)(注意‘0’和0不同)。漢字已經(jīng)超出 ASCII 編碼范圍,而 Unicode 的十進制是20013(01001110 00101101)
  • 如果要將 ASCII 編碼中的 A 改為 Unicode 編碼,前面補 0 即可:00000000 01000001

UTF-8編碼:

  • 如果全是用 Unicode 編碼,亂碼解決了,但是寫的文本全英,用 Unicode 編碼比 ASCII 編碼需要多一倍的存儲空間,在存儲和傳輸上就非常不劃算。于是乎節(jié)約版“可變長編碼”UTF-8又橫空出世。
  • 把 Unicode 字符根據(jù)不同數(shù)字大小編寫成 1-6 個字節(jié):    
      常用英文字幕編成1字節(jié)
    漢字通常編寫成3個字節(jié),很生僻的字符編寫成 4-6 個字節(jié)
  • 優(yōu)點:
      如果傳輸?shù)奈谋景罅坑⑽淖址瑢⒐?jié)省大部分空間
      大量支持 ASCII 編碼的歷史遺留軟件可以在 UTF-8 編碼下繼續(xù)工作。

目前計算機系統(tǒng)通用的字符編碼工作方式

  • 在計算機內(nèi)存中,統(tǒng)一使用 Unicode 編碼,當需要保存到硬盤或者傳輸?shù)臅r候就轉(zhuǎn)換成為 UTF-8 編碼。
  • 使用筆記本編輯時:
               
    讀取時UTF-8轉(zhuǎn)換成Unicode,保存時相反
  • 瀏覽器:
              
    瀏覽網(wǎng)頁的時候,服務器會把動態(tài)生成的Unicode內(nèi)容轉(zhuǎn)換為UTF-8再傳輸?shù)綖g覽器

      很多網(wǎng)頁上的源碼有類似<meta charset="UTF-8" />的信息,表示該網(wǎng)頁正是用的 UTF-8 編碼。

好多文字...基本上搬過來了,嘛,隨便看看得了
  

反正又沒有說要考試

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,247評論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,520評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,362評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,805評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,541評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,896評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,887評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,062評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,608評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,356評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,555評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,077評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,769評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,175評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,489評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,289評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,516評論 2 379

推薦閱讀更多精彩內(nèi)容