web應用中瀏覽器與服務端的編碼和解碼

基本概念

有信息交換就會產生編碼、傳輸、解碼三個過程。編碼是信息從一種形式轉變成另一種形式的過程,正如人類的語言通過聲帶編碼,轉換成聲波。解碼是編碼的逆函數,耳膜接收聲波,通過腦神經解碼成人類文化所能理解的信息。

字符集是一種文化上下文下的所有文字符號集合,它的作用是規定了某個文化下的所有字符,以及該字符在信息交換系統下的表示方式,在計算機信息系統下是字節或01序列。本文會在某些時刻將字符集和編碼方案互用,以方便理解。

對于javaweb應用,狹隘的編碼解碼的過程可以簡單的理解為:編碼的過程是文本字符串信息編碼成01序列,解碼是將01序列恢復為文本字符串信息,具體編碼成什么樣的01序列是由編碼采用的字符集來決定的,也就是編碼方案。

亂碼是對信息采用的編碼方案無法理解,使用了錯誤的編碼方案對信息進行解碼造成的。如果要理解一段信息的真實意圖,就得知道信息采用的編碼方案,這是信息交換的密鑰,這就是為什么戰爭年代破解對方電報加密方式,實際上就是在破譯對方的編碼方案。

http協議層的編碼解碼

http協議層的字符集關系到http發送者和接送者采用什么字符集方案解析對方發送的內容。

瀏覽器端的編碼

請求端常規請求方式主要為form、url、ajax、http組件如HttpClientAPI。

瀏覽器存在文檔編碼方案charset的概念,文檔的編碼方案等同于文檔解碼方案,它對文檔中發生的請求編碼會產生影響。

影響form提交數據的編碼的因素包括:form的accept-charset屬性、html文檔的編碼方案即document.charset。其中,form的accept-charset是否能夠有效,依賴具體瀏覽器的實現,有些瀏覽器并不支持,如IE。文檔編碼方案可以通過document.charset來修改。

文檔內的url編碼,如iframe的src指定的url,以文檔編碼方案為準,地址欄的url的編碼方案完全取決于具體的瀏覽器實現,通過HttpClient組件發送請求時,url是能任意指定編碼方案的。

ajax發送http請求的url編碼方式完全取決于瀏覽器實現,一般支持以文檔編碼方案來決定,但是數據體統一采用utf-8,另外,雖然ajax可以指定header在contenttype說明編碼方案,但這種做法不會對url、數據體的編碼方案產生任何影響,甚至在有些瀏覽器中,最終contenttype中的編碼描述都無法真正影響。

另外,header的編碼方案是iso-8859-1,這個是http規范。

服務端的解碼

服務端的httpserver需要解碼的對象包括:header、url、數據體。

header解碼方案是iso-8859-1。

url解碼方案通常稱為URIEncoding,一般HttpServer會提供相應設置,標準servlet并不提供該接口。jetty默認utf-8字符集來解碼,但其他httpserver如tomcat會默認iso-8859-1。

數據體解碼在servlet中可以通過request.setCharacterEncoding來設置。一般的,有些httpserver會以characterEncoding>request請求頭字符集>utf-8的優先順序來決定數據體的解碼方案。

服務端的編碼

服務端httpserver需要編碼的對象是:header、數據體。

header的編碼方案同樣是iso-8859-1。

通常情況下,服務端必須要指定返回數據體的編碼方案且要在header中標注編碼方案,否則httpserver一般默認iso-8859-1對輸出進行編碼,而瀏覽器也無法得知返回數據體的編碼方案,只能自行猜測,完全依賴瀏覽器自己的實現。

response.setCharacterEncoding的職能是告訴httpserver數據體的編碼方案,并不會也不應該影響到header中的編碼方案的標注。response.setContentType會影響到header的編碼方案的標注,瀏覽器根據該標識決定解碼方案。對于一個健全的httpserver來說,在同時通過兩個方法指定了數據體編碼方案和header編碼方案標注的情況下,數據體編碼方案應該由后者決定,這樣使瀏覽器端得到的編碼信息和服務端真正編碼信息一致。另外,一定要注意的是這兩個指定編碼方案的方法必須在response創建輸出流之前調用,輸出流一旦創建,編碼方案無法后期指定。

瀏覽器端的解碼

瀏覽器端對返回進行解碼的對象包括:header、數據體。

header的解碼方案是iso-8859-1。

瀏覽器的數據體解碼方案依賴返回信息,瀏覽器首先從返回頭header中查找編碼方案標注,如果沒有標注,在得知返回內容為html內容的話,將從head的meta標簽中讀取,如果還沒找到,瀏覽器就不知道如何解碼,會消極的選擇一種解碼方案。

在理論上,推薦html文檔在meta中聲明編碼,且編碼的聲明一定要在文件開始的1024字節內完成,所以最好在head標簽開始時立即聲明。

文檔中通常都會有一些通過url下載的資源文件,如css和js文件,如果資源文件輸出時沒有在返回頭中指定明確的編碼方案,瀏覽器無法得知編碼方案,只能以上面介紹到的文檔編碼方案來進行解碼,這也是瀏覽器容錯的最佳策略。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380

推薦閱讀更多精彩內容