URL編碼總結

URL是Universal Resource Locator的簡稱,翻譯過來那就是統一資源定位符,好吧,我們經常會俗稱為網頁地址。一個URL的格式通常是這樣的:
協議類型://服務器地址(必要時需加上端口號)/路徑/文件名?參數,比如http://zh.wikipedia.org:80/w/index.php?title=Special,協議是HTTP,服務器地址是zh.wikipedia.org,端口是80,路徑和文件名是/w/index.php,參數是title=Special。還有個與URL相關的概念URI,URI是統一資源標示符,URL是URI的一種,用于標示互聯網資源,并指定了對資源的操作和獲取方法。URL大部分情況下都只有英文字符,這樣也就不存在編碼問題,如果URL中有了中文,那么編碼規則是什么呢?實際上,RFC并沒有標準規定URL的編碼方式,所以不同的瀏覽器的表現可能是不同的,下面就總結下。主要參考了阮一峰的關于URL編碼一文,當然有些地方我測試的結果會有所不同,大家可以根據自己的系統環境進行區分。

1 URL路徑中包含中文

如果URL路徑中包含中文,經過測試發現不管IE6.0還是Chrome,編碼都是采用的UTF-8。其他瀏覽器暫時沒有測試,猜想應該一致。

測試的URL是:http://zh.wikipedia.org/wiki/中文.在chrome的開發者工具中可以看到實際的URL是http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%96%87,其中E4B8AD E69687正是"中文"的UTF-8編碼。

2 URL查詢參數中包含中文

如果查詢參數中包含中文,則經過測試發現,IE6.0采用的是操作系統編碼,Chrome采用的是UTF-8編碼

測試的URL是:http://www.baidu.com/s?wd=中文。通過測試可以發現,在IE6下面“中文”實際被轉成了%B0%D9%B6%C8,chrome下面則轉成了%E4%B8%AD%E6%96%87

3 表單參數的中文編碼

表單提交時,不管是IE6還是Chrome,參數中中文的編碼則根據HTML代碼中指定的字符編碼來決定(也就是html代碼中<meta>標簽指定的字符編碼)。當然這是在form中沒有指定accept-charset的情況下,如果form中加了accept-charset="GBK”屬性,則表單參數則由accept-charset指定編碼進行編碼。

測試代碼如下:

<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
<title>測試</title>
</head>
<body>
<h2>表單中文編碼測試</h2>
<form method="GET" action="http://www.baidu.com/s">
<input type="text" name="wd">
<input type="submit" value="OK">
</form>
</body>
</html>

可以發現,當指定charset=UTF-8時,你在輸入項輸入“中文”,則實際提交后會用UTF-8編碼成%E4%B8%AD%E6%96%87,而如果charset=GBK,則輸入項會用GBK編碼成%D6%D0%CE%C4。用POST方法也是一樣的。

而如果加上accept-charset屬性,代碼改成下面這樣,則表單參數編碼由accept-charset中指定的編碼來決定。如下所示,雖然meta中指定的是UTF-8編碼,但是表單參數是GBK編碼的。

還有一點需要注意的是,如果輸入項包含空格,比如“中文 哈哈”,則空格會被編碼為+。

<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
<title>測試</title>
</head>
<body>
<h2>表單中文編碼測試</h2>
<form method="GET" action="http://www.baidu.com/s" accept-charset="GBK">
<input type="text" name="wd">
<input type="submit" value="OK">
</form>
</body>
</html>

4 Javascript HTTP的中文參數編碼

之前說的是直接通過瀏覽器發HTTP請求的中文編碼情況,那如果是通過Javascript發送HTTP請求,會是什么情況呢?根據測試發現,通過Javascript發送的HTTP請求,IE6的為操作系統編碼,Chrome中文參數編碼是UTF-8

測試:可以打開Chrome的http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%96%87,在開發者工具的控制臺輸入$.ajax("/wiki/英語"),可以在網絡連接中發現"英語"采用的UTF-8編碼。IE中可以另外編輯一個測試的網頁,用JS測試即可。

5 Javascript編碼函數

前面說的很多種中文編碼情況,不同的瀏覽器處理方式也不盡相同,這是件非常糾結的事情,一個好的方法是采用JS的函數在表單提交前對參數進行統一處理。

第一個函數是escape,escape是一個全局函數,它使用十六進制的數字(%xx或%uxxxx)編碼字符串為unicode碼。小于等于0xFF的字符將被轉義為%xx,大于0xFF的將被轉移為%uxxxx,可以使用unescape函數解碼escape函數編碼的字符串。escape已被ecma標準拋棄,現在一般推薦使用encodeURI或encodeURIComponent函數代替。

escape實例: escape(“中文”)的結果是"%u4E2D%u6587",escape("abc def")的結果是"abc%20def",空格編碼為0x20。無論網頁編碼是什么,經過JS的escape操作后,都會變成unicode碼。如第3節提到的,由于表單提交時參數中的空格會被編碼為+,所以escape函數不對"+"進行編碼,所以escape("abc+def")結果還是"abc+def"。

第二個函數是encodeURI,它也是全局函數,encodeURI的目的是采用UTF-8給URI進行編碼。ASCII的字母、數字不編碼,- _ . ! ~ * ' ( )也不編碼,URI中具有特殊意義的字符也不編碼(如; / ? : @ & = + $ , #等)。參數中的其他字符將轉換成UTF-8編碼方式的字符,并使用十六進制轉義序列(%xx)生成替換。對應的解碼函數是decodeURI。

encodeURI實例:encodeURI("測試 http://www.baidu.com/test?v=ab cd+@#")結果為"%E6%B5%8B%E8%AF%95%20http://www.baidu.com/test?v=ab%20cd+@#"

第三個函數是encodeURIComponent,與encodeURI不同的是,它會對特殊符號如"; / ? : @ & = + $ , #"進行編碼。解碼函數是decodeURIComponent。

encodeURIComponent實例:
encodeURIComponent("測試 http://www.baidu.com/test?v=ab cd+@#")
結果:
%E6%B5%8B%E8%AF%95%20http%3A%2F%2Fwww.baidu.com%2Ftest%3Fv%3Dab%20cd%40%23%2B

6 參考資料

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容