來自公眾號:Gopher指北
URL中不能顯示地包含空格這已經(jīng)是一個共識,而空格以何種形式存在,在不同的標(biāo)準(zhǔn)中又不完全一致,以致于不同的語言也有了不同的實現(xiàn)。
rfc2396
中明確表示空格應(yīng)該被編碼為%20
。
而W3C的標(biāo)準(zhǔn)中卻又說空格可以被替換為+
或者%20
。
老許當(dāng)場懵逼,空格被替換為+
,那+
本身只能被編碼。既然如此,為什么不直接對空格進(jìn)行編碼呢。當(dāng)然這只是老許心中的疑惑,以前的背景我們已經(jīng)無法追溯,已成的事實我們也無法改變。但,空格到底是被替換為+
還是20%
,+
是否需要被編碼都是現(xiàn)在的我們需要直面的問題。
Go常用的三種URL編碼方式
作為Gopher最先關(guān)注的自然是Go語言本身的實現(xiàn),因此我們首先了解一下Go中常用的三種URL編碼方式的異同。
url.QueryEscape
fmt.Println(url.QueryEscape(" +Gopher指北"))
// 輸出:+%2BGopher%E6%8C%87%E5%8C%97
使用url.QueryEscape
編碼時,空格被編碼為+
,而+
本身被編碼為%2B
。
url.PathEscape
fmt.Println(url.PathEscape(" +Gopher指北"))
// 輸出:%20+Gopher%E6%8C%87%E5%8C%97
使用url.PathEscape
編碼時,空格被編碼為20%
, 而+
則未被編碼。
url.Values
var query = url.Values{}
query.Set("hygz", " +Gopher指北")
fmt.Println(query.Encode())
// 輸出:hygz=+%2BGopher%E6%8C%87%E5%8C%97
使用(Values).Encode
方法編碼時,空格被編碼為+
,而+
本身被編碼為%2B
,進(jìn)一步查看(Values).Encode
方法的源碼知其內(nèi)部仍舊調(diào)用url.QueryEscape
函數(shù)。而(Values).Encode
方法和url.QueryEscape
的區(qū)別在于前者僅編碼query中的key和value,后者會對=
、&
均進(jìn)行編碼。
對我們開發(fā)者而言,這三種編碼方式到底應(yīng)該使用哪一種,請繼續(xù)閱讀后文相信你可以在后面的文章中找到答案。
不同語言中的實現(xiàn)
既然空格和+
在Go中的URL編碼方式有不同的實現(xiàn),那在其他語言中是否也存在這樣的情況呢,下面以PHP和JS為例。
PHP中的URL編碼
urlencode
echo urlencode(' +Gopher指北');
// 輸出:+%2BGopher%E6%8C%87%E5%8C%97
rawurlencode
echo rawurlencode(" +Gopher指北");
// 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
PHP的urlencode
和Go的url.QueryEscape
函數(shù)效果一致,而rawurlencode
則將空格和+
均進(jìn)行編碼。
JS中的URL編碼
encodeURI
encodeURI(' +Gopher指北')
// 輸出:%20+Gopher%E6%8C%87%E5%8C%97
encodeURIComponent
encodeURIComponent(' +Gopher指北')
// 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
JS的encodeURI
和Go的url.PathEscape
函數(shù)效果一致,而encodeURIComponent
則將空格和+
均進(jìn)行編碼。
我們應(yīng)該怎么做
更推薦使用url.PathEscape函數(shù)編碼
在前文中已經(jīng)總結(jié)了Go
、PHP
和JS
對+Gopher指北
的編碼操作,下面總結(jié)一下其對應(yīng)的解碼操作是否可行的二維表。
編碼/解碼 | url.QueryUnescape | url.PathUnescape | urldecode | rawurldecode | decodeURI | decodeURIComponent |
---|---|---|---|---|---|---|
url.QueryEscape | Y | N | Y | N | N | N |
url.PathEscape | N | Y | N | YY | Y | YY |
urlencode | Y | N | Y | N | N | N |
rawurlencode | Y | YY | Y | Y | N | Y |
encodeURI | N | Y | N | Y | Y | Y |
encodeURIComponent | Y | YY | Y | Y | N | Y |
上表中的YY
和Y
同含義,老許僅以YY
表示在Go中推薦使用url.PathEscape
進(jìn)行編碼,同時在PHP和JS中分別推薦使用rawurldecode
和decodeURIComponent
進(jìn)行解碼。
在實際的開發(fā)過程中,Gopher一定會存在需要解碼的場景,此時就需要和URL編碼方進(jìn)行溝通以得到合適的方式解碼。
對值進(jìn)行編碼
那有沒有通用的不需要URL編解碼的方式呢?毫無疑問是有的!以base32
編碼為例,其編碼字符集為A-Z和數(shù)字2-7
,此時對值進(jìn)行base32編碼后就無需url編碼了。
最后,衷心希望本文能夠?qū)Ω魑蛔x者有一定的幫助。
本文使用環(huán)境分別為
PHP 7.3.29
、go 1.16.6
和js Chrome94.0.4606.71的Console
參考