1. 什么是Base64
Base64是一種基于64個可打印字符來表示二進制數據的表示方法
Base64是一種編碼方式,提及編碼方式,必然有其對應的字符集合。在Base64編碼中,相互映射的兩個集合是:
- 二進制數據
{0, 1}
{A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, +, /}
Base64編碼方式可使得信息在這兩種字符集表示法之間相互等價轉換。
因為Base64的編碼方式是公開的,所以base64也可以算是公開算法的加密方法;但是只能簡單的“加密”保護某些數據,決不能在需要安全等級較高的場景中使用,因為可以使用公開的編碼方法輕易從base64字符表示的數據解碼二進制數據。
2. base64編碼過程
由于base64的字符集大小為64,那么,需要6個比特的二進制數作為一個基本單元表示一個base64字符集中的字符。因為6個比特有2^6=64種排列組合。
具體來說,編碼過程如下:
- 將每三個字節作為一組,共24bit,若不足24bit在其后補充0;
- 將這24個bit分為4組,每一組6個bit;
- 在每組前加00擴展為8個bit,形成4個字節,每個字節表示base64字符集索引;
- 擴展后的8bit表示的整數作為索引,對應base64字符集的一個字符,這就是base64編碼值;在處理最后的不足3字節時,缺一個字節索引字節取3個,最后填充一個=,;缺兩個字節取2個索引字節,最后填充==。
解碼時將過程逆向即可。
Base64索引表:
3.編碼示例
示例一
Man的base64編碼
- 第一步,'M', 'a', 'n'的ASCII值分別為77, 97, 110,對應的二進制值分別為:01001101, 01100001, 01101110;取三個字節共24bit:010011010110000101101110
- 第二步,將這24bit分為4組,每組6個bit:010011, 010110, 000101, 101110
- 每組前面加00,形成4個字節的,00010011, 00010110, 00000101, 00101110, 即19, 22, 5, 46
- 根據索引表,對應的base64字符分別是T, W, F, u
最后的base64字符串是: TWFu。
解碼時將過程逆向即可。
示例二
剩余兩個字節,BC的base64編碼
- 第一步,'B', 'C'的ASCII值分別為66, 64, 對應二進制值分別為:01000010, 01000011;取三個字節,不足不0,共24bit:01000010, 01000011, 00000000
- 第二步,將這24bit分為4組,每組6個bit:010000, 100100, 001100, 000000
- 每組前面加00,形成4個字節的,00010000, 00100100, 00001100, 00000000,即16, 36, 12, 0
- 由于'B', 'C'只有兩個字節,缺一個字節,因此取3個索引;根據索引表,對應的base64字符分別是Q, k, M,最后填充一個=
最后的base64字符串是:QkM=
示例三
剩余一個字節,A的base64編碼
- 第一步,'A'的ASCII值65, 對應二進制值為:01000001; 取三個字節,不足不0,共24bit:01000001, 00000000, 00000000
- 第二步,將這24bit分為4組,每組6個bit:010000, 010000, 000000, 000000
- 每組前面加00,形成4個字節的,00010000, 00010000, 00000000, 00000000,即16, 16, 0, 0
- 由于'A'只有一個字節,缺兩個字節,因此取2個索引;根據索引表,對應的base64字符分別是Q, Q,最后填充==
最后的base64字符串是:QQ==
4. Python實現
"""
base64實現
"""
import base64
import string
# base 字符集
base64_charset = string.ascii_uppercase + string.ascii_lowercase + string.digits + '+/'
def encode(origin_bytes):
"""
將bytes類型編碼為base64
:param origin_bytes:需要編碼的bytes
:return:base64字符串
"""
# 將每一位bytes轉換為二進制字符串
base64_bytes = ['{:0>8}'.format(str(bin(b)).replace('0b', '')) for b in origin_bytes]
resp = ''
nums = len(base64_bytes) // 3
remain = len(base64_bytes) % 3
integral_part = base64_bytes[0:3 * nums]
while integral_part:
# 取三個字節,以每6比特,轉換為4個整數
tmp_unit = ''.join(integral_part[0:3])
tmp_unit = [int(tmp_unit[x: x + 6], 2) for x in [0, 6, 12, 18]]
# 取對應base64字符
resp += ''.join([base64_charset[i] for i in tmp_unit])
integral_part = integral_part[3:]
if remain:
# 補齊三個字節,每個字節補充 0000 0000
remain_part = ''.join(base64_bytes[3 * nums:]) + (3 - remain) * '0' * 8
# 取三個字節,以每6比特,轉換為4個整數
# 剩余1字節可構造2個base64字符,補充==;剩余2字節可構造3個base64字符,補充=
tmp_unit = [int(remain_part[x: x + 6], 2) for x in [0, 6, 12, 18]][:remain + 1]
resp += ''.join([base64_charset[i] for i in tmp_unit]) + (3 - remain) * '='
return resp
def decode(base64_str):
"""
解碼base64字符串
:param base64_str:base64字符串
:return:解碼后的bytearray;若入參不是合法base64字符串,返回空bytearray
"""
if not valid_base64_str(base64_str):
return bytearray()
# 對每一個base64字符取下標索引,并轉換為6為二進制字符串
base64_bytes = ['{:0>6}'.format(str(bin(base64_charset.index(s))).replace('0b', '')) for s in base64_str if
s != '=']
resp = bytearray()
nums = len(base64_bytes) // 4
remain = len(base64_bytes) % 4
integral_part = base64_bytes[0:4 * nums]
while integral_part:
# 取4個6位base64字符,作為3個字節
tmp_unit = ''.join(integral_part[0:4])
tmp_unit = [int(tmp_unit[x: x + 8], 2) for x in [0, 8, 16]]
for i in tmp_unit:
resp.append(i)
integral_part = integral_part[4:]
if remain:
remain_part = ''.join(base64_bytes[nums * 4:])
tmp_unit = [int(remain_part[i * 8:(i + 1) * 8], 2) for i in range(remain - 1)]
for i in tmp_unit:
resp.append(i)
return resp
def valid_base64_str(b_str):
"""
驗證是否為合法base64字符串
:param b_str: 待驗證的base64字符串
:return:是否合法
"""
if len(b_str) % 4:
return False
for m in b_str:
if m not in base64_charset:
return False
return True
if __name__ == '__main__':
s = '我的目標是星辰大海. One piece, all Blue'.encode()
local_base64 = encode(s)
print('使用本地base64加密:', local_base64)
b_base64 = base64.b64encode(s)
print('使用base64加密:', b_base64.decode())
print('使用本地base64解密:', decode(local_base64).decode())
print('使用base64解密:', base64.b64decode(b_base64).decode())
5. 中文的base64編碼
其實base64編碼只是在二進制與base64字符集之間映射的編碼,與其他字符集毫無關系。其他字符集想要轉換為base64編碼,只需先將其轉換為二進制,再做base64編碼即可。
那么對于Unicode字符集而言,有多種編碼方式將其裝換為二進制,所以在編碼過程中就需要統一編碼,以免造成亂碼。上述Python示例就將中文轉換為base64,首先使用默認編碼utf-8將字符串轉換為二進制(使用Python的str.encode()
),再做base64編碼;解碼時候同樣如此,先將base64字符串解碼為二進制,再將二進制轉換為字符串(使用Python的str.decode()
)