Base64编码和解码原理及模块应用
2018-09-29 本文已影响0人
markict
背景介绍
-
base64的作用是以可见字符的形式对非纯文本文件进行编码转换, 简而言之就是用可见字符集中的字符替换原有的二进制文件.
-
base64编码之所以叫base64是因为这个<可见字符集>是由64个可见字符构成.例如:
['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '-', '/']
工作原理
- 对原有二进制数据进行分组, 分组方式为第三个Byte为一组, 也就是说一组为24个bit.
- 对每组的24个bit(3Byte)再进行分组,分为4组, 每组6个bit.
- 因为每组是6个bit, 那么6个bit的二进制序列最多表示64种可能性, 正好由我们的<可见字符集>中的字符表示每种序列.
- 如果原有二进制数据不是3Byte的整数倍, 那么剩下的1个或2个byte 我们使用
\x00
进行补充,然后再蚝编码, 我们会发现行尾加上一个或两个=
号,代表表示补充了多少字节\x00
代码示例
- 编码
import base64
#如果有中文,那么只能入到字符串中, 不可是直接b'Hello,大亮'
a_str = 'Hello, 大亮'
#纯ASCII字符可以直接以字节码的形式输出 b'Hello, Mark'
b_str = b'Hello, Mark'
#base64只能对字节码进行编码,所以我们需要先对str进行编码
a = base64.b64encode(a_str.encode('utf-8'))
#由于b_str直接用字节码表示,所以可以直接编码
b = base64.b64encode(b_str)
#打印两个字节码的base64的编码表示
print(f"<{a_str.encode('utf-8')}>'s base64 code is: <{a}>")
print(f"<{b_str}>'s base64 code is: <{b}>")
'''
#Output:
<b'Hello, \xe5\xa4\xa7\xe4\xba\xae'>'s base64 code is: <b'SGVsbG8sIOWkp+S6rg=='>
<b'Hello, Mark'>'s base64 code is: <b'SGVsbG8sIE1hcms='>
'''
- 解码
import base64
c = b'SGVsbG8sIOWkp+S6rg=='
d = base64.b64decode(c)
print(f"the Byte code of <{c}> is: <{d}>")
print(f"the string of <{d}> is <{d.decode('utf-8')}>")
'''
OUTPUT:
the Byte code of <b'SGVsbG8sIOWkp+S6rg=='> is: <b'Hello, \xe5\xa4\xa7\xe4\xba\xae'>
the string of <b'Hello, \xe5\xa4\xa7\xe4\xba\xae'> is <Hello, 大亮>
'''
安全的URL base64编码/解码
在标准的base64编码中可能出现字符+
和/
号, 但是这些符号在URL中为特殊字符, 所以base64模块还支持"url_safe"的方式进行编码和解码, 其实就是将字符 +
和/
分别替换为-
和_
.
代码
import base64
a_str = 'Hello, 大亮'
b = base64.b64encode(a_str.encode('utf-8'))
c = base64.urlsafe_b64encode(a_str.encode('utf-8'))
#标准编码
print(b)
#url_safe编码
print(c)
```
OUTPUT:
b'SGVsbG8sIOWkp+S6rg=='
b'SGVsbG8sIOWkp-S6rg=='
```
#解码方法为: base64.urlbase64.urlsafe_b64decode(s)
#同样, 解码也是只能解码字节码, 不能解码str.
同样=
号也是URL中的关键符号, 所以在URL应用中, 很多情况是把编码后的base64编码末尾的=
号省略
如果要解码省略了=
号的base64编码, 我只需要判断编码是否能被4字节整除, 如果不能整除, 我们就可以推算出该编码省略了几个=
号, 我们人工补上, 再进行解码即可
代码如下
def safe_base64_decode(s):
n = len(s) % 4
s = s + b"=" * n
return base64.b64decode(s)
Base64的目的就是把二进行文件转换到纯文本字符串, 以便于在某些特殊场景传输使用, 常用场景为: URL, Cookie, http页面.
本文内容主要来源于廖雪峰老师的博客, 仅作为个人学习笔记