base64 编码原理

一、背景#

公司业务中调用接口需要通过网关转换,网关内的一些规则导致 * 在传递的过程中存在问题,所以决定使用 base64 进行编码处理。

在使用过程中发现网关对 '=' 也有处理,导致我的传参到接口方会丢失掉最后的等号,但是经过解码后的竟然是正确的!

于是发现这么长的时间,经常使用 base64,但是对这个编码的原理并不理解,所以就有了这篇学习记录。

二、基础知识了解#

1. 常见的编码:

  • ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
  • UTF-8(8-bit Unicode Transformation Format)可用 1~4 个字节表示一个字符(unicode 的实现方式)
  • GBK 汉字内码扩展规范

2. 计算机本质都是二进制,最小的数据单位是比特 bit,一个字节有 8 个 bit。

3.base64 作用:计算机中任何数据都是按 ascii 码存储的,而 ascii 码的 128~255 之间的值是不可见字符。而在网络上交换数据时,比如说从 A 地传到 B 地,往往要经过多个路由设备,由于不同的设备对字符的处理方式有一些不同,这样那些不可见字符就有可能被处理错误,这是不利于传输的。所以就先把数据先做一个 Base64 编码,统统变成可见字符,降低错误率。

三、编码原理#

是基于 A-Z、a-z、0-9 以及 '+' 和 '/' 共 64 个字符的编码方式,因为 2 的 6 次方等于 64,所以说只需要 6 个比特即可表示一个 base64 的字符。

编码表:'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/'

核心原理是将二进制数据进行分组,以 6 位一组进行分组,并在每组前面都填两个高位 0,然后将 8 bit 的字节转换成十进制,对照 BASE64 编码表 (上表),得到对应编码后的字符。

四、等号是哪里来的?#

一个字节是 8bit,一个 base64 的字符 6bit,24 是最小公倍数,所以 3 个字节可以完整转化为 4 个 base64 字符;

但是我们无法控制需要编码的数据正好是 3 的倍数,所以要进行补零 --- 在不足 3 的倍数的字符串末尾用 0x00 进行填充;

因为 base64 编码中的下标 0 对应的字符是 'A',而末尾填充上的 0x00 在分组补零后同样是下标 0x00,这样就无法分辨出到底是末尾填充的 0x00 还是二进制数据中的 0x00。

所以引进了等号,这就是 '=' 字符不在 Base64 字符集中,但是也出现在 Base64 编码的原因了。

五、编码过程#

以对6666P进行base64编码的步骤说明
每个字符转化为8bit:
6----->00110110
6----->00110110
6----->00110110
6----->00110110
P----->01010000
补位----->00000000
整体拼接结果:
0011011000110110001101100011011001010000000000006bit一组进行分割:
001101  100011  011000  110110  001101  100101  000000  000000
转化为base64编码脚标:
13  35  24  54  13  37  0  0
获取对应的base64编码:
N  j  Y  2  N  l  A  A
得到结果:string(8) "NjY2NlA="

六、关于解码#

由编码过程可知,编码的结果的长度一定是 4 的倍数,所以当解码的长度不等于 4 的倍数时,需要用等号进行补位。

这也就是去掉末尾的等号后进行解码得出的原文不会出错的原因了!

了解过编码过程后逆向回去即为解码过程,在此就不再详细叙述了。

七、base64 的变种#

但是标准的 base64 并不能满足所有场景的需要,比如 URL 编码器会把中的 “/” 和 “+” 字符变为形如 “% XX” 的形式,所以也就出现了实现思路一致的编码变种:

(1)适应 url 的变种改进:不在末尾填充’=’号,并将 “+” 和 “/” 分别改成了 “-” 和 “_”

(2)适应正则表达式的变种:将 “+” 和 “/” 改成了 “!” 和 “-”

八、实践代码#

<?php

$a = "6666P";

$decbinStr= '';
//计算补位
$end = (3 - strlen($a)%3)%3;
for($i=0;$i<strlen($a);$i++){
    //每个字符转化为8bit
    $decbin = str_pad(decbin(ord($a[$i])),8,"0",STR_PAD_LEFT);
    $decbinStr .= $decbin ;
}
//增加补位
$decbinStr = $decbinStr. str_pad("",$end*8,"0");
//以6bit一组进行分割
$arr = str_split($decbinStr,6);
//转化成对应的base64编码
$result = implode("", array_map("getBase64Str",$arr));
//末尾补位的数据处理
for($j=0;$j<$end;$j++){
    if($result[strlen($result)-1-$j] == 'A'){
      $result[strlen($result)-1-$j] = "=";
    }
}
//验证下跟自带的base64_encode结果是否一致
var_dump($result);
var_dump(base64_encode($a));

exit();

function getBase64Str($sixStr){
    $number = bindec($sixStr);
    $baseHash = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/';
    return $baseHash[$number];
}

当然也可以使用位运算等方式进行实现,以上代码仅代表个人的思路。

本作品采用《CC 协议》,转载必须注明作者和本文链接
本帖由系统于 5年前 自动加精