【学习e200处理器日志】万事开头难—取指操作

简单的静态预测总认为分支指令不跳转（相当于完全不预测），取指单元顺取分支指令下一条。执行阶段发现需跳转则冲刷流水线重新取指。为弥补性能损失，很多早期RISC架构采用“分支延迟槽”，即分支指令后紧跟的一条或多条指令不受跳转影响，所在位置称分支延迟槽，其中指令不会因冲刷流水线被丢弃重取。但是随着分支预测计数的成熟，分支延迟槽带来的便捷变得微不足道，因此这里舍弃了该方法。

另一种常见静态预测方法，对向后跳转（目标PC值小于当前分支指令PC值）预测为跳，向前跳转预测为不跳。依据是实际汇编程序中向后分支跳转多于向前跳转，如for循环生成的汇编指令常用向后跳转分支指令。

5.2 动态预测

动态预测依赖已执行指令的历史信息和分支指令自身信息综合进行“方向”预测。

一比特饱和计数器：最简单的分支“方向”动态预测器，每次分支指令执行后用其记录上次“方向”，下次预测永远采用上次记录的“方向”，结构简单但预测精度不如“两比特饱和计数器”。

两比特饱和计数器：最常见的分支“方向”动态预测器，执行分支指令后按特定状态机转换。根据状态预测跳转方向，预测出错则更改状态机状态，因有4个状态具有切换缓冲，在复杂程序流中预测精度更高。但处理器指令流中有众多不同分支指令，为每条指令分配专有“两比特饱和计数器”硬件资源开销大，只能用有限个组成表格，通过某种寻址方式索引表项的计数器，由此会出现不同分支指令指向同一表项的别名重合问题。

这里有两个概念需要注意一下：

表格：是由有限个“两比特饱和计数器”组织而成的数据结构。将有限数量的“两比特饱和计数器”组合成一个表格形式，用于对众多分支指令进行预测，每条分支指令通过某种寻址方式来索引表格中的某个表项的“两比特饱和计数器” 以实现预测。

别名：指的是别名重合（Aliasing）现象。因为表格中的表项数目有限，不同的分支指令在通过寻址方式索引表格中的“两比特饱和计数器”时，很多不同的分支指令会不可避免地指向同样的表项，这种情况就被称为别名重合，这里的“别名” 强调的是不同分支指令对应到了同一个“两比特饱和计数器”表项的现象。

目前一般使用各种不同的动态分支预测算法，通俗地讲就是通过采用不同的表格组织方式（控制表格大小）和索引方式（防止别名重合），来提供更高的预测精准率。有下面几种算法：

单级预测器是将有限个“两比特饱和计数器”直接组织成一维的预测器表格，直接用PC值的一部分进行索引。“单级”指索引仅采用指令本身的PC值。此方法简单易行，但索引机制简单，分支预测精度不如两级预测器。

两级预测器也叫相关预测器，将有限个“两比特饱和计数器”组织成PHT（模式历史表），用分支跳转历史作为PHT索引，如用n个比特记录历史可索引2的n次方个表项。分支历史分局部历史（每个分支指令自身跳转历史）和全局历史（所有分支指令跳转历史）。（这一部分了解就行）

5.3 预测地址

确定了预测的方向，接下来就是预测跳转的地址。因为在处理器中，解码、确定分支类型以及确定分支跳转地址是不可能在一个周期完成的，为了提高速度需要对分支地址进行预测。下面有三种方法

BTB（分支目标缓存）：用有限容量缓存保存近期执行的分支指令PC值及其跳转目标地址，取指时对比PC值，匹配则预测为分支指令并采用对应跳转地址。

RAS（返回地址堆栈）：用有限容量硬件堆栈（“先进后出”结构）存储函数调用返回地址。函数调用时将当前PC值压入堆栈，函数返回时弹出，为返回的分支跳转指令预测目标地址。因为在处理器中跳转和返回几乎是成对出现的，在跳转实记录当前的地址，在下一次跳转大概率就是调转回此地址。

在RISC-V架构中对此有明确规定，如使用jal指令且目标寄存器索引值rd等于x1或者x5时需进行RAS压栈；使用jalr指令时，根据所使用寄存器值（rs1、rd）不同，明确规定了相应的RAS压栈或出栈行为，其规则如下所示。这里相当于明确指定了什么情况下是函数调用，什么情况下是跳转回去，该方法最大程度提高RAS的预测准确性。

Indirect BTB（间接BTB）：专为间接跳转/分支指令设计，类似普通BTB但存储更多历史目标地址，通过高级索引方法匹配，结合了BTB和动态两级预测器技术。假设你每天下班回家的路线（间接跳转）可能变化（有时去超市，有时去健身房）：如果某天发现“周三下班后常去健身房”，Indirect BTB 会记录这一模式。下次遇到“周三下班”，直接预测去健身房。

六、RISC-V取指的特点

为提高代码密度，RISC-V定义了可选的压缩指令子集，支持该子集会出现32位和16位指令混合的情况。所有RISC-V指令编码的最低几位专门用于编码指令长度。把指令长度指示码置于最低位，方便取指逻辑在顺序取指时快速译码指令长度，极大简化硬件设计，如取到16位指令字时就能判断指令长度，无需等另一半16位取到再译码。

七、E200取指模块的实现

下面这张图表示取指模块在e200系统中的位置，在下面的图就是取指系统的细分：

E200 IFU架构主要功能包括对取回地址进行简单译码（Mini-Decode）、简单分支预测（Simple-BPU）、生成取指的PC（PC生成）、根据PC地址访问ITCM（BIU地址判断和ICB总线控制）。

然后是每一个部分的功能讲解：Mini_Decode部分，用于判断指令的简单性质，比如指令长度以及指令是否为跳转指令；Simple_BPU部分，该模块主要用于分支预测；PC生成部分主要用于生成下一个PC取值的地址，由分支预测以及编码器等共同控制；地址判断和ICB总线控制部分，用于设计IFU和ITCM以及BIU均使用的ICB接口，并且包含非对其访问逻辑功能。