Wallace Tree 是一种用于高效实现多位数乘法的结构,通过逐级压缩部分积的位数,减少最终加法的复杂度。
1. Wallace Tree 中 FA 和 HA 的压缩率
在 Wallace Tree 中,全加器(FA)和半加器(HA)的作用如下:
-
全加器(FA):将3个输入位压缩为2个输出位(1个和位 + 1个进位位),压缩率为 (3 \rightarrow 2)。FA 的压缩率更高,因此在 Wallace Tree 中主要用于主要的压缩过程。
-
半加器(HA):将2个输入位压缩为2个输出位(1个和位 + 1个进位位),压缩率为 (2 \rightarrow 2)。HA 的压缩率较低,但可以将一个输入位左移一位(进位位),从而增加该位通过 FA 进行后续压缩的机会。
2. HA 的辅助作用
虽然 HA 不能直接压缩高度,但它的作用是将一个输入位左移一位,从而增加该位通过 FA 进行后续压缩的机会。这种操作可以帮助优化 Wallace Tree 的结构,减少最终需要处理的位数。
3. 降低延迟的优化方法
为了进一步降低延迟,可以在 Wallace Tree 的压缩过程中插入寄存器,将压缩过程分阶段进行。通过状态机或流水线控制,可以在每个阶段之间插入寄存器,使每个阶段的延迟独立于其他阶段,从而提高整体性能。
示例 RTL 代码
以下是一个简化的 Wallace Tree 实现,包含 FA 和 HA 的使用,并通过寄存器分阶段降低延迟。假设我们实现一个 4×4 乘法器的 Wallace Tree。
Verilog 代码
module wallace_tree_4x4 (
input logic clk,
input logic [3:0] a, b, // 4-bit multiplicand and multiplier
output logic [7:0] product // 8-bit product
);
// Intermediate signals for partial products
logic [7:0] partial_products [3:0];
logic [7:0] compressed_1 [2:0]; // First stage compression
logic [7:0] compressed_2 [1:0]; // Second stage compression
logic [7:0] final_sum;
// Generate partial products
genvar i, j;
generate
for (i = 0; i < 4; i++) begin
for (j = 0; j < 4; j++) begin
assign partial_products[i][j] = a[i] & b[j];
end
end
endgenerate
// Stage 1: Compression using FA and HA
always_ff @(posedge clk) begin
// FA: 3 inputs to 2 outputs
compressed_1[0] <= partial_products[0] + partial_products[1];
compressed_1[1] <= partial_products[2] + partial_products[3];
compressed_1[2] <= {1'b0, partial_products[3][7]}; // HA: Shift left by 1
end
// Stage 2: Further compression using FA
always_ff @(posedge clk) begin
compressed_2[0] <= compressed_1[0] + compressed_1[1];
compressed_2[1] <= {1'b0, compressed_1[2][7]}; // HA: Shift left by 1
end
// Final addition
always_ff @(posedge clk) begin
final_sum <= compressed_2[0] + compressed_2[1];
end
// Output the product
assign product = final_sum;
endmodule
代码说明
- Partial Products:
- 首先生成部分积,每个部分积是一个位宽为8的信号。
- Compression Stages:
- 第一阶段:使用 FA 和 HA 对部分积进行压缩。
- 第二阶段:进一步压缩,最终得到两个信号。
- 最终阶段:将两个信号相加得到最终结果。
- 寄存器分阶段:
- 每个压缩阶段使用
always_ff
块实现,确保每个阶段的延迟独立。
- 每个压缩阶段使用
总结
- FA 和 HA 的作用:FA 用于主要压缩,HA 用于辅助压缩和位移。
- 延迟优化:通过插入寄存器分阶段实现压缩过程,降低延迟。
- 流水线控制:使用状态机或流水线技术可以进一步优化 Wallace Tree 的性能。
这种优化方法在高性能计算中非常常见,尤其是在需要大量高速乘法运算的应用中。