《Learning to Floorplan like Human Experts via Reinforcement Learning》阅读自用版

迷鹿鲲

已于 2025-05-10 18:45:52 修改

阅读量737

点赞数 27

CC 4.0 BY-SA版权

分类专栏：论文阅读文章标签：算法

于 2025-05-10 18:09:31 首次发布

本文链接：https://blog.csdn.net/qq_45739920/article/details/147852693

论文阅读专栏收录该内容

6 篇文章

订阅专栏

研究背景与局限性：
作为现代芯片设计中的关键且耗时的环节，布局规划质量直接影响布线阶段的可布通性、时间收敛性、电源稳定性及良率等关键指标。在物理设计流程中，高质量的布局通常能为设计带来更优的功耗、性能和面积（PPA）。尽管近年来涌现出诸多基于强化学习的自动布局工具，但现有RL布局器[2][3][5]输出的布局图像在视觉风格上与人类专家存在显著差异（如图1所示）。与人类专家工整有序的布局相比，RL布局器更倾向于将宏单元（macro）集中放置在画布中心区域，导致元件重叠、簇状聚集或混合排列。虽然在布局初期阶段，RL布局器在线长指标上可能优于人类基准，但这种优势在后续布局迭代中逐渐消失。为解决专家布局经验难以数学表达的问题，本研究构建了一个布局评分器，通过分析布局图像特征来学习硬件专家的设计经验，并基于此构建符合人类标准的布局质量预测模型。现有基于RL的布局工具（如GraphPlace、DeepPR）虽能优化线长（wirelength）和拥塞（congestion）等指标，但生成的布局在视觉风格上与人类专家设计存在显著差异（如元件过度聚集、重叠、中心化布局等），导致实际应用受限。在这里插入图片描述

方法概述：

多类别假设：将不同电路视为独立类别，并假设人工设计的布局在特征分布上具有相似性，可归类为同一类图像样本。
联合分布建模：构建全局模型同时捕捉所有电路的分布特征（图2(a)），通过对比芯片布局图像与训练集分布的差异，实现异常检测（图2(b)）。
量化评估：输出异常值（图2©）作为布局风格偏离人类设计标准的量化指标，其核心思想是通过AI模型学习人类设计范式，检测自动化布局中的非典型模式。

整体框架 (Overall Framework)
- 架构组成：
  - 策略网络 (Policy Network)：接收布局坐标数组 (O_t^{a×b})（a×b为画布尺寸）和网表图 H，映射为动作概率分布 (P_{action})
  - 奖励网络 (Reward Network)：包含基于Transformer的评分器
- 行为生成流程：
  1. 通过动作掩码 (M_t) 过滤可用动作
    
    过滤已占用位置（避免重叠）
    符合布局约束（如宏单元尺寸、间距规则）
    保留边界保留区（防止越界）
  2. 从可用动作概率分布采样获得动作 (a^t)
Transformer评分器 (Transformer-based Scorer)
- 输入处理：
  - 完整宏布局观测 → 转换为图像
  - 特征提取：使用 EfficientNet-b4 提取特征 (feature tokens)
- 编码器架构：
  - Neighbor Masked Encoder (NME)：融合feature tokens生成编码器嵌入
    编码器遵循原始Transformer中的标准架构。每层由一个注意力模块和一个前馈网络（FFN）组成。然而，full-attention被提出的NMA取代，以防止信息泄露。
    Neighbor Masked Attention是指在计算注意力图时对相邻token进行屏蔽的技术。具体来说，它通过避免一个token能够看到自己和邻居token的信息来防止直接复制输入，从而减少“雷同捷径”问题。这意味着每个token在注意力机制中只关注远离自己的其他token，这样网络必须通过更远的信息来理解当前token的正确信息，有助于模型更好地学习正常样本的分布而非简单地复制输入。这个方法确保了信息不会从输入直接泄漏到输出，促进了对正常样本的复杂分布建模，增强了异常检测能力。
  - Layer-wise Query Decoder (LQD)：逐层解码生成重建特征
    在UniAD模型中，LQD接收NME生成的编码器嵌入作为输入，并通过逐层处理查询来输出多类异常分数。每个查询可能对应一个特定的类别，LQD逐层处理这些查询，以逐步构建每个类别的异常分数。这使得模型能够为每个类别生成特定的输出，从而在多个类别中进行有效的异常检测。

技术原理与架构

无监督异常检测框架
基于Transformer架构构建双流特征提取网络：
- 视觉流：采用EfficientNet-b4作为主干网络，提取布局图像的空间特征（如模块分布、密度梯度）
- 语义流：通过NME-LQD（Non-Maximum Elimination with Local Quality Driven）算法，捕捉人类专家布局中隐含的规则约束（如模块化分区、散热通道布局）
- 联合重建模块：将两路特征输入多任务Transformer，通过对比学习生成"人类风格"布局特征分布
异常值量化体系
- 热图定位算法：采用Grad-CAM++注意力机制生成异常区域热图，定位偏离人类设计模式的区域（如元件重叠、关键路径拥塞）
- 多维度异常值计算：
```
Anomaly_Value = α·Spatial_Similarity + β·Rule_Violation + γ·Thermal_Mismatch
```
  其中α=0.6（空间相似度）、β=0.3（规则违反度）、γ=0.1（热分布匹配度），权重通过强化学习动态调整

创新点：

异常检测方法
将Transformer架构与特征重建技术结合，构建基于自监督学习的布局质量评估模型。采用基于Transformer的异常检测模型，通过特征重构学习正常（人工）数据的分布模式。本研究首次将无监督异常检测技术应用于芯片布局规划任务。

异常检测的基本原理

异常检测是一种机器学习技术，旨在识别与正常数据模式显著偏离的数据点或区域。在芯片布局评估中，异常检测可以用于识别与人类专家设计风格不一致的布局区域。
传统的异常检测方法主要包括基于统计的方法、基于聚类的方法和基于深度学习的方法。然而，这些方法在处理芯片布局图像这类复杂数据时面临诸多挑战，包括高维度、非线性分布和类别不平衡等问题。

Transformer架构与异常检测

 	Transformer架构最初是为自然语言处理任务设计的，但其强大的序列建模能力使其在众多领域得到了广泛应用。在异常检测任务中，Transformer可以通过学习数据的全局关联性，捕捉异常模式。
 	UniAD（Unified Anomaly
 Detection）是一种基于Transformer架构的统一异常检测模型，能够处理多种类型的异常检测任务。UniAD由两个主要组件组成：Neighbor
 Masked Encoder (NME)和Layer-wise Query Decoder (LQD)

Neighbor Masked Encoder (NME)

 	NME是一种特殊的编码器结构，通过在计算注意力图时对相邻token进行屏蔽，防止信息泄露。具体来说，NME通过避免一个token能够看到自己和邻居token的信息，防止直接复制输入，从而减少"雷同捷径"问题。这意味着每个token在注意力机制中只关注远离自己的其他token，这样网络必须通过更远的信息来理解当前token的正确信息，有助于模型更好地学习正常样本的分布而非简单地复制输入
 	在UniAD模型中，NME接收由EfficientNet-b4提取的特征token作为输入，并通过多层自注意力机制生成编码器嵌入。编码器遵循原始Transformer中的标准架构，每层由一个注意力模块和一个前馈网络（FFN）组成。然而，全注意力（full-attention）被用Neighbor
 Masked Attention（NMA）取代，以防止信息泄露

Layer-wise Query Decoder (LQD)

 	LQD是一种分层查询解码器，通过逐层处理查询来生成多类异常分数。在UniAD模型中，LQD接收NME生成的编码器嵌入作为输入，并通过逐层处理查询来输出多类异常分数。每个查询可能对应一个特定的类别，LQD逐层处理这些查询，以逐步构建每个类别的异常分数。这使得模型能够为每个类别生成特定的输出，从而在多个类别中进行有效的异常检测

人机协同优化框架
创新性地构建"布局评分器-强化学习"闭环优化框架，实现：
1. 质量评分实时反馈机制
2. 专家经验动态权重调节模块
3. 多目标优化求解器
  将训练好的布局评分器生成的质量评分整合到基于深度强化学习的芯片布局规划训练过程中，以辅助生成专家级布局方案。
混合奖励机制

传统的强化学习布局器主要优化线长（HPWL）和拥塞等量化指标，但忽略了布局的视觉风格和专家经验。为了解决这一问题，本研究提出了一种混合奖励机制，将布局质量评分器的异常值作为奖励函数的一部分，引导强化学习算法生成更接近人类专家风格的布局。
混合奖励机制的主要组成部分包括：
1. 传统指标：线长（HPWL）、拥塞等
2. 新增指标：布局质量评分器的异常值（Anomaly Value）
3. 整合方式：将异常值作为奖励函数的一部分，引导强化学习算法生成更接近人类风格的布局
  异常值的计算公式如下：
```
Anomaly_Value = α·Spatial_Similarity + β·Rule_Violation + γ·Thermal_Mismatch
```
其中，α=0.6（空间相似度）、β=0.3（规则违反度）、γ=0.1（热分布匹配度），权重通过强化学习动态调整。

"布局评分器-强化学习"闭环优化框架

本研究构建了一个"布局评分器-强化学习"闭环优化框架，实现质量评分实时反馈、专家经验动态权重调节和多目标优化求解。该框架的主要组件包括：
1. 策略网络：接收布局坐标数组 (O_t^{a×b})（a×b为画布尺寸）和网表图 H，映射为动作概率分布 (P_{action})
2. 奖励网络：包含基于Transformer的评分器，架构参考现有研究
3. 行为生成流程：
  1. 通过动作掩码 (M_t) 过滤可用动作
  2. 从可用动作概率分布采样获得动作 (a^t)
    闭环优化流程如下：
4. 布局生成：强化学习算法根据当前策略生成布局
5. 质量评估：布局评分器对生成的布局进行评估，输出异常值
6. 奖励计算：根据线长、拥塞和异常值等指标计算奖励
7. 策略更新：根据奖励更新强化学习算法的策略
8. 迭代优化：重复上述步骤，直到满足终止条件
动态权重调节模块

为了更好地结合强化学习和专家经验，本研究设计了一个动态权重调节模块，根据布局的进展和质量评估结果，动态调整奖励函数中不同组成部分的权重。
动态权重调节模块的主要功能包括：
1. 质量监控：监控布局质量的实时变化
2. 权重计算：根据布局质量的变化，计算不同奖励组成部分的权重
3. 反馈调节：将权重调整结果反馈给强化学习算法，引导其优化方向
  通过动态权重调节，强化学习算法能够在不同阶段关注不同的优化目标，例如在早期阶段关注线长优化，而在后期阶段关注布局风格的调整。