[论文解读]|PAN:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

本文介绍了PAN(Pixel Aggregation Network),一种旨在解决场景文本检测中速度与准确性问题的模型。PAN由FPEM(Fast Pyramid Encoding Module)和FFM(Feature Fusion Module)组成,能有效处理变化形状的文本。FPEM提供不同尺度的特征,FFM则对这些特征进行融合。模型通过Pixel Aggregation策略处理可能重叠的文本像素,并用损失函数确保文字区域、文本核及其相似向量的准确预测。实验结果显示,PAN在多个数据集上表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
作者:Wenhai Wang, Enze Xie,Xiaoge Song, Yuhang Zang, Wenjia Wang, Tong Luy, Gang Yu, and Chunhua Shen

Motivation:
作者认为目前场景文字检测难点在于速度和效果间的差异,及变化形状的文字检测。作者在考虑速度与效果兼得的前提下提出PAN模型。

Method
在这里插入图片描述
作者提出如上图的pipeline的PAN方法。
在这里插入图片描述
PAN模型包括FPEM和FFM网络
**FPEM:**是一个可变大小的计算速度快的网络,以获得大小特征图的信息。
在这里插入图片描述
**FFM(特征整合模型)😗*对上面多个FPEM网络进行融合
在这里插入图片描述
最后通过上采样将它们Concatenate到一起。

模型最后预测三种信息:
1、文字区域
2、文字kernel
3、文字kernel的相似向量

Pixel Aggregation:
由于文字与文字可能出现部分重叠,作者采用Kernel的方法。使文字的像素与kernel的距离最小化,其Loss为:
在这里插入图片描述
其中,在这里插入图片描述
G(Ki)G(K_i)G(Ki)就是相似向量,就用了聚类的思想,使各个文字的像素各成一类。(牛逼)
然而文字与文字间的kernel要保持一定的距离以区分开来,因此,作者又使用:
在这里插入图片描述
LossFunction:
在这里插入图片描述
其中文字区域和kernel预测loss为:
在这里插入图片描述
Experiment:
不多说,直接上图。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
作者在多个数据集上做过实验,而且效果都不错,作者验证很充分。

END

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一碗白开水一

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值