An end-to-end TextSpotter with Explicit Alignment and Attention

本文提出了一种端到端的TextSpotter,通过引入文本对齐层和字符注意力机制,提高了文本实例的卷积特征计算精度,实现了文本检测和识别的协同工作。模型在ICDAR2015数据集上取得了显著的端到端识别结果,提升了F-measure,并且可以作为一个优秀的检测器。通过字符级空间信息的明确监督,模型能够更好地关注当前字符特征,从而提升字识别性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                               An end-to-end TextSpotter with Explicit Alignment and Attention

 

Tong He;, Zhi Tian;, Weilin Huang, Chunhua Shen                                            中国科学院深圳先进技术研究院

                                                                                  2018  CVPR

 

这是一个端到端的end-to-end方法,本文的three-fold主要贡献是:

1)我们提出了一种新颖的文本对齐层,允许它以任意方向精确计算文本实例的卷积特征,这是提高性能的关键;
2)通过使用字符空间信息作为明确监督,引入字符关注机制,使识别得到很大改善;
3)两种技术以及用于字识别的新RNN分支无缝集成到可端到端训练的单个模型中。这允许两个任务通过共享卷积特征协同工作,这对于识别具有挑战性的文本实例至关重要。我们的模型在ICDAR2015 [1]数据集的端到端识别方面取得了令人瞩目的成果,显着推进了最新的结果[2],改进了F-measure(0:54; 0:51; 0:47)到(0:82; 0:77; 0:63),分别使用强,弱和通用词典。归功于联合训练,通过在两个数据集上实现最新的最先进的检测性能,我们的方法也可以作为一个好的检测器。

最近的text detection方法通常是使用一般的目标检测器,如faster rcnn,ssd等直接进行边框回归,或者使用语义分割的方法来预测每个像素是文本/非文本来检测。

word recognition可以转化为序列标记问题,其中最近开发了卷积递归模型。其中的一些进一步与注意力机制结合,以改善性能。但是,分别训练两个任务并没有利用卷积网络的全部潜力,其中卷积特征不被共享。 如果我们清楚地理解或认识到一个词及其中所有字符的含义,我们自然会做出更可靠的决定。 此外,还可以引入许多启发式规则和超参数调整成本高昂,使整个系统变得非常复杂。

最近的MASK R-CNN将实例分割任务合并到faster R-CNN [12]检测框架中,从而产生一个多任务学习模型,它共同预测每个对象实例的边界框和分割mask。我们

explicit spectral-to-spatial convolution for pansharpening是一种用于全色融合的显式光谱到空间卷积方法。全色融合是将高分辨率的全色(黑白)图像与低分辨率的多光谱(彩色)图像融合,以提高图像质量和细节。传统的融合方法常常使用高通滤波器进行频域操作,而explicit spectral-to-spatial convolution for pansharpening则使用基于卷积的空间域方法。 该方法基于以下原理:在全色图像中,光谱分辨率高,但空间分辨率较低;而在多光谱图像中,光谱分辨率较低,但空间分辨率较高。因此,通过将全色图像的光谱信息传递给多光谱图像,可以提高多光谱图像的空间分辨率。 explicit spectral-to-spatial convolution for pansharpening方法通过使用卷积核,将全色图像的光谱信息转换为空间域的高频细节。这个卷积核是根据光谱和空间信息之间的关系而设计的。通过将这个卷积核应用于低分辨率的多光谱图像,可以增强其空间细节,使其接近高分辨率的全色图像。 这种方法的优势在于显式地将光谱信息转换为空间域的细节,能够更好地保留图像的光谱特征和空间细节。与传统的频域方法相比,显式光谱到空间卷积方法更容易实现,并且能够更好地适应各种图像场景。 总之,explicit spectral-to-spatial convolution for pansharpening是一种通过卷积将全色图像的光谱信息转换为多光谱图像的空间细节的方法,以实现全色融合,提高图像质量和细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值