[论文阅读]TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记

TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记

文章被收录于ICCV2019
[论文地址]:http://openaccess.thecvf.com/content_ICCV_2019/html/Feng_TextDragon_An_End-to-End_Framework_for_Arbitrary_Shaped_Text_Spotting_ICCV_2019_paper.html
[代码地址]:暂未找到


摘要

本文提出一种用来制造文本检测与识别关系的可微运算RoISlide,使模型成为端到端模型。本文在两个弯曲文本数据集CTW1500和Total-Text上的表现达到最佳,在常规文本数据集ICDAR2015上达到了具有竞争力的结果。


介绍

目前,文本检测的现有方法大多数是通过两步实现:文本检测与文本识别。这样的方式具有时间成本高和忽略了文本检测与识别之间的联系这两个缺点。

本文提出的TextDragon灵感来源于TextSnake[32],TextSnake文本检测的方式是使用一系列的局部单元,因此可以实现任意形状的文本检测。但是其在训练过程中需要字符级别的标签,一些数据集并没有提供此类标签,因此可能需要耗费大量人工成本。

本文为了实现任意形状文本的检测,使用了一系列局部四边形来定位复杂的文本。图2
如图2所示,RoISlide连接了检测与识别模块,用于从特征图中提取特征和纠正任意形状文本区域,从而减少了字符大小与方向的变化。之后,经过校正的文本特征输入到CNN和Connectionist Temporal Classification(CTC)中来生成最终的结果。此外,TextDragon是第一个可训练的端到端的实现任意形状文本检测的模型,且仅仅使用单词级别或行级别的标签就可以完成检测任务。

三大贡献:
(1) TextDragon端到端模型提出
(2) 可微的RoISlide将识别与检测统一到一起
(3) 仅仅使用单词/行级别标注完成训练


相关工作

场景文本检测

Liu等人[31]集成了递归的横向和纵向偏移连接以检测弯曲的文本,该文本由14个顶点多边形描述。

Wang等人[46]提出了一种基于循环神经网络的自适应文本边界的方法,实现了任意形状文本的检测。

Long等人[32]提出了一系列以对称轴为中心的可重叠的圆盘来检测弯曲文本。但是圆盘并不方便与之后的识别器进行组合使用。

场景文本识别

基于深度学习的方法是通过CNN来提取特征,然后用循环神经网络来生成顺序标签[42],但是这样的方式只是考虑了文本的一维性,并不适合弯曲文本检测。

Shi等人[39]和Liu等人[28]引入空间注意力机制来对弯曲文本进行姿态调整。Cheng等人[5]将特征输入至注意力机制的解码器中,从而完成不规则文本检测。

Scene Text Spotting(场景文本检测与识别,可理解为End-to-End)

Li等人[25]提出了一种专注于水平文本检测与识别的端到端方法。
Liu等人[29]提出了一种可微运算RoIRotate,它通过从特征图中提取定向文本。Patel等人[35]提出了一种针对多语言的端到端的方法。以上方法均只支持常规文本的检测。

基于Mask-RCNN [11],Lyu等人[33]提出了一种通过文字实例分割方式来实现弯曲文本检测与识别的方法,但其需要字符级别标注。


方法

本文方法:通过主干网络从图像中抽取特征,然后使用文本检测器来描述一系列基于中心线定位的四边形文本。然后使用RoISlide从特征图中沿着中心线抽取特征,其中的局部转换网络将每一个四边形中的特征转化为校正后的特征。最后,使用CNN来对每一个四边形的特征进行分类,使用CTC解码器解码出最终的文本序列。
在这里插入图片描述

文本检测

为了解决不同尺度文字识别的问题,本文采用多层特征图融合,将融合特征图上采样至原图像的1/4大小。
输出模块包括:Centerline Segmentation和Local Box Regression。

Centerline Segmentation: 中心线分割的主要目的是,找到文本的中心线。主要方法是将文本的中心线附近的像素预测为1,其余像素预测为0(也就是非文本区域)。为了解决中心线区域像素与非文本像素个数不均衡的问题,本文参考了[40],采用**online hard example mining(OHEM)**方法。

损失函数: L s e g = 1 ∣ S ∣ ∑ s ∈ S L ( p s , p s ∗ ) = 1 ∣ S ∣ ∑ s ∈ S ( − p s ∗ log ⁡ p s − ( 1 − p s ∗ ) log ⁡ ( 1 − p s ) ) L_{s e g}=\frac{1}{|S|} \sum_{s \in S} L\left(p_{s}, p_{s}^{*}\right) =\frac{1}{|S|} \sum_{s \in S}\left(-p_{s}^{*} \log p_{s}-\left(1-p_{s}^{*}\right) \log \left(1-p_{s}\right)\right) Lseg=S1sSL(ps,ps)=S1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值