[论文阅读]TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记_an end-to-end fully complex framework for-CSDN博客

本文链接：https://blog.csdn.net/SpicyCoder/article/details/104774201

TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记

文章被收录于ICCV2019
[论文地址]:http://openaccess.thecvf.com/content_ICCV_2019/html/Feng_TextDragon_An_End-to-End_Framework_for_Arbitrary_Shaped_Text_Spotting_ICCV_2019_paper.html
[代码地址]:暂未找到

摘要

本文提出一种用来制造文本检测与识别关系的可微运算RoISlide，使模型成为端到端模型。本文在两个弯曲文本数据集CTW1500和Total-Text上的表现达到最佳，在常规文本数据集ICDAR2015上达到了具有竞争力的结果。

介绍

目前，文本检测的现有方法大多数是通过两步实现：文本检测与文本识别。这样的方式具有时间成本高和忽略了文本检测与识别之间的联系这两个缺点。

本文提出的TextDragon灵感来源于TextSnake[32]，TextSnake文本检测的方式是使用一系列的局部单元，因此可以实现任意形状的文本检测。但是其在训练过程中需要字符级别的标签，一些数据集并没有提供此类标签，因此可能需要耗费大量人工成本。

本文为了实现任意形状文本的检测，使用了一系列局部四边形来定位复杂的文本。
如图2所示，RoISlide连接了检测与识别模块，用于从特征图中提取特征和纠正任意形状文本区域，从而减少了字符大小与方向的变化。之后，经过校正的文本特征输入到CNN和Connectionist Temporal Classification(CTC)中来生成最终的结果。此外，TextDragon是第一个可训练的端到端的实现任意形状文本检测的模型，且仅仅使用单词级别或行级别的标签就可以完成检测任务。

三大贡献：
(1) TextDragon端到端模型提出
(2) 可微的RoISlide将识别与检测统一到一起
(3) 仅仅使用单词/行级别标注完成训练

方法

本文方法：通过主干网络从图像中抽取特征，然后使用文本检测器来描述一系列基于中心线定位的四边形文本。然后使用RoISlide从特征图中沿着中心线抽取特征，其中的局部转换网络将每一个四边形中的特征转化为校正后的特征。最后，使用CNN来对每一个四边形的特征进行分类，使用CTC解码器解码出最终的文本序列。
在这里插入图片描述

文本检测

为了解决不同尺度文字识别的问题，本文采用多层特征图融合，将融合特征图上采样至原图像的1/4大小。
输出模块包括：Centerline Segmentation和Local Box Regression。

Centerline Segmentation: 中心线分割的主要目的是，找到文本的中心线。主要方法是将文本的中心线附近的像素预测为1，其余像素预测为0（也就是非文本区域）。为了解决中心线区域像素与非文本像素个数不均衡的问题，本文参考了[40]，采用**online hard example mining(OHEM)**方法。

损失函数: $L_{s e g}=\frac{1}{|S|} \sum_{s \in S} L\left(p_{s}, p_{s}^{*}\right) =\frac{1}{|S|} \sum_{s \in S}\left(-p_{s}^{*} \log p_{s}-\left(1-p_{s}^{*}\right) \log \left(1-p_{s}\right)\right)$