SimAN: 自监督表示学习中的风格对齐与场景文本提升

PDF文件

13.78MB | 更新于2025-01-16 | 76 浏览量 | 举报收藏

立即下载

自监督表示学习是当前计算机视觉领域的一大研究热点，特别是在场景文本识别中，它能够克服传统监督学习对大量标注数据的依赖。本文介绍了一种新颖的方法——SimAN（相似性感知归一化），它旨在通过生成式学习策略来提升场景文本的表示学习效果。 SimAN的核心思想是利用文本行中相邻图像补丁之间的风格一致性。在自然场景下，相邻的文字往往具有相似的笔画、纹理和颜色特征。通过增强一个图像补丁并利用其相邻补丁作为指导，SimAN模块能识别和对齐这些相似的模式，从而增强网络区分复杂模式的能力，如识别杂乱的笔画和混乱的背景。这种方法与传统的对比学习（如SeqCLR）不同，后者主要依赖于对比样本间的差异，而SimAN则聚焦于生成和恢复过程中的内容和样式对齐。文章的创新之处在于提出了一种相似性感知归一化技术，它不仅关注内容表示的匹配，还通过样式对齐来提高表示的质量。通过实验验证，SimAN显著提升了表示学习的效果，使得自监督网络在文本图像合成、编辑和字体插值等任务上展现出强大的潜在应用能力，显示了其广泛的实用性。 SimAN为自监督场景文本表示学习提供了一个独特的视角，它通过生成式的生成和恢复过程，实现了更高效、更深入的特征学习，减少了对人工标注数据的依赖，有望在未来的研究中发挥重要作用。此外，这种方法的通用性和适应性也为其他领域的自监督学习提供了新的思路和可能。

{canjie.luo, lianwen.jin}@gmail.com, [email protected]

1039

SimAN:通过相似性感知归一化探索场景文本的自监督表示学习

骆灿杰1，金连文1,2,*，陈晶东3

1华南理工大学，2鹏城实验室，3蚂蚁集团

摘要

最近，自监督表示学习在场景文本识别社区引起了相当大的

关注。与以往使用对比学习的研究不同，我们从另一个角度

来解决这个问题，即通过生成式方式来构建表示学习方案。

通常，一个文本行中的相邻图像补丁往往具有相似的样式，

包括笔画、纹理、颜色等。受到这种常识的启发，我们增强

一个图像补丁，并使用其相邻补丁作为指导来恢复自身。具

体而言，我们提出了一种相似性感知归一化（SimAN）模块

，以识别不同的模式并从指导补丁中对齐相应的样式。通过

这种方式，网络获得了区分复杂模式（如杂乱笔画和混乱背

景）的表示能力。实验证明，所提出的SimAN显著提高了表

示质量，并取得了有希望的性能。此外，我们惊讶地发现，

我们的自监督生成网络在数据合成、文本图像编辑和字体插

值方面具有令人印象深刻的潜力，这表明所提出的SimAN具

有广泛的实际应用。

1.引言

计算机视觉社区在过去的十年中见证了监督学习的巨大成功

。然而，监督学习方法严重依赖于费力费时的注释。否则，

它们可能会遇到泛化问题。最近，自监督表示学习成为一种

有前途的替代方案，因此引起了越来越多的关注[24,

34]。已经表明，自监督表示可以使后续的监督任务受益[6-

10,

18]。尽管在单个对象识别/分类任务上的表示学习取得了快

速的改进，

*通讯作者。

f(∙)

内容

样式

增强

相似性

注意力归一化

f(∙)

内容

样式对齐

内容

解码器

表示

空间

（a）对比表示学习

（b）生成式表示学习（我们的方法）

恢复的图像

SeqCLR

增强

f(∙)

表示

空间

投影

头部

图1.

场景文本表示学习的对比式（a）和生成式（b）方法（我们的方法

）。我们估计增强补丁与其相邻补丁之间的内容表示的相似性，并

对应地对齐相应的样式以重构增强补丁。只有高质量的表示才能被

区分，从而可以实现精确的重构。

场景文本识别领域面临额外的挑战。例如，一张图像中的多

个字符不能被视为一个实体[38,

61]。直接采用当前非顺序对比学习方案用于类似序列的字

符[44]通常会导致性能下降[1]。这表明了非顺序和顺序方案

之间的差距。因此，为场景文本识别设计一个特定的表示学

习方案是可取的。由于场景文本图像中包含密集字符，与自

然图像显著不同，SeqCLR[1]

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

SimAN: 自监督表示学习中的风格对齐与场景文本提升

DFT的matlab源代码-siman:第一性原理计算经理

silesia-blockchain-meetup:

自动化制造系统的计算机仿真及优化.pdf

arena中文教程第5章.pdf

arena中文教程第5章.docx

可视化交互仿真软件ArenaArena的层次建模结构Arena通过使用.pdf

Siman 2.4：高效易用的SIM卡读写工具介绍

Arena建模深入探索：汽车修理车间模型分析

使用Arena构建详细模型：从高层到低层的深入探索

可重排队M/M/1(0)系统仿真：性能分析与优势展示

最新资源