【读点论文】An Empirical Study of Scaling Law for OCR,又提出一个数据集,真实样本:合成样本=1:3。在TrOCR和PARSeq上大力出奇迹

An Empirical Study of Scaling Law for OCR

Abstract

  • 在自然语言处理 (NLP) 领域,模型大小、数据量、计算和模型性能的规律已经得到广泛研究。然而,光学字符识别 (OCR) 中的缩放规律尚未得到研究。为了解决这个问题,我们进行了全面的研究,包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性。 总而言之,当其他影响因素保持不变时,研究表明性能与模型大小以及训练数据量之间存在平滑的幂律。此外,我们构建了一个名为 REBU-Syn 的大型数据集,其中包含 600 万个真实样本和 1800 万个合成样本。基于我们的缩放规律和新数据集,我们成功训练了一个场景文本识别模型,在 6 个常见测试基准上取得了新的最佳水平,top-1 平均准确率为 97.42%。模型和数据集可在 GitHub - large-ocr-model/large-ocr-model.github.io 上公开获取。
  • 论文地址:[2401.00028] An Empirical Study of Scaling Law for OCR (arxiv.org)

Introduction

  • 光学字符识别 (OCR) 是一种旨在检测和解释图像(例如扫描文档和照片)中的文本内容的技术。典型的 OCR 系统分为两个主要阶段:文本检测和文本识别。在此背景下,我们的重点是文本识别阶段,该阶段涉及从预定义的边界框中识别和提取文本。在文本识别任务中,它细分为场景文本识别和扫描文档识别。场景文本识别比传统扫描文档更具挑战性,因为它需要在实际应用中解决更复杂的问题,例如光照变化、遮挡、扭曲、角度变化等因素。这种影响使得识别任务更加困难,而且STR作为研究热点,技术改进和创新空间较大,因此,为了探究缩放规律的适用性,本文将重点研究场景文本识别任务

  • 随着深度学习中大规模模型的引入,越来越多的学者开始关注这些模型的潜力和增长趋势,希望它们能为未来模型的开发和设计做出贡献。在 NLP 领域 ,已经进行了大量实验来研究缩放模型规律 。结果表明,输入神经网络的数据量越大,其性能越好。因此,在海量数据上训练的大型语言模型主导了 NLP 领域。然而,在 OCR 领域,研究主要集中在使用固定数据大小和模型大小来增强模型性能 。专门针对大型 OCR 模型中的缩放定律的研究非常稀少,这使得人们对大型模型和大量数据对 OCR 的潜在影响产生了不确定性。基于 Transformer 的模型在各种文本识别任务和挑战中都取得了最佳表现 。

  • 在本文中,我们探索了使用基于 Transformer 的模型进行文本识别的缩放规律。我们的重点是揭示模型大小、数据量和计算与模型性能之间的关系。 我们的实验框架涵盖了广泛的模型,参数数量从 5000 万到 10 亿不等,数据集从 100 万到 10 亿训练样本不等。此外,我们将探索范围扩大到 100 到 1000 小时的计算持续时间。这种全面的分析使我们能够对文本识别中的缩放规律得出深刻的结论。此外,我们引入了一个名为 REBU-Syn 的新数据集,它结合了现实世界和合成数据。 该数据集是从现有的公共数据集中精心编制而成的,为该领域的进一步研究提供了宝贵的资源。

  • 在我们的研究中,我们开发了一种先进的大规模训练方法。该方法涉及对各种策略的全面检查,例如优化训练超参数、分析数据分布和利用预训练技术。我们的目标是创建一个具有卓越精度和准确度的模型。这些努力的顶峰是使用 REBU-Syn 训练 CLIP4STR-L。这种方法在测试基准上实现了突破性的 97.42% 的先进性能(见下图 )。以下是 OCR 观测的附加缩放定律的汇编:

    • 缩放定律在OCR领域成立,模型大小、数据量、计算量和性能之间存在平滑的幂律
    • 大规模模型比小规模模型能够更好地利用样本,这意味着在数据量固定的情况下,大模型的错误率更低。
    • 不同来源的训练数据的比例对于模型训练至关重要
    • 在OCR相关数据上进行预训练的模型在OCR任务中比在ImageNet等一般图像上进行预训练的模型更有效

Related Work

  • 模型规模,最近的研究广泛探索了 Transformer 语言模型的缩放规律,特别是在 NLP 领域 。这些研究已经建立了一套通用的建模规模原则。然而,专门针对 OCR 的研究仍然很少。基于 Transformer 的方法以对增加的模型深度和宽度具有更高的容忍度而闻名,已应用于各个领域 。本研究利用这些方法,特别关注它们在 OCR 中的应用,为有效调整模型大小提供指导。

  • 数据规模, 在图像识别领域,数据规模起着至关重要的作用。各种模型的性能受到所用数据集大小的显著影响 。虽然不同类型的模型需要不同的数据量,但一些先前的方法 [What is wrong with scene text recognition model comparisons? dataset and model analysis] 探索了 OCR 识别任务对不同数据规模的影响,但它们的主要重点是基于 CNN 或基于注意力的方法 ,并且它们仅专注于减少数据规模。此外,公共数据集的可用性促进了该领域的广泛研究和实验 。本文旨在在此基础上,通过全面研究数据规模的影响(包括下限和上限)以及 OCR 任务中的数据分布。此外,这项研究为在最佳模型训练过程中真实数据和合成数据的对齐提供了新的见解,填补了当前研究的空白

  • 缩放定律 ChatGPT 和 GPT-4 等大型语言模型 (LLM) 的快速发展引发了对深度学习中通用缩放定律 的研究。这些研究探索了模型大小、数据量、计算和性能之间的关系,为 NLP 中的大型模型提供了训练原则。 [Scaling laws for autoregressive generative modeling] 描述了自回归生成模型的定律。计算机视觉领域也出现了类似的缩放理论 [Scaling vision transformers],正如使用 2B 参数训练 ViT-G 所证明的那样 。此外,最近对 CLIP 缩放定律的研究 [Learning transferable visual models from natural language supervision] 揭示了依赖于任务和数据集的缩放行为 [An inverse scaling law for clip training]。 基于这些基础见解,本研究代表了对 OCR 背景下缩放定律的独特探索。具体而言,它探索了 Transformer 模型的参数分配和内部结构,目的是优化文本识别的性能。此项研究对不断扩大的缩放定律研究做出了独特的贡献,特别是在尚未得到充分探索的 OCR 领域。

Method Details

  • 在本文中,我们主要关注的是探索基于 Transformer 的模型在文本识别任务中的迁移性能的缩放规律。同时,我们合并了所有公开可用的数据集来构建 REBU-Syn 数据集。本文还包括对从各种来源获得的数据比例的彻底分析。最后,我们将详细概述我们研究中使用的训练参数设置。

Model Scaling

  • TrOCR: TrOCR 是一个采用纯 Transformer 架构的文本识别模型。它集成了预先训练的计算机视觉 (CV) 和 NLP 模型。这是第一篇将图像 Transformer 和文本 Transformer 联合用于 OCR 文本识别任务的研究成果。Transformer 语言模型 和 Vision Transformers 的缩放规律已经被研究过,但 OCR 领域模型的缩放规律尚未被探索。在此基础上,我们缩放了 TrOCR 模型大小,并尝试分析不同大小模型的准确率变化曲线。在 TrOCR 中,编码器和解码器部分分别使用预训练的图像 Transformer 和文本 Transformer 模型。这些预训练模型利用大规模未标记数据进行图像理解和语言建模。因此,TrOCR 不需要额外的语言模型进行后处理,并且该模型在与印刷和手写识别相关的任务中表现优于当前最先进的模型。为了继续从相关任务的预训练中受益,我们选择了 TrOCR 中最适合的编码器和解码器组合进行扩展。

    • 对于 TrOCR-S,我们使用 DeiTSMALL 初始化编码器,使用 MiniLM 初始化解码器。 TrOCR-B 使用 BEITBASE 初始化编码器,使用 RoBERTaLARGE 初始化解码器。TrOCR-L 和 TrOCR-H 使用 BEITLARGE 初始化编码器,使用 RoBERTaLARGE 初始化解码器。该模型的参数范围从 4309 万到 10 亿,参数详细信息如下表 所示。

    • 在这里插入图片描述

    • TrOCR 变体的架构规范。

  • PARSeq:PARSeq 遵循编码器-解码器架构。PARSeq 也基于准确率极高的 Transformer 框架,完全符合我们的研究范围。编码器部分利用 Vision Transformer (ViT) 模型提取图像特征,而解码器遵循与 preLayerNorm 相同的架构。本研究中的 Transformer 解码器使用两倍数量的注意头,其中 nhead = dmodel/32。与标准 ViT 相比,编码器会删除 [class] 标记并将所有输出标记输入解码器。

    • PARSeq 在原论文中有两个模型,PARSeqTi 和 PARSeq-S。为了研究 OCR 领域的大模型规律,证明了 ViT 模型的缩放规律。在此基础上,我们将 PARSeq 缩放为 4 种不同的大小。在原论文 PARSeq-S 的基础上,将模型扩展为 3 种大小:PARSeq-B、PARSeq-L 和 PARSeq-H。模型规模也从 2200 万扩展到 6 亿。不同规模 PARSeq 模型的配置见下表。

    • 在这里插入图片描述

    • PARSeq 变体的架构规范。

Dataset

  • 训练数据集: 文本识别的训练数据集通常分为合成数据和真实数据。 从历史上看,由于现实世界数据稀缺,场景文本识别模型主要依赖于合成数据。 然而,最近真实数据可用性的增加改变了这一趋势。据观察,在真实数据上训练的模型往往比在合成数据上训练的模型更具样本效率。鉴于此,我们精心收集了合成数据和真实数据,采用各种策略构建了 REBU-Syn 数据集。 该数据集包含约 600 万个真实数据样本和 1800 万个公共合成数据样本,如下表 所示。REBU-Syn 中合成数据与真实数据的比例为 3:1。 此外,我们利用合成技术生成了额外的 6000 万个数据样本,类似于 MJST,称为 MJST +。

    • 在这里插入图片描述

    • REBU-Syn 数据集的统计数据,包括 Public Real 和 Public Synthetic。还可以使用 Generate Synthetic。

  • 真实数据集:我们从 4 个广泛访问的数据集中收集真实图像来组装 REBU。R 组件由常用的真实数据 组成,包括 COCO-Text (COCO) 、RCTW17 、UberText (Uber) 、ArT 、LSVT 、MLT19 、ReCTS 、TextOCR 和 OpenVINO 。[Scene text recognition with permuted autoregressive sequence models] 中介绍了这些数据集的详细分析。U 是 REBU 的另一个部分,包括 14 个数据集中的 400 万张带标签图像,统称为 Union14ML 。B 表示来自基准源的训练数据,涵盖 IIIT 5k 字 (IIIT5k) 、街景文本 (SVT) 、ICDAR13 和 ICDAR15 等数据集。此外,E 由文本检测任务中常用的两个真实数据集的图像组成,即 Total Text 和 CTW1500 。这一包含显著扩展了我们收集的真实数据范围。

  • 公共合成数据集 MJSynth (MJ) 和 SynthText (ST) 是场景文本识别领域中两个广泛使用的合成数据集,分别包含 890 万和 550 万个数据样本。此外,我们还将另外两个复合数据集纳入了我们的研究。曲线合成文本 (CST) 和 SyntheAdd (SA) 。 CST 专为文本检测任务而设计,主要包含曲线文本数据。使用 SynthText 引擎生成的 SA 旨在合成不太常见的字符,包括标点符号。

  • 生成合成数据集 为了与 MJ 和 ST 数据集紧密结合,我们使用两个数据生成工具创建了 MJST +:TextRecognitionDataGenerator【https://github.com/Belval/TextRecognitionDataGenerator】 和 SynthText【https://github

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值