4
Most read
5
Most read
20
Most read
0
CVPR2022読み会(前編) 8/7 14:00-14:25
TableFormer: Table Structure
Understanding with Transformers
@cv_carnavi
1
アジェンダ
• 自己紹介
• ざっくり言うとどんな論文?
• 背景・目的
• 手法の説明
• 結果
• 所感
2
自己紹介
川波 稜
n 所属
n R&D部⾨ 勤務(⾃動⾞関係ではない)
n 業務
n AI-OCR(⽂字検出・⽂字認識)
@cv_carnavi
かわなみ りょう
3
ざっくり言うとどんな論文?
[1] Ahmed Nassar (IBM Research) et al., “TableFormer: Table Structure
Understanding with Transformers.,” CVPR, 2022.
[1]
n どんな論⽂か︖
• テーブル検出(table-location)と
テーブル構造分解(table-structure
decomposition)をEnd-2-Endで同
時に予測するTransformerベースのネ
ットワークを提案
TableFormer は、表の画像が与えられると以下を予測するこ
とができる
• 1)表の構造を表すトークン列
• 2)それらのトークンのサブセットに結合されたバウン
ディングボックス
4
背景・目的
• 表は重複するセル内容を減らすために、複雑な列
や⾏のヘッダを持つことが多い(セル結合etc.)
→シンプルにデータベースとして抽出しようとする
とどのようにデータ化して良いのか混乱する
• 空の表エントリや⽋落した表エントリ、複数⾏のテキスト表エ
ントリを持つこともできる
→画像中の表でこれがあると⽂字を検出してもセルと紐づかないた
め表構造に落とし込めない
CVPR2022読み会
参加者
前編 後編
A B
C D
表の特性とデータを抽出する際の課題
5
おまけ
方眼紙のように使われているエクセルの例
”紙”が”神”に転じてネ申エクセルと呼ばれている
市役所で蔓延っておりDXのハードルになっている
https://atmarkit.itmedia.co.jp/ait/articles/1612/26/news032.html
画像化して
表構造解析+OCRしたらネ申エクセルにも対応可能になるかも?
ネ申エクセル
6
背景・目的
1. テーブルロケーション(table-location)
2. テーブル構造分解(table-structure decomposition)
表を扱う上での2つのタスク
→ ⼗分データがあれば物体検出(YOLO, Mask-RCNN)で対処可能
→ ⼀般的なアプローチがなく⽂書理解のコミュニティで⻑く続いている問題
近年いくつか新しいモデルが提案されている
• Image-to-Text networks: PubTabNet, FinTabNet
→LaTeX/HTMLタグなどで出⼒することで複雑な表にも対応できる
• GCNʼs
→複雑な表にも対応できるがほかアプローチと⽐べて再構成された表の品質が悪い
• Hybrid Deep Learning-Rule-Based approach
→E2Eな⼿法でない&異なるタイプへの汎⽤性がなく複雑な表に対応できない
→他にも共通して以下の弱点がある
• テキスト特徴に依存している
• 元画像の各テーブルセルのBBoxを出⼒できない
7
補足・HTML記法
⾃由な表構造の記述が可能
https://udemy.benesse.co.jp/design/web-design/html-table.html
列のセル結合
行のセル結合
8
手法の説明
弱点を克服し以下の特徴を持つ⼿法を提案
• ⾔語に依存しない
• 元のPDFから可能な限り情報を取得する(OCRより精度が⾼いため)
• 画像内の表セルとそのバウンディングボックスの間に直接的なリンク関係を持たせたい(ネットワーク
外で得たテキストを紐づけるため)
上記を満たすために論⽂では以下の2つを提案
• TableFormer︓テーブル構造とBBoxを同時にE2Eに予測するTransformerベースのモデル
• SynthTabNet︓合成された表構造を持つデータセット
(本日説明)
(参考スライド)
ü 従来⼿法よりSOTA(Transformer効果)
ü 学習も推論も効率的(Transformer効果)
強み
9
手法の説明
“image-encoder → text-decoder” (IETD)
“image-encoder → dual decoder” (IEDD)
・エンコーダ︓画像をエンコーディング
・デコーダ︓空の表を構成するLaTeX/HTML⽂字列を⽣成
・エンコーダ︓画像をエンコーディング
・デコーダ︓
・tag-decoder︓空の表を構成するLaTeX/HTML⽂字列を⽣成
・contents-decoder︓画像のエンコーディングとtag-decoderの各セルタグをエンコー
ディングした出⼒を組み合わせて各テーブルセルのテキストコンテンツを⽣成
Image-to-Text networksなアプローチの従来⼿法
Image Captioningのアーキテクチャのようなもの
これらのアプローチにおける課題
従来アプローチでは
暗黙的にカスタムされたOCRモデルを必要とする
・IETD: デコーダにOCRが含まれる
・IEDD: contents-decoderにOCRが含まれる
E2EネットワークにOCRが入るデメリット:
→元のPDFに文字が埋め込まれていればそちらを使えるようにしたい or OCRは別で処理したい
・ほぼ英語の表のデータセットなので英語以外では
カスタムトレーニングが必要となる
・OCRはそもそもタスクとして学習困難
10
手法の説明
TableFormer は、表の画像が与えられると、
• 1)表の構造を表すトークン列
• 2)トークンのサブセットに紐づいたBBox
の2つを同時に予測することが可能
タグを表すトークン列とBBoxが①②③のように明⽰的に紐づいているため、
• テキストの埋め込まれたPDFから抽出したテキスト
• ネットワーク外でOCRエンジン・⽂字認識モデルを⽤いて認識したテキスト
を紐付けることが可能
ポイント
11
手法の説明
モデルアーキテクチャは以下の3つから構成される
• ① CNN Backbone Network
• ② Structure Decoder(Transformerベース [2])
• ③ Cell BBox Decoder(DETRインスパイア)
• 各テーブルセルのHTMLタグとバウンディングボックスを端から端まで個別のオブジ
ェクト検出器を必要とせずに同時に予測
手順
• 入力画像をあらかじめ定義された長さの特徴ベクトルとして符号化(ResNet18)
• 符号化された画像の入力特徴ベクトルが構造デコーダ(Structure Decoder)に渡さ
れ、表の構造を表すHTMLタグの列が生成される
• Structure Decoder がHTML標準データセル('< td> ')を予測するたびに、そのセル
の隠された状態(the hidden states)がCell BBox Decoderに渡される
• 行や列のスパンのようなスパンセルについては、タグはスパンセルの数(属性)と'< ',
'rowspan=' または 'colspan=', '>' に分解される
• < ' に付けられた隠された状態(the hidden states)は、Cell BBox Decoder に渡さ
れる
• MLPから構成される共有フィードフォワードネットワーク(FFN)は構造デコーダ
(Structure Decoder)から隠された状態(the hidden states)を受け取り、バウンディ
ングボックス座標とその分類の最終的な検出予測を提供する
①
②
③
[2] Ashish Vaswani (Google) et al., “Attention Is All You Need,” NIPS, 2017.
②はほとんどTransformer
(上下逆転してるだけ)
12
手法の説明
• マルチタスクLoss
• 𝑙!: Cross-Entropy loss
• →トークンを予測するStructure Decoderの学習に使用
• 𝑙"#$:
• →セルのBBoxを検出するCell Bbox Decoderの学習に使用
• →物体検出で一般使用される𝑙!とスケール不変な𝑙"#$から構成される
13
結果
• 評価指標The Tree-Edit-Distance-Based
Similarity (TEDS) において全てのデータセ
ットでSOTA
HTMLフォーマットのずれを見る指標
Ta, Tb: 木構造 HTML形式のテーブル
EditDist: 木と編集の距離
|T|: Tのノードの数
言及:
大きな表(例えば、ページの半分以上を占める表)は予測精度が低い
この問題は、前処理段階での画像サイズ変更により、区別できない特徴を持つダウンサンプリングされた画像が生成されるためと考えられるが、
大きな入力画像サイズを処理できるCNNモデルを変えることで対処可能(ResNet-18からより大きなモデルへ変更)
EDD: Encoder-Dual-Decoder
GTE: Global Table Encoder
14
結果
• セル検出の精度も評価指標mAPで良好
(Structure Decoderなしと比較すると高くなっ
ていることがDETRに対してStructure Decoder
の有効性が示唆される)
• 画像からデコードするのではなく、PDFのセル
からコンテンツを抽出することに重点を置いて
評価してもSOTA
15
結果
テキスト・⾔語の特徴に依存せず、複雑なテーブルでも構造抽出、検出が可能
テキスト特徴を使⽤しないので⾔語が変わったTableに対して推論する際にも学習し直す必要がなく適⽤可能
2.複雑な形状
1.異なる⾔語
16
所感
• 表構造解析まで適⽤できるTransformerの守備範囲…
• 画像データとHTMLのアノテーションデータが紐づいた状態で⽤意するの
が⼤変だが、SynthTabNetデータセット(公開済み)で⼀度学習済みモ
デルを作ってしまえばあらゆる⾔語データに(⽇本語にも)適⽤できるの
で便利
• PDFに⽂字が埋め込まれてないケースにおいて、 論⽂中では⾔及されてい
ないが⽂字認識の精度がボトルネックになるはずなので、⽇本語⽂書に対
し実務上使う場合はカスタムしたOCR(⽂字認識)モデルを別で⽤意して
TableFormerと2つセットで合わせて使⽤することになりそう
https://github.com/ibm/synthtabnet
参考
18
手法の説明(SynthTabNetデータセット)
学習と評価にPubTabNet, FinTabNet, TableBank などの大規模データセットを利用
• PubTabNetデータセット:
• 509kの表が含まれ、アノテーション付きのPNG画像として提供
• アノテーションはHTML形式で表現された表構造、トークン化されたテキスト、表セルごとのバウンディングボックス
で構成される
• FinTabNetデータセット:
• 表構造とテキストコンテンツが混在した1ページのPDFドキュメントとして配信された112k個の表が含まれている
• PubTabNetと同様に、FinTabNetのアノテーションには、HTMLのテーブル構造、トークン化されたテキスト、テーブ
ルセルベースのバウンディングボックスが含まれている
• TableBankデータセット:
• JPEG画像として提供された145k個の表から構成されている。後者は表の構造に関するアノテーションを持つが、
表セルのバウンディングボックスを持つものはほとんどない
• データセット全体は単純な表で構成される
19
手法の説明(SynthTabNetデータセット)
• 各データセット形式が異なるため、実⽤的なモデ
ルを学習させるために利⽤可能なすべてのデータ
を1つの均質なデータセットに結合できる仕組み
→ SynthTabNetデータセット
1) データセットのサイズ、2) 表の構造、3) 表のスタイル、4) コンテンツの種類
など表を構成する様々な要素制御し合成することで⼤規模な表データセットを⽣成可能

More Related Content

PDF
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
PDF
実装レベルで学ぶVQVAE
PDF
Data-Centric AIの紹介
PDF
画像生成・生成モデル メタサーベイ
PPTX
Group normalization
PDF
深層生成モデルと世界モデル
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
実装レベルで学ぶVQVAE
Data-Centric AIの紹介
画像生成・生成モデル メタサーベイ
Group normalization
深層生成モデルと世界モデル
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

What's hot (20)

PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
PDF
ELBO型VAEのダメなところ
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
[DL輪読会]Neural Ordinary Differential Equations
PDF
グラフニューラルネットワーク入門
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
Priorに基づく画像/テンソルの復元
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
PDF
ドメイン適応の原理と応用
PDF
[DL輪読会]SlowFast Networks for Video Recognition
PDF
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
PRML学習者から入る深層生成モデル入門
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
Skip Connection まとめ(Neural Network)
PPTX
[DL輪読会]相互情報量最大化による表現学習
モデルアーキテクチャ観点からの高速化2019
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
論文紹介 Semi-supervised Learning with Deep Generative Models
ELBO型VAEのダメなところ
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Neural Ordinary Differential Equations
グラフニューラルネットワーク入門
【DL輪読会】Scaling Laws for Neural Language Models
Priorに基づく画像/テンソルの復元
【メタサーベイ】数式ドリブン教師あり学習
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
ドメイン適応の原理と応用
[DL輪読会]SlowFast Networks for Video Recognition
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PRML学習者から入る深層生成モデル入門
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Skip Connection まとめ(Neural Network)
[DL輪読会]相互情報量最大化による表現学習
Ad

第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf