第１１回　全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf

0
CVPR2022読み会(前編) 8/7 14:00-14:25
TableFormer: Table Structure
Understanding with Transformers
@cv_carnavi

1
アジェンダ
• 自己紹介
• ざっくり言うとどんな論文？
• 背景・目的
• 手法の説明
• 結果
• 所感

2
自己紹介
川波稜
n 所属
n R&D部⾨勤務（⾃動⾞関係ではない）
n 業務
n AI-OCR（⽂字検出・⽂字認識）
@cv_carnavi
かわなみりょう

3
ざっくり言うとどんな論文？
[1] Ahmed Nassar (IBM Research) et al., “TableFormer: Table Structure
Understanding with Transformers.,” CVPR, 2022.
[1]
n どんな論⽂か︖
• テーブル検出（table-location）と
テーブル構造分解（table-structure
decomposition）をEnd-2-Endで同
時に予測するTransformerベースのネ
ットワークを提案
TableFormer は、表の画像が与えられると以下を予測するこ
とができる
• 1）表の構造を表すトークン列
• 2）それらのトークンのサブセットに結合されたバウン
ディングボックス

4
背景・目的
• 表は重複するセル内容を減らすために、複雑な列
や⾏のヘッダを持つことが多い（セル結合etc.）
→シンプルにデータベースとして抽出しようとする
とどのようにデータ化して良いのか混乱する
• 空の表エントリや⽋落した表エントリ、複数⾏のテキスト表エ
ントリを持つこともできる
→画像中の表でこれがあると⽂字を検出してもセルと紐づかないた
め表構造に落とし込めない
CVPR2022読み会
参加者
前編後編
A B
C D
表の特性とデータを抽出する際の課題

5
おまけ
方眼紙のように使われているエクセルの例
”紙”が”神”に転じてネ申エクセルと呼ばれている
市役所で蔓延っておりDXのハードルになっている
https://atmarkit.itmedia.co.jp/ait/articles/1612/26/news032.html
画像化して
表構造解析+OCRしたらネ申エクセルにも対応可能になるかも？
ネ申エクセル

6
背景・目的
1. テーブルロケーション（table-location）
2. テーブル構造分解（table-structure decomposition）
表を扱う上での2つのタスク
→ ⼗分データがあれば物体検出（YOLO, Mask-RCNN）で対処可能
→ ⼀般的なアプローチがなく⽂書理解のコミュニティで⻑く続いている問題
近年いくつか新しいモデルが提案されている
• Image-to-Text networks: PubTabNet, FinTabNet
→LaTeX/HTMLタグなどで出⼒することで複雑な表にも対応できる
• GCNʼs
→複雑な表にも対応できるがほかアプローチと⽐べて再構成された表の品質が悪い
• Hybrid Deep Learning-Rule-Based approach
→E2Eな⼿法でない&異なるタイプへの汎⽤性がなく複雑な表に対応できない
→他にも共通して以下の弱点がある
• テキスト特徴に依存している
• 元画像の各テーブルセルのBBoxを出⼒できない

7
補足・HTML記法
⾃由な表構造の記述が可能
https://udemy.benesse.co.jp/design/web-design/html-table.html
列のセル結合
行のセル結合

8
手法の説明
弱点を克服し以下の特徴を持つ⼿法を提案
• ⾔語に依存しない
• 元のPDFから可能な限り情報を取得する（OCRより精度が⾼いため）
• 画像内の表セルとそのバウンディングボックスの間に直接的なリンク関係を持たせたい（ネットワーク
外で得たテキストを紐づけるため）
上記を満たすために論⽂では以下の2つを提案
• TableFormer︓テーブル構造とBBoxを同時にE2Eに予測するTransformerベースのモデル
• SynthTabNet︓合成された表構造を持つデータセット
（本日説明）
（参考スライド）
ü 従来⼿法よりSOTA（Transformer効果）
ü 学習も推論も効率的（Transformer効果）
強み

9
手法の説明
“image-encoder → text-decoder” (IETD)
“image-encoder → dual decoder” (IEDD)
・エンコーダ︓画像をエンコーディング
・デコーダ︓空の表を構成するLaTeX/HTML⽂字列を⽣成
・エンコーダ︓画像をエンコーディング
・デコーダ︓
・tag-decoder︓空の表を構成するLaTeX/HTML⽂字列を⽣成
・contents-decoder︓画像のエンコーディングとtag-decoderの各セルタグをエンコー
ディングした出⼒を組み合わせて各テーブルセルのテキストコンテンツを⽣成
Image-to-Text networksなアプローチの従来⼿法
Image Captioningのアーキテクチャのようなもの
これらのアプローチにおける課題
従来アプローチでは
暗黙的にカスタムされたOCRモデルを必要とする
・IETD：デコーダにOCRが含まれる
・IEDD： contents-decoderにOCRが含まれる
E2EネットワークにOCRが入るデメリット：
→元のPDFに文字が埋め込まれていればそちらを使えるようにしたい or OCRは別で処理したい
・ほぼ英語の表のデータセットなので英語以外では
カスタムトレーニングが必要となる
・OCRはそもそもタスクとして学習困難

10
手法の説明
TableFormer は、表の画像が与えられると、
• 1）表の構造を表すトークン列
• 2）トークンのサブセットに紐づいたBBox
の2つを同時に予測することが可能
タグを表すトークン列とBBoxが①②③のように明⽰的に紐づいているため、
• テキストの埋め込まれたPDFから抽出したテキスト
• ネットワーク外でOCRエンジン・⽂字認識モデルを⽤いて認識したテキスト
を紐付けることが可能
ポイント

11
手法の説明
モデルアーキテクチャは以下の3つから構成される
• ① CNN Backbone Network
• ② Structure Decoder（Transformerベース [2]）
• ③ Cell BBox Decoder（DETRインスパイア）
• 各テーブルセルのHTMLタグとバウンディングボックスを端から端まで個別のオブジ
ェクト検出器を必要とせずに同時に予測
手順
• 入力画像をあらかじめ定義された長さの特徴ベクトルとして符号化（ResNet18）
• 符号化された画像の入力特徴ベクトルが構造デコーダ（Structure Decoder）に渡さ
れ、表の構造を表すHTMLタグの列が生成される
• Structure Decoder がHTML標準データセル（'< td> '）を予測するたびに、そのセル
の隠された状態(the hidden states)がCell BBox Decoderに渡される
• 行や列のスパンのようなスパンセルについては、タグはスパンセルの数（属性）と'< ',
'rowspan=' または 'colspan=', '>' に分解される
• < ' に付けられた隠された状態(the hidden states)は、Cell BBox Decoder に渡さ
れる
• MLPから構成される共有フィードフォワードネットワーク（FFN）は構造デコーダ
（Structure Decoder）から隠された状態(the hidden states)を受け取り、バウンディ
ングボックス座標とその分類の最終的な検出予測を提供する
①
②
③
[2] Ashish Vaswani (Google) et al., “Attention Is All You Need,” NIPS, 2017.
②はほとんどTransformer
（上下逆転してるだけ）

12
手法の説明
• マルチタスクLoss
• 𝑙!: Cross-Entropy loss
• →トークンを予測するStructure Decoderの学習に使用
• 𝑙"#$:
• →セルのBBoxを検出するCell Bbox Decoderの学習に使用
• →物体検出で一般使用される𝑙!とスケール不変な𝑙"#$から構成される

13
結果
• 評価指標The Tree-Edit-Distance-Based
Similarity (TEDS) において全てのデータセ
ットでSOTA
HTMLフォーマットのずれを見る指標
Ta, Tb: 木構造 HTML形式のテーブル
EditDist: 木と編集の距離
|T|: Tのノードの数
言及：
大きな表（例えば、ページの半分以上を占める表）は予測精度が低い
この問題は、前処理段階での画像サイズ変更により、区別できない特徴を持つダウンサンプリングされた画像が生成されるためと考えられるが、
大きな入力画像サイズを処理できるCNNモデルを変えることで対処可能（ResNet-18からより大きなモデルへ変更）
EDD: Encoder-Dual-Decoder
GTE: Global Table Encoder

14
結果
• セル検出の精度も評価指標mAPで良好
（Structure Decoderなしと比較すると高くなっ
ていることがDETRに対してStructure Decoder
の有効性が示唆される）
• 画像からデコードするのではなく、PDFのセル
からコンテンツを抽出することに重点を置いて
評価してもSOTA

15
結果
テキスト・⾔語の特徴に依存せず、複雑なテーブルでも構造抽出、検出が可能
テキスト特徴を使⽤しないので⾔語が変わったTableに対して推論する際にも学習し直す必要がなく適⽤可能
2.複雑な形状
1.異なる⾔語

16
所感
• 表構造解析まで適⽤できるTransformerの守備範囲…
• 画像データとHTMLのアノテーションデータが紐づいた状態で⽤意するの
が⼤変だが、SynthTabNetデータセット（公開済み）で⼀度学習済みモ
デルを作ってしまえばあらゆる⾔語データに（⽇本語にも）適⽤できるの
で便利
• PDFに⽂字が埋め込まれてないケースにおいて、論⽂中では⾔及されてい
ないが⽂字認識の精度がボトルネックになるはずなので、⽇本語⽂書に対
し実務上使う場合はカスタムしたOCR（⽂字認識）モデルを別で⽤意して
TableFormerと2つセットで合わせて使⽤することになりそう
https://github.com/ibm/synthtabnet

18
手法の説明（SynthTabNetデータセット）
学習と評価にPubTabNet, FinTabNet, TableBank などの大規模データセットを利用
• PubTabNetデータセット：
• 509kの表が含まれ、アノテーション付きのPNG画像として提供
• アノテーションはHTML形式で表現された表構造、トークン化されたテキスト、表セルごとのバウンディングボックス
で構成される
• FinTabNetデータセット：
• 表構造とテキストコンテンツが混在した1ページのPDFドキュメントとして配信された112k個の表が含まれている
• PubTabNetと同様に、FinTabNetのアノテーションには、HTMLのテーブル構造、トークン化されたテキスト、テーブ
ルセルベースのバウンディングボックスが含まれている
• TableBankデータセット：
• JPEG画像として提供された145k個の表から構成されている。後者は表の構造に関するアノテーションを持つが、
表セルのバウンディングボックスを持つものはほとんどない
• データセット全体は単純な表で構成される

19
手法の説明（SynthTabNetデータセット）
• 各データセット形式が異なるため、実⽤的なモデ
ルを学習させるために利⽤可能なすべてのデータ
を1つの均質なデータセットに結合できる仕組み
→ SynthTabNetデータセット
1) データセットのサイズ、2) 表の構造、3) 表のスタイル、4) コンテンツの種類
など表を構成する様々な要素制御し合成することで⼤規模な表データセットを⽣成可能

第１１回　全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf

More Related Content

What's hot (20)