Upload
Download free for 30 days
Login
Submit search
第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf
0 likes
968 views
R
RyoKawanami
第11回 全日本コンピュータビジョン勉強会(前編)におけるTableFormerについての発表資料です。
Engineering
Read more
1 of 20
Download now
Download to read offline
1
2
3
4
Most read
5
Most read
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Most read
More Related Content
PDF
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
PDF
Data-Centric AIの紹介
Kazuyuki Miyazawa
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
PPTX
Group normalization
Ryutaro Yamauchi
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
実装レベルで学ぶVQVAE
ぱんいち すみもと
Data-Centric AIの紹介
Kazuyuki Miyazawa
画像生成・生成モデル メタサーベイ
cvpaper. challenge
Group normalization
Ryutaro Yamauchi
深層生成モデルと世界モデル
Masahiro Suzuki
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
What's hot
(20)
PPTX
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
PDF
ELBO型VAEのダメなところ
KCS Keio Computer Society
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
PPTX
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
PDF
グラフニューラルネットワーク入門
ryosuke-kojima
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
PDF
Priorに基づく画像/テンソルの復元
Tatsuya Yokota
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PDF
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
PDF
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
PDF
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
PDF
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
ELBO型VAEのダメなところ
KCS Keio Computer Society
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
グラフニューラルネットワーク入門
ryosuke-kojima
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Priorに基づく画像/テンソルの復元
Tatsuya Yokota
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
ドメイン適応の原理と応用
Yoshitaka Ushiku
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
PRML学習者から入る深層生成モデル入門
tmtm otm
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Ad
第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf
1.
0 CVPR2022読み会(前編) 8/7 14:00-14:25 TableFormer:
Table Structure Understanding with Transformers @cv_carnavi
2.
1 アジェンダ • 自己紹介 • ざっくり言うとどんな論文? •
背景・目的 • 手法の説明 • 結果 • 所感
3.
2 自己紹介 川波 稜 n 所属 n
R&D部⾨ 勤務(⾃動⾞関係ではない) n 業務 n AI-OCR(⽂字検出・⽂字認識) @cv_carnavi かわなみ りょう
4.
3 ざっくり言うとどんな論文? [1] Ahmed Nassar
(IBM Research) et al., “TableFormer: Table Structure Understanding with Transformers.,” CVPR, 2022. [1] n どんな論⽂か︖ • テーブル検出(table-location)と テーブル構造分解(table-structure decomposition)をEnd-2-Endで同 時に予測するTransformerベースのネ ットワークを提案 TableFormer は、表の画像が与えられると以下を予測するこ とができる • 1)表の構造を表すトークン列 • 2)それらのトークンのサブセットに結合されたバウン ディングボックス
5.
4 背景・目的 • 表は重複するセル内容を減らすために、複雑な列 や⾏のヘッダを持つことが多い(セル結合etc.) →シンプルにデータベースとして抽出しようとする とどのようにデータ化して良いのか混乱する • 空の表エントリや⽋落した表エントリ、複数⾏のテキスト表エ ントリを持つこともできる →画像中の表でこれがあると⽂字を検出してもセルと紐づかないた め表構造に落とし込めない CVPR2022読み会 参加者 前編
後編 A B C D 表の特性とデータを抽出する際の課題
6.
5 おまけ 方眼紙のように使われているエクセルの例 ”紙”が”神”に転じてネ申エクセルと呼ばれている 市役所で蔓延っておりDXのハードルになっている https://atmarkit.itmedia.co.jp/ait/articles/1612/26/news032.html 画像化して 表構造解析+OCRしたらネ申エクセルにも対応可能になるかも? ネ申エクセル
7.
6 背景・目的 1. テーブルロケーション(table-location) 2. テーブル構造分解(table-structure
decomposition) 表を扱う上での2つのタスク → ⼗分データがあれば物体検出(YOLO, Mask-RCNN)で対処可能 → ⼀般的なアプローチがなく⽂書理解のコミュニティで⻑く続いている問題 近年いくつか新しいモデルが提案されている • Image-to-Text networks: PubTabNet, FinTabNet →LaTeX/HTMLタグなどで出⼒することで複雑な表にも対応できる • GCNʼs →複雑な表にも対応できるがほかアプローチと⽐べて再構成された表の品質が悪い • Hybrid Deep Learning-Rule-Based approach →E2Eな⼿法でない&異なるタイプへの汎⽤性がなく複雑な表に対応できない →他にも共通して以下の弱点がある • テキスト特徴に依存している • 元画像の各テーブルセルのBBoxを出⼒できない
8.
7 補足・HTML記法 ⾃由な表構造の記述が可能 https://udemy.benesse.co.jp/design/web-design/html-table.html 列のセル結合 行のセル結合
9.
8 手法の説明 弱点を克服し以下の特徴を持つ⼿法を提案 • ⾔語に依存しない • 元のPDFから可能な限り情報を取得する(OCRより精度が⾼いため) •
画像内の表セルとそのバウンディングボックスの間に直接的なリンク関係を持たせたい(ネットワーク 外で得たテキストを紐づけるため) 上記を満たすために論⽂では以下の2つを提案 • TableFormer︓テーブル構造とBBoxを同時にE2Eに予測するTransformerベースのモデル • SynthTabNet︓合成された表構造を持つデータセット (本日説明) (参考スライド) ü 従来⼿法よりSOTA(Transformer効果) ü 学習も推論も効率的(Transformer効果) 強み
10.
9 手法の説明 “image-encoder → text-decoder”
(IETD) “image-encoder → dual decoder” (IEDD) ・エンコーダ︓画像をエンコーディング ・デコーダ︓空の表を構成するLaTeX/HTML⽂字列を⽣成 ・エンコーダ︓画像をエンコーディング ・デコーダ︓ ・tag-decoder︓空の表を構成するLaTeX/HTML⽂字列を⽣成 ・contents-decoder︓画像のエンコーディングとtag-decoderの各セルタグをエンコー ディングした出⼒を組み合わせて各テーブルセルのテキストコンテンツを⽣成 Image-to-Text networksなアプローチの従来⼿法 Image Captioningのアーキテクチャのようなもの これらのアプローチにおける課題 従来アプローチでは 暗黙的にカスタムされたOCRモデルを必要とする ・IETD: デコーダにOCRが含まれる ・IEDD: contents-decoderにOCRが含まれる E2EネットワークにOCRが入るデメリット: →元のPDFに文字が埋め込まれていればそちらを使えるようにしたい or OCRは別で処理したい ・ほぼ英語の表のデータセットなので英語以外では カスタムトレーニングが必要となる ・OCRはそもそもタスクとして学習困難
11.
10 手法の説明 TableFormer は、表の画像が与えられると、 • 1)表の構造を表すトークン列 •
2)トークンのサブセットに紐づいたBBox の2つを同時に予測することが可能 タグを表すトークン列とBBoxが①②③のように明⽰的に紐づいているため、 • テキストの埋め込まれたPDFから抽出したテキスト • ネットワーク外でOCRエンジン・⽂字認識モデルを⽤いて認識したテキスト を紐付けることが可能 ポイント
12.
11 手法の説明 モデルアーキテクチャは以下の3つから構成される • ① CNN
Backbone Network • ② Structure Decoder(Transformerベース [2]) • ③ Cell BBox Decoder(DETRインスパイア) • 各テーブルセルのHTMLタグとバウンディングボックスを端から端まで個別のオブジ ェクト検出器を必要とせずに同時に予測 手順 • 入力画像をあらかじめ定義された長さの特徴ベクトルとして符号化(ResNet18) • 符号化された画像の入力特徴ベクトルが構造デコーダ(Structure Decoder)に渡さ れ、表の構造を表すHTMLタグの列が生成される • Structure Decoder がHTML標準データセル('< td> ')を予測するたびに、そのセル の隠された状態(the hidden states)がCell BBox Decoderに渡される • 行や列のスパンのようなスパンセルについては、タグはスパンセルの数(属性)と'< ', 'rowspan=' または 'colspan=', '>' に分解される • < ' に付けられた隠された状態(the hidden states)は、Cell BBox Decoder に渡さ れる • MLPから構成される共有フィードフォワードネットワーク(FFN)は構造デコーダ (Structure Decoder)から隠された状態(the hidden states)を受け取り、バウンディ ングボックス座標とその分類の最終的な検出予測を提供する ① ② ③ [2] Ashish Vaswani (Google) et al., “Attention Is All You Need,” NIPS, 2017. ②はほとんどTransformer (上下逆転してるだけ)
13.
12 手法の説明 • マルチタスクLoss • 𝑙!:
Cross-Entropy loss • →トークンを予測するStructure Decoderの学習に使用 • 𝑙"#$: • →セルのBBoxを検出するCell Bbox Decoderの学習に使用 • →物体検出で一般使用される𝑙!とスケール不変な𝑙"#$から構成される
14.
13 結果 • 評価指標The Tree-Edit-Distance-Based Similarity
(TEDS) において全てのデータセ ットでSOTA HTMLフォーマットのずれを見る指標 Ta, Tb: 木構造 HTML形式のテーブル EditDist: 木と編集の距離 |T|: Tのノードの数 言及: 大きな表(例えば、ページの半分以上を占める表)は予測精度が低い この問題は、前処理段階での画像サイズ変更により、区別できない特徴を持つダウンサンプリングされた画像が生成されるためと考えられるが、 大きな入力画像サイズを処理できるCNNモデルを変えることで対処可能(ResNet-18からより大きなモデルへ変更) EDD: Encoder-Dual-Decoder GTE: Global Table Encoder
15.
14 結果 • セル検出の精度も評価指標mAPで良好 (Structure Decoderなしと比較すると高くなっ ていることがDETRに対してStructure
Decoder の有効性が示唆される) • 画像からデコードするのではなく、PDFのセル からコンテンツを抽出することに重点を置いて 評価してもSOTA
16.
15 結果 テキスト・⾔語の特徴に依存せず、複雑なテーブルでも構造抽出、検出が可能 テキスト特徴を使⽤しないので⾔語が変わったTableに対して推論する際にも学習し直す必要がなく適⽤可能 2.複雑な形状 1.異なる⾔語
17.
16 所感 • 表構造解析まで適⽤できるTransformerの守備範囲… • 画像データとHTMLのアノテーションデータが紐づいた状態で⽤意するの が⼤変だが、SynthTabNetデータセット(公開済み)で⼀度学習済みモ デルを作ってしまえばあらゆる⾔語データに(⽇本語にも)適⽤できるの で便利 •
PDFに⽂字が埋め込まれてないケースにおいて、 論⽂中では⾔及されてい ないが⽂字認識の精度がボトルネックになるはずなので、⽇本語⽂書に対 し実務上使う場合はカスタムしたOCR(⽂字認識)モデルを別で⽤意して TableFormerと2つセットで合わせて使⽤することになりそう https://github.com/ibm/synthtabnet
18.
参考
19.
18 手法の説明(SynthTabNetデータセット) 学習と評価にPubTabNet, FinTabNet, TableBank
などの大規模データセットを利用 • PubTabNetデータセット: • 509kの表が含まれ、アノテーション付きのPNG画像として提供 • アノテーションはHTML形式で表現された表構造、トークン化されたテキスト、表セルごとのバウンディングボックス で構成される • FinTabNetデータセット: • 表構造とテキストコンテンツが混在した1ページのPDFドキュメントとして配信された112k個の表が含まれている • PubTabNetと同様に、FinTabNetのアノテーションには、HTMLのテーブル構造、トークン化されたテキスト、テーブ ルセルベースのバウンディングボックスが含まれている • TableBankデータセット: • JPEG画像として提供された145k個の表から構成されている。後者は表の構造に関するアノテーションを持つが、 表セルのバウンディングボックスを持つものはほとんどない • データセット全体は単純な表で構成される
20.
19 手法の説明(SynthTabNetデータセット) • 各データセット形式が異なるため、実⽤的なモデ ルを学習させるために利⽤可能なすべてのデータ を1つの均質なデータセットに結合できる仕組み → SynthTabNetデータセット 1)
データセットのサイズ、2) 表の構造、3) 表のスタイル、4) コンテンツの種類 など表を構成する様々な要素制御し合成することで⼤規模な表データセットを⽣成可能
Download