1
Learning Fine-Grained Bimanual Manipulation with
Low-Cost Hardware
Koki Yamane, University of Tsukuba
書誌情報
2023/7/14 2
題名 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
著者 Tony Z. Zhao (1)
Vikash Kumar (3)
Sergey Levine (2)
Chelsea Finn (1)
所属 (1) Stanford University
(2) UC Berkeley
(3) Meta
会議 RSS 2023
概要  ロボット模倣学習で高精度動作を行うには教示データのばらつきが課題
 Transformerを用いたCVAEによる行動シーケンス生成モデル「ACT」を提案
概要
模倣学習により低コストのロボットで高精度のタスクを実現
2023/7/14 3
ALOHA:A Low-cost Open-source Hardware
System for Bimanual Teleoperation
低コストの双腕遠隔操作ハードウェアを提案
2023/7/14 4
Action Chunking with Transformers (ACT)
Transformerを用いたCVAEで現在の状態から次の数ステップの行動を予測
2023/7/14 5
動作のスタイルを表す潜在変数
(操作者による癖などを表現)
4つのカメラの画像と各関節の角度を入力
次の1ステップではなく
次の数ステップの行動を同時に予測
自律動作時の潜在変数は0
Action Chunking with Transformers (ACT)
 Action Chunking
 次の数ステップをまとめて予測
 一連の動作をまとめて扱う
 非マルコフ性に対応
 1ステップごとの生成では,一時停止と
終了時の停止を見分けるのが難しい
 Temporal Ensembling
 チャンクを毎ステップ出力し加重平
均を取ることで滑らかにつなぐ
 チャンクの境目で急な動作になるの
を防ぐ
2023/7/14 6
Transformerを用いたCVAEで現在の状態から次の数ステップの行動を予測
実験
2023/7/14 7
 8つのタスクで検証
 シミュレーション2,実機6
 教示データ
 各50回
 1エピソード8~14秒
 所要時間30分~60分
 50Hz
実験結果
全てのタスクでベースラインを上回る成功率を達成
2023/7/14 8
Ablations
 シミュレーションタスクで検証
 全ての手法でチャンクで性能向上
 100ステップで最高性能
 長く予測しすぎると性能が落ちる
 適応的な動作がしにくくなる?
2023/7/14 9
予測するチャンクのステップ数を比較
Ablations
 提案手法では3.3%の成功率上昇
 BC-ConvMLPでも成功率上昇
 VINNでは20%の成功率減少
 VINNは画像特徴量をNearest
neighbor法で動作に対応付ける
 ノンパラメトリックな手法ではむし
ろ悪影響
2023/7/14 10
Temporal Ensemblingの効果を検証
Ablations
 シミュレーションタスクで検証
 プログラムで生成したデータから
の学習ではほとんど変化なし
 人間が操作した教示データからの
学習では33.3%の成功率上昇
2023/7/14 11
CVAEの効果を検証
まとめ
2023/7/14 12
 模倣学習では教示データに一貫性がない場合にうまく学習できない
 CVAEの潜在変数で動作の特徴を表現し,ばらつきのある動作から学習
 数ステップまとめて予測することにより非マルコフ性を伴う動作に対応
 実機を含む8つのタスクでベースラインを超える成功率を達成
 感想
 データのばらつきに対して入力に潜在変数を加えて対応している点が興味深い
 Transformerで連続信号の生成をする場合,値の急激な変化は問題にならないのか
 Temporal Ensemblingなしでもある程度成功している

【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"