Scaling Egocentric Vision: The EPIC-KITCHENS Dataset , (エピックキッチン), (EPIC KITCHENs)
2018
Abstract
一人称視点には人とオブジェクトの相互作用、注意、意図が含まれる。
関心を集める一方、データセットが不足しており、一人称視点のドメインの進みが遅い。
大規模一人称視点動画のベンチマーク、EPIC-KITCHENを作成。
32人の協力者に、台本なしで、台所に入った時に記録を開始するように依頼した。
参加者は10種類の国籍を持ち、4つの都市 (North America and Europe) で記録を行なった。そのため多様性に富んだ調理スタイルの記録になった。
データセットは55時間, 11.5Mフレーム。
その中で密にラベルづけを行い、39.6kのアクションセグメント, 454.3kのオブジェクトバウンディングボックスがつけられた。
動画撮影後、参加者に自分のビデオのナレーションをしてもらった。これによって撮影者の真の意図を反映させた (我々のユニーク)。
これらに基づいてクラウドソーシングでアノテーションした。
===
1セグメントだいたい20~30フレームくらい?
=============================================
=============================================
1 Introduction
近年の多くの分野で大きな進歩が見られる。:
・画像分類 (Deep residual learning for image recognition. In: CVPR (2016) )
・物体検出 (30. Faster R-CNN: Towards real-time object detection with region proposal networks. In: NIPS (2015) )
・物体検出 (30. Faster R-CNN: Towards real-time object detection with region proposal networks. In: NIPS (2015) )
・キャプション (Deep Visual-Semantic Alignments for Generating Image Descriptions. In: CVPR (2015) )
・視覚的質疑応答 (VQA: Visual Question Answering. In: ICCV (2015) )
これらの成功の大部分はディープラーニングの進歩 (Imagenet classification with deep convolutional neural networks. In: NIPS (2012) )
と大規模な画像ベンチマークの可能性によるものである。:
・The PASCAL Visual Object Classes (VOC) Challenge. In: IJCV (2010)
・Imagenet: A large-scale hierarchical image database. In: CVPR (2009)
・Microsoft COCO: Common objects in context. In: ECCV (2014)
・Scene parsing through ade20k dataset. In: CVPR (2017)
・Imagenet: A large-scale hierarchical image database. In: CVPR (2009)
・Microsoft COCO: Common objects in context. In: ECCV (2014)
・Scene parsing through ade20k dataset. In: CVPR (2017)
しかし動画理解はアノテーション済みデータセットが乏しく、workが少ない。
最近では変わってきていて、動作分類のベンチマークがリリースされている。:
・The ”something something” video database for learning and evaluating visual common sense. In: ICCV (2017)
・YouTube-8M: A Large-Scale Video Classification Benchmark. In: CoRR (2016)
・SLAC: A Sparsely Labeled Dataset for Action Classification and Localization. arXiv:1712.09374 (2017)
・A Dataset for Movie Description. In: CVPR (2015)
・MovieQA: Understanding stories in movies through question-answering. In: CVPR (2016)
・A Dataset for Movie Description. In: CVPR (2015)
・MovieQA: Understanding stories in movies through question-answering. In: CVPR (2016)
・From lifestyle vlogs to everyday interactions. arXiv:1712.02310 (2017)
MovieQA以外のデータセットはほぼ、非常に短く数秒しかない単一のアクションのビデオを含んでいる。
Charades (ジェスチャー?) :
・Hol- lywood in homes: Crowdsourcing data collection for activity understanding. In: ECCV (2016)
は動作認識に向けての一歩として、自宅で様々なタスクを行う人間のビデオを1万収拾した。
は動作認識に向けての一歩として、自宅で様々なタスクを行う人間のビデオを1万収拾した。
これは台本が用意されており、カメラの前で決められた行為を実行するようにAMT (Amazon Mechanical Turk) ワーカに依頼している。
これによって不自然な動画になり、実生活で発生する動作進行やマルチタスクなどが存在しない。
我々は、独特な視点と人々の日常の活動を提供する一人称視点に焦点を当てる。
このデータは、我々の目標やモチベーション、マルチタスク能力、ありふれた(皿洗いのような)日々のタスクの、重要で様々な実行手段などを豊富に反映している。
一人称データは、人間toロボットの模倣学習:
・Combining self-supervised learning and imitation for vision-based rope manipulation. In: ICRA (2017)
・Deep imitation learning for complex manipulation tasks from virtual reality teleoperation. In: ICRA (2018)
に効果があることが近年証明されており、HCI (Human–computer interaction) アプリケーションに直接影響を与える。
・Deep imitation learning for complex manipulation tasks from virtual reality teleoperation. In: ICRA (2018)
に効果があることが近年証明されており、HCI (Human–computer interaction) アプリケーションに直接影響を与える。
しかし、一人称視点アルゴリズムを評価するデータセット:
・[16] Extended GTEA Gaze+. http://webshare.ipat.gatech.edu/coc-rim- wall-lab/web/yli440/egtea gp (2018)
・[41] Charades-ego: A large-scale dataset of paired third and first person videos. In: ArXiv (2018)
・[6] You- do, I-learn: Discovering task relevant objects and their modes of interaction from multi-user egocentric video. In: BMVC (2014)
・[13] Learning to recognize daily actions using gaze. In: ECCV (2012)
・[36] Detecting activities of daily living in first-person camera views. In: CVPR (2012)
・[8] Guide to the Carnegie Mellon University Multimodal Activity (CMU- MMAC) database. In: Robotics Institute (2008)
は三人称視点のものよりもかなり小さく、単一環境でキャプチャされている[16,6,13,8]。
は三人称視点のものよりもかなり小さく、単一環境でキャプチャされている[16,6,13,8]。
ウェアラブルカメラからの日々のやりとりもオンラインでは可用性に乏しく、情報源としてはほぼ利用できない。
本紙で紹介する大規模一人称視点データセット EPIC-KITCHENS は、
ネイティブキッチンで、10国籍32人の参加者によって収集された 。
(Fig 1: データセット32人の視点、ナレーション、バウンディングボックスのサンプル)。
参加者は毎日の台所での活動を、時間長に関係なく (連続で) 記録した。
このビデオと音声の両方を含む記録は、調理器具や家電とその利用者の相互作用の典型的な特徴だけでなく、重要なことに、調理中に皿を洗うなどの自然なマルチタスクを表す。
このような並行した複数目的のある (Parallel-goal) 相互作用 (interactions) は既存のデータセットでは記録されていない。
我々のデータセットはより現実に則していて、チャレンジングなセットである。
全体として、EPIC-KITCHENSには55時間の記録があり、各動作/相互作用には開始/終了時間が、操作対象の物体にはバウンディングボックスが密にアノテーションされている。
物体、動作、期待される課題と、それから2つのシナリオ (seen and unseen kitchens) におけるベースラインを説明する。
コミュニティの進捗状況を追跡するため、データセットとリーダーボードは、テスト用の正解データを https://epic-kitchens.github.io/2019 で提供する。
=============================================
=============================================
2 Related Datasets
一般的に使用される 4つのデータセット:
・[6]
・[13]
・[36]
・[8]
最近の 2つの一人称データセット:
・[16] EGTEA Gaze+
・[41] Charades-ego: A large-scale dataset of paired third and first person videos. ArXiv (2018)
および 6つの第三者視点行動認識データセット:
・[14] Fouhey, D.F., Kuo, W.c., Efros, A.A., Malik, J.: From lifestyle vlogs to everyday interactions. arXiv:1712.02310 (2017)
・[42] Hol- lywood in homes: Crowdsourcing data collection for activity understanding. In: ECCV (2016)
・[56] Towards automatic learning of procedures from web instructional videos. arXiv:1703.09788 (2017)
・[28] The Language of Actions: Recovering the Syntax and Semantics of Goal-Directed Human Activities. In: CVPR (2014)
・[44] Combining Embedded Accelerometers with Computer Vision for Recognizing Food Preparation Activities. In: UbiComp (2013)
・[39] A Database for Fine Grained Activity Detection of Cooking Activities. In: CVPR (2012)
これらのデータセットと EPIC-KITCHEN を比較する.
対人相互作用に焦点を当てた[2, 12, 40] などは異なる研究問題のため除外する.
いくつかは自然な環境での活動を記録することを目的としており、そのほとんど:
・[18] The ”something something” video database for learning
and evaluating visual common sense. In: ICCV (2017)
and evaluating visual common sense. In: ICCV (2017)
・[14, 42, 41, 28]
は、第三者視点で記録している。
[28] は朝食レシピに基づいての調理に焦点を当てている。
[14] はYoutubeから収集したデータセットで、30 種のオブジェクトとの相互作用が短いセグメントにリンクされている。
[42, 41] は台本あり。ストーリに沿って実施されている。
[18] も台本あり。動作が指定される。
これら台本ありデータは、しばしば自然な動作に見えないことがある。
また全ての一人称視点データセットもまた、活動が台本ありで何をするか指示されている。
指示に従うと、参加者は手順を順番通りに実行する。
マルチタスクだったり、対象を探したり、次に何をするか考えたり、考えを変えたり、予期しない出来事に驚いたりといった実生活に則した自然さとは対象的である。
EPIC-KITCHENS は ADL [36]( Detecting activities of daily living in first-person camera views. In: CVPR (2012))とよく似ていて、ADLデータセットは一人称データセットを自然な環境でも記録している。
ただし、ADLが 1M フレームなのに対して、我々のデータセットはかなり大きく、11.5M フレームあり、アノテーションされたアクションセグメントが90倍、物体BBが4倍の、これまでで最大の一人称視点データセットである。
=============================================
=============================================
3 The EPIC-KITCHENS Dataset
データ収集とアノテーションの仕方(パイプライン)を説明する。
データ収集とアノテーションの仕方(パイプライン)を説明する。
また、収集されたデータの統計情報と様々な側面も示す。
3.1 Data Collection
2017年5月から11月の32人, 4つの都市(北米, ヨーロッパ)で収集された。
Bristol/Uk 15人, Tronto/Canada 8人, Catania/Italy 8人, Seattle/USA 1人。
参加者は、すべてのキッチンでの用事を3日間連続して記録するように要求された。
記録は、台所に入ってすぐ開始し、台所を離れる際に停止する。
参加はボランティアであり、経済的報酬はない。
我々はOne-person activities のみ記録するため、台所で記録する際は一人であるようにも要求し、肖像画や鏡のような個人を特定できる物を取り除くようにも依頼した。
参加者の環境や身長に合わせて、ヘッドマウントGoProを調整してデータを記録した。
各録画の前に、GoPro Capture アプリを使用してバッテリー残量と視点を確認して、伸ばした手が画面中央に位置するようにした。
線形視野設定 (魚眼とかじゃないって意味?) で、59.94fps, 解像度は 1920x1080 の Full HDで設定した。だが、一部、ワイドやウルトラワイドFOVなどの解像度に変更された。
ビデオの1%が1280x720で, 0.5%が1920x1440で記録された.
また、1%が30fps, 1%が48fps, 0.2%が90fpsだった。
記録長は参加者の台所での作業具合によって異なった。
平均して1.7時間, 最大4.6時間, 食事あたりの調理は, 台所にとどまるか、一度離れるかによって複数シーケンスにまたがる。
平均して、各参加者は13.6シーケンスを記録した。
Fig.4 は現地時間でのハイレベルゴール(?) と シーケンス継続時間グラフ.
このような長い動画をクラウドソーシングでアノテーションするのは難しいため、撮影者に大まかなアノテーションを最初に行ってもらった。
記録終了後、自分の撮影したビデオを見ながらナレーションを記録する。
キャプションを書くのではなく、音声レコーディングを選択した。早く、かつアノテーションしやすくするためだ。
これはビデオの実況解説に似ている。Fig.3 にナレーションの一般的な説明を示す。
参加者は流暢な英語か母国語でナレーションをつけた。
合計で5言語が使われた。17動画が英語, 6動画がイタリア語, 1動画ずつがスペイン語, ギリシャ語, 中国語. (その他はナレーションなし?)
Fig.4 に各言語で最も頻繁に使用された単語を示す。
参加者からナレーションを収集することにした理由は、独立したオブザーバと比較して、Activityラベルをつけるには撮影者が最もふさわしいからだ。
参加者がラベリングを気にして活動の妨げにならないように、撮影後のナレーションを選択した。
いくつか自動の Audio to Text を試したが、関連するコーパスと完璧なセンテンスのコンテキストを要求するため、正確な訳を生成できなかった。
こうして、Amazon Mechanical Turk (AMT) を介して手動の文字起こしを収集し、Youtube の Automatic closed caption 調整ツールを利用して正確なタイミングを生成した。
英語以外のナレーションについては、AMT ワーカに翻訳を依頼した。
作業をAMTに適したものにするため、基準デシベル以下の無音を削除することでナレーション音声ファイルを分割した。(圧縮, 正規化後)
音声の塊は約30秒の長さで HIT に結合される。
一貫性を確保するために, 同じHITを3回送信し、他の1つのHITに対して編集距離が0であるHITを選択する。
合意が得られなかった場合は、手動で修正した。
書き起こされた時間指定つきナレーションを Tab.2 に示す。
参加者は全体の目標、または行った活動を説明する文章をシーケンスごとに提供するようにも求められた.
合計で、ビデオの4.9秒ごとのナレーションに対応する39、596アクションのナレーションを収集した。 フレーズごとの平均単語数は2.8単語。
これらのナレーションは、 (動画に合わせた音声ナレーションのタイムスタンプから取得された) 大まかな時間的整合を伴うすべてのアクションの初期ラベルを提供する。
ただし、ナレーションは完全な根拠のないソースでもある。
- 不完全ナレーション。「開く」はアノテーションしているが、開いた後の行動に注意がいっていて「閉める」のアノテーションが少なくなっている。
ナレーションされた行動のみの評価でこの現象を考慮する。(?)
- 一部、行動後にナレーションがあるなど遅れがある。これは action segments の正解値を用いて調整する (Sec 3.2).
- 参加者は独自の語彙で自由に話す。これは困難な問題で、コミュニティが事前に選択したラベルを超えられるようにすることが重要 ([55] Scene parsing through ade20k dataset. In: CVPR (2017) でも述べられている) 。ここでは、動詞と名詞を最小限の重複クラスにすることで解決した (sec3.4)
3.2 Action Segment Annotations
3.3 Active Object Bounding Box Annotations
3.4 Verb and Noun Classes
3.5 Annotation Quality Assurance
4 Benchmarks and Baseline Results
エピックキッチンを使ったコンペにはどんなタスクがあるのでしょうか。
返信削除EPIC-Kitchens Action Recognition Challenge
返信削除動詞と名詞からの行動分類
https://competitions.codalab.org/competitions/20115
EPIC-Kitchens Action Anticipation Challenge
指定された時間の1秒前までで予測を行う (1秒後の予測)
何秒のinputで1秒後の指定時間からの行動を予測できるかを競う
https://competitions.codalab.org/competitions/20071
EPIC-Kitchens Object Detection
物体検出。動画内の物体の領域をバウンディングボックスで推定し、物体を分類する。
https://competitions.codalab.org/competitions/20111