EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition , (TBN)

EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition , (TBN) 
ICCV 2019
一人称動作分類のためのオーディオヴィジュアル一時バインディング (?)

Abstract
マルチモーダル一人称動画分類
マルチモーダルテンポラルバインディングって新しいアーキテクチャの提案。
RGB, Flow, Audio で学習。
これまでと対照的に、 モダリティがtemporal aggregation (時間的集約?) の前に融合される(?)
一人称視点にはAudioが大事。

1. Intro
2. Related
3 . The Temporal Binding Network (提案手法)
3.1. Multimodal Temporal Binding 
ビデオにおける1つのモダリティを
mi = (m1, m2, … mT / ri)
とする。( Tは時間で ri はフレームレート)
マルチモーダルのアーキテクチャでは、サイズやレート対応のため、入力はだいたいGでプーリングされる。
yを出力ラベル、Gtemporal aggregation 関数, hをマルチモーダル融合関数, モーダルをm1, m22つで考えると、
y = h(G(f(m1)), G(f(m2))) (1)

(Temporal aggregation はプーリングの代わりってこと?)

TSN[42]とかは(1)のアーキテクチャで、モダリティが融合される前にtemporally aggregated (時間的集約?)がある。(本研究の手法とは順番が逆)
これは、‘late fusion’ (後期融合)と呼ばれる。
代わりに(?), タイムステップで実行できる。つまり、モダリティを同期して、タイムステップごとに予測ができる。
同期できたモダリティのフレームレートが同じだとして、そのサンプルと m1j, m2j とすると、
y = h􏰀G(fsync(m1j, m2j))􏰁 (2)

fsyncは各タイムステップの特徴抽出関数で、Gはすべてのタイムステップでtemporal aggregationを行う。

フレームレートや、特に特徴サイズが違うと、だいたいの同期はできる。
(M1j と同期する m2k kを定める式 (3))

これは、‘synchronous fusion’ (同期融合) と呼ばれる。

本研究では、temporal window 内でのモダリティの融合を提案する.
Temporal offset の範囲でモダリティが融合され、すべての offset temporal window 内に収まるように制限される。
以降これを、temporal binding window (TBW) と呼称する。

y = h􏰀G(ftbw(m1j,m2k))􏰁 : k 􏰂[ jr2 −b,jr2 +b ] (4)

Ftbw ±b BW内で入力を結合する特徴抽出関数。
面白いことに、モダリティの数を1つ増やして3にすると、同じBW±bの範囲内で、異なる temporal offset のモダリティが融合できる (?)
((4)に新たに m3lを追加し、lの制約を追加した式  (5))

これによって、モダリティの融合の幅が広がった。
1. フレームレートの異なる複数モダリティのスケーリングの簡易に
2. 時間変化を伴う学習を可能に
3. データオーギュメンテーションを自然なカンジに

3.2 提案手法 TBN (Temporal Binding Network) についての詳細

( 2 左参照発想はわかるけどほんとにやるか?)
アクション動画を K 個のセグメントに分割。
各セグメント内でランダムにサンプルを選択、サンプルとして選択されたm1k BW±b の中央としてあつかう。

他のボダリティもランダムに選択、モダリティが M 個あれはサンプルは M×K個。

コメント