EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition , (TBN)

EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition , (TBN)

https://arxiv.org/abs/1908.08498

ICCV 2019

一人称動作分類のためのオーディオヴィジュアル一時バインディング (?)

Abstract

マルチモーダル一人称動画分類

マルチモーダルテンポラルバインディングって新しいアーキテクチャの提案。

RGB, Flow, Audio で学習。

これまでと対照的に、モダリティがtemporal aggregation (時間的集約?) の前に融合される(?)

一人称視点にはAudioが大事。

1. Intro

2. Related

3 . The Temporal Binding Network (提案手法)

3.1. Multimodal Temporal Binding

ビデオにおける1つのモダリティを

mi = (m1, m2, … mT / ri)

とする。( Tは時間で ri はフレームレート)

マルチモーダルのアーキテクチャでは、サイズやレート対応のため、入力はだいたいGでプーリングされる。

yを出力ラベル、Gはtemporal aggregation 関数, hをマルチモーダル融合関数, モーダルをm1, m2の2つで考えると、

y = h(G(f(m1)), G(f(m2))) (1)

(Temporal aggregation はプーリングの代わりってこと?)

TSN[42]とかは(1)のアーキテクチャで、モダリティが融合される前にtemporally aggregated (時間的集約?)がある。（本研究の手法とは順番が逆）

これは、‘late fusion’ (後期融合)と呼ばれる。

代わりに(?), タイムステップで実行できる。つまり、モダリティを同期して、タイムステップごとに予測ができる。

同期できたモダリティのフレームレートが同じだとして、そのサンプルと m1j, m2j とすると、

y = h􏰀G(fsync(m1j, m2j))􏰁 (2)

fsyncは各タイムステップの特徴抽出関数で、Gはすべてのタイムステップでtemporal aggregationを行う。

フレームレートや、特に特徴サイズが違うと、だいたいの同期はできる。

(M1j と同期する m2k のkを定める式 (3))

これは、‘synchronous fusion’ (同期融合) と呼ばれる。

本研究では、temporal window 内でのモダリティの融合を提案する.

Temporal offset の範囲でモダリティが融合され、すべての offset は temporal window 内に収まるように制限される。

以降これを、temporal binding window (TBW) と呼称する。

y = h􏰀G(ftbw(m1j,m2k))􏰁 : k ∈ 􏰂[ ⌈jr2 −b⌉,⌈jr2 +b⌉ ] (4)

Ftbw は幅±b のBW内で入力を結合する特徴抽出関数。

面白いことに、モダリティの数を1つ増やして3にすると、同じBW±bの範囲内で、異なる temporal offset のモダリティが融合できる (は?)。

((4)に新たに m3lを追加し、lの制約を追加した式　 (5))

これによって、モダリティの融合の幅が広がった。

1. フレームレートの異なる複数モダリティのスケーリングの簡易に

2. 時間変化を伴う学習を可能に

3. データオーギュメンテーションを自然なカンジに

3.2 提案手法 TBN (Temporal Binding Network) についての詳細

(図 2 左参照, 発想はわかるけどほんとにやるか？)

アクション動画を K 個のセグメントに分割。

各セグメント内でランダムにサンプルを選択、サンプルとして選択されたm1kは BW±b の中央としてあつかう。

他のボダリティもランダムに選択、モダリティが M 個あれはサンプルは M×K個。

Hymn to Tourach

このブログを検索

EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition , (TBN)

コメント

コメントを投稿