【12日目】Does my multimodal model learn cross-modal interactions? It’s harder to tell than you might think!

この記事はNLP/CV論文紹介 Advent Calendar 2020の12日目の記事です。
今日はMulti Modal Classificationタスクでモデルの比較を平等に行うために、モーダル間のinteractionを排除しモーダルの出力の加法のみで統一的に予測を行うやり方を使ったモデル比較を提案しました。

0. 論文

[2010.06572] Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!
Jack Hessel, Lillian Lee

1. どんなもの？

Multi Modal Classificationタスクにおいて、Multi Modalモデルのモーダル間のinteractionを排除しモーダルの出力の加法のみで統一的に予測を行う手法「empirical multimodally-additive function projection (EMAP)」を提案し、Multi Modalモデルの比較を行なった

f:id:ymym3412:20201213045132p:plain

2. 先行研究と比べてどこがすごい？

モダリティ間のinteractionを排除する手法を提案し、それをNNモデルが隆盛しているMulti Modal Classificationにおいて検証したこと

3. 技術や手法のキモはどこ？

Multi Modal Classificationにおいて、モーダルの扱い方はmultimodally additive(f(t, v) = fT (t) + fV (v))とmultimodally interactive(各モーダルの特徴量を混ぜる)に大別されるが、これらのモデルのを単純に比較してよいか疑問を投げかけている。

これに対して、multimodally interactiveのモデルの予測値をadditiveなものに射影する手法EMAPを提案した。この写像はモデルとデータがあれば生成することができる。

f:id:ymym3412:20201213044219p:plain

またこれはinteractiveモデルからモーダル間のやりとりを取り除くこともでき、これにより特定のモデルがモーダル間のやりとりを除外することでどの程度性能が劣化するのか(=ちゃんとモーダル間のやりとりをできているのか)を定量的に知ることができる。

4. どうやって有効だと検証した？

7つのMulti Modal Classificationタスクでinteractiveモデルとadditiveモデルとで比較し、interactiveでもっとも性能がよかったものにEMAPを適用して、additiveモデルとの性能比較とモーダル間のinteractiveの効果を測定した。
その結果、interactiveモデルをEMAPで射影しても性能の劣化はほとんどみられず、現状のモデルではモーダル間のinteractionをうまく行えていないことが示唆された。

f:id:ymym3412:20201213045111p:plain