やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【1日目】Multimodal Pretraining Unmasked:Unifying the Vision and Language BERTs

この記事はNLP/CV論文紹介 Advent Calendar 2020の1日目の記事です。 このカレンダーでは私が気になっている論文をフォーマットに合わせてまとめていきます。

0. 論文

[2011.15124] Multimodal Pretraining Unmasked: Unifying the Vision and Language BERTs Emanuele Bugliarello, Ryan Cotterell, Naoaki Okazaki, Desmond Elliott

1. どんなもの?

ViLBERTやUNITERといった既存のMultiModal BERTに対して、事前学習のデータやハイパーパラメータを固定した上での比較実験を実施。 またMultiModal BERTのSingle Stream(画像とテキストを一つのEncoderに入力する)とDual Stream(画像とテキストを別のEncoderに入力してあとで統合する)を包括するVOLTAフレームワークを提案した。

2. 先行研究と比べてどこがすごい?

様々に提案されていたVilBERTやUNITERといったMultiModal BERTに対して、実験設定を極力揃えた上で比較の実験を行い、何が性能の差に寄与しているかを分析したところ。 特にアーキテクチャの差に着目して比較実験を行なっているところ。

3. 技術や手法のキモはどこ?

Single StreamとDual StreamにおけるMulti-Head Attention BlockとFeed Forward Blockの処理を抽象化し、それらをパラメータの値によって再現できるような抽象的な「Gated Bimodal Transformer Layers」というレイヤーを導入、これをVOLTA(Visiolinguistic Transformer architectures)フレームワーク命名した。

f:id:ymym3412:20201202043426p:plain

また既存のMultiMoal BERTモデルに対して、事前学習データをそろえ、目的関数やハイパーパラメータなども共通化したうえでdownstreamタスクでの性能を比較した。

4. どうやって有効だと検証した?

比較実験を行なったところ、重みの初期値に応じて性能に顕著な差が生じてしまう。 実験の設定を揃えた場合、Single StreamとDual Streamで近い性能を出す。 ただしモデルに入力するEmbeddingは重要な役割を果たしており、例えばVISUAL BERT の場合画像領域のロケーションを入力として与えておらずそれが致命的な性能劣化を生んでいる。

5. 議論はある?

ViLBERTとLXMERTは近い構造をしていると思ったが、事前学習の性能の分散を見てもLXMERTは不安定なように見える

以上。