やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【12日目】Does my multimodal model learn cross-modal interactions? It’s harder to tell than you might think!

この記事はNLP/CV論文紹介 Advent Calendar 2020の12日目の記事です。
今日はMulti Modal Classificationタスクでモデルの比較を平等に行うために、モーダル間のinteractionを排除しモーダルの出力の加法のみで統一的に予測を行うやり方を使ったモデル比較を提案しました。

0. 論文

[2010.06572] Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!
Jack Hessel, Lillian Lee

1. どんなもの?

Multi Modal Classificationタスクにおいて、Multi Modalモデルのモーダル間のinteractionを排除しモーダルの出力の加法のみで統一的に予測を行う手法「empirical multimodally-additive function projection (EMAP)」を提案し、Multi Modalモデルの比較を行なった

f:id:ymym3412:20201213045132p:plain

2. 先行研究と比べてどこがすごい?

モダリティ間のinteractionを排除する手法を提案し、それをNNモデルが隆盛しているMulti Modal Classificationにおいて検証したこと

3. 技術や手法のキモはどこ?

Multi Modal Classificationにおいて、モーダルの扱い方はmultimodally additive(f(t, v) = fT (t) + fV (v))とmultimodally interactive(各モーダルの特徴量を混ぜる)に大別されるが、これらのモデルのを単純に比較してよいか疑問を投げかけている。

これに対して、multimodally interactiveのモデルの予測値をadditiveなものに射影する手法EMAPを提案した。この写像はモデルとデータがあれば生成することができる。

f:id:ymym3412:20201213044219p:plain

またこれはinteractiveモデルからモーダル間のやりとりを取り除くこともでき、これにより特定のモデルがモーダル間のやりとりを除外することでどの程度性能が劣化するのか(=ちゃんとモーダル間のやりとりをできているのか)を定量的に知ることができる。

4. どうやって有効だと検証した?

7つのMulti Modal Classificationタスクでinteractiveモデルとadditiveモデルとで比較し、interactiveでもっとも性能がよかったものにEMAPを適用して、additiveモデルとの性能比較とモーダル間のinteractiveの効果を測定した。
その結果、interactiveモデルをEMAPで射影しても性能の劣化はほとんどみられず、現状のモデルではモーダル間のinteractionをうまく行えていないことが示唆された。

f:id:ymym3412:20201213045111p:plain

5. 議論はある?

モーデル間のやりとりをうまく機能させるためにはもっとデータ量の大きいデータセットの整備が必要かもしれないと言及されている。

【11日目】Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem

この記事はNLP/CV論文紹介 Advent Calendar 2020の11日目の記事です。
今日はツイートのようなマイクロブログからN-gramの頻度とお互いの重複からバズりワードを抽出してくる論文です。

0. 論文

Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem - ACL Anthology
Masumi Shirakawa, Takahiro Hara, Takuya Maekawa

1. どんなもの?

マイクロブログからN-gram頻度のz-scoreとN-gram同士の単語の重複をカバーしていくN-gramを抽出することで流行したフレーズを抽出するアルゴリズム

2. 先行研究と比べてどこがすごい?

言語非依存で、かつ不完全なN-gramの抽出を緩和する

3. 技術や手法のキモはどこ?

特定の期間の文書集合(Dt)とそれ以前の文書集合(Dr)とを比較して急激に増加して流行フレーズを抽出したい。

まず頻度のz-scoreを計算し、候補となるN-gramを抽出する。
その後、より長くてより多くのN-gramと部分的に重複しているようなN-gramをgreedyに選択していく。
例えば“let it”, “let it be is”や“it be is” などから長くかつ多くをカバーしているlet it beを抽出していく。

4. どうやって有効だと検証した?

収集したTwitterのデータにマニュアルで流行語かどうかのラベルを付与し、評価にはAverage Precisionおよびmin-z-scoreを用いている。
ベースラインとの比較を行い有効性を確認。

f:id:ymym3412:20201212044908p:plain

f:id:ymym3412:20201212044635p:plain


コード github.com

【10日目】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval

この記事はNLP/CV論文紹介 Advent Calendar 2020の10日目の記事です。
今日はCross Modal検索において、画像領域と単語のマッチングをよりはっきりと行うためのモデルです。

0. 論文

CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval
Zihao Wang1∗ Xihui Liu1∗ Hongsheng Li1 Lu Sheng3, Junjie Yan2 Xiaogang Wang1, Jing Shao2

1. どんなもの?

テキストと画像領域のマッチング度合いをゲーティングで制御することで関係あるペアの特徴量をより予測に使えるようにしたモデル「CAMP」

2. 先行研究と比べてどこがすごい?

テキストと画像領域のインタラクションをより明確に取れるようにゲーティングを使っているところ

3. 技術や手法のキモはどこ?

従来手法より明確に画像とテキストのインタラクションを取るために画像とテキストのフュージョン結果を使ってゲーティングして特徴量を生成するモデルを提案。
例えば犬の映った領域と「The wet brown dog is running in the water」という文があれば強いマッチがありゲーティングの値も大きくなりフュージョンした結果がより使われるようになる。

f:id:ymym3412:20201211041230p:plain

f:id:ymym3412:20201211041252p:plain

4. どうやって有効だと検証した?

COCOとFlickr30KでRecall@kで評価を行い有効性を示した。
また画像領域とテキストのマッチングがあれば高いスコアを出せるよう学習できている。

f:id:ymym3412:20201211041430p:plain

5. 議論はある?

Fused featureを作る際に画像とテキストの元の特徴量をResidual接続しているため、Fused featureはgateがうまく機能しても割合はせいぜい1:1にしかならないがそれでもうまくマッチングを取れるのか?

【9日目】Embedding-based Retrieval in Facebook Search

この記事はNLP/CV論文紹介 Advent Calendar 2020の9日目の記事です。
今日はFacebookが運用しているEmbeddingを活用した検索基盤に関する論文です。

0. 論文

[2006.11632] Embedding-based Retrieval in Facebook Search
Jui-Ting Huang, Ashish Sharma, Shuying Sun, Li Xia, David Zhang, Philip Pronin, Janani Padmanabhan, Giuseppe Ottaviano, Linjun Yang

1. どんなもの?

Facenbookのembeddingを活用した検索基盤。QueryやDocumentのembeddingの作り方やboolean検索とembedding検索を組み合わせた検索などを紹介している。

2. 先行研究と比べてどこがすごい?

Facebookでの検索精度をあげるためのembeddingの作り方。またboolean検索とembedding検索を組み合わせたクエリの作り方など

3. 技術や手法のキモはどこ?

Facebookの基盤に導入されているembeddingを活用した検索基盤に関する論文。

f:id:ymym3412:20201210034816p:plain

QueryとDocumentの両方をEmbeddingにしてマッチングさせる手法を取っている。
Embeddingにはロケーションやソーシャルメディアの特徴量を加えることで知り合いや住んでいる地域に関する結果がヒットするようにEmbeddingを作っている。

基盤ではboolean検索とembedding検索を組み合わせた検索基盤をしており、これの実現のために両方の検索結果をマージするようなoperatorを用意している。

f:id:ymym3412:20201210034455p:plain

embeddingの学習には距離学習を用いており、その際negativeデータには全データからランダムにサンプリングしてくる手法と閲覧したがクリックされなかったデータプールからサンプリングする手法とでは前者の方が高いRecallを示した。

4. どうやって有効だと検証した?

使用するembeddingの工夫、ベクトル量子化、距離学習の戦略などを変えながらRecall@kの変化を検証した


boolean検索とembedding検索を組み合わせるような検索クエリを組んでいるところが面白いです。
Facebookはおそらく一つのエンジン内で実現しているのだと思いますが、自分でやろうと思ったらboolean検索とembedding検索とで結果を取得してマージしてrerankする感じでやれば近いものが実現できそう。

【8日目】LEGAL-BERT: The Muppets straight out of Law School

この記事はNLP/CV論文紹介 Advent Calendar 2020の8日目の記事です。
今日は法律領域のBERTモデル、そして特定ドメインでのBERTを学習させるための実験に関する論文です。

0. 論文

[2010.02559] LEGAL-BERT: The Muppets straight out of Law School
Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Nikolaos Aletras, Ion Androutsopoulos

1. どんなもの?

法律領域のテキストで学習させたLEGAL-BERTの紹介、およびそれを学習させるにあたり特定ドメインのBERTを学習させるやり方についてまとめた論文

2. 先行研究と比べてどこがすごい?

英語の法律テキストのBERTモデルを構築したこと。特定ドメイン向けのBERTモデルを学習させるための実験を行なったこと

3. 技術や手法のキモはどこ?

英語の法律領域向けのBERTを作成するにあたり、

  1. BERT-BASEをドメインタスクでFine Tuneする
  2. BERT-BASEをドメインのテキストで追加のPre-Trainを行い、それからタスクでFine Tuneする
  3. ドメインのテキストでフルスクラッチで事前学習を行い、ドメインタスクを学習する

の3パターンを考え、パラメータ探索を行いながら、これらの方法でどのやり方が各タスクで性能に変化を及ぼすかを調査した。

f:id:ymym3412:20201209033315p:plain

4. どうやって有効だと検証した?

まず事前学習の収束速度やLossの値を確認。フルスクラッチの場合や、一部のドメインコーパスでの事前学習の場合はLossが小さい値になった。

ドメインタスクでは、3つのコーパスでクラス分類と系列ラベリングで検証。
(2)のパターンと(3)のパターンのどちらが有効かはタスクによりけりだが、いずれも(1)のパターンより有効であり、ドメインコーパスでの事前学習タスクが重要であることを示唆している。

f:id:ymym3412:20201209033759p:plain

5. 議論はある?

単純にFine Tuneするだけではなく、ドメインコーパスを使って事前学習を行うことが性能に大きく寄与していることを知れたのは大変興味深い

【7日目】TED: A Pretrained Unsupervised Summarization Model with Theme Modeling and Denoising

この記事はNLP/CV論文紹介 Advent Calendar 2020の7日目の記事です。
今日はTransformerモデルの事前学習などを駆使して教師なし抽象型要約を行う手法です。

0. 論文

[2001.00725] TED: A Pretrained Unsupervised Summarization Model with Theme Modeling and Denoising
Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, Eric Darve

1. どんなもの?

Transformerモデルでの事前学習やTheme modeling/denoising AEなどを使った学習する教師なし抽象型要約モデル

2. 先行研究と比べてどこがすごい?

CNN/DMやNYTといった大規模要約タスクのデータセットに対して行なった教師なし抽象型要約の研究。またTransformerモデルを使った教師なし手法であること

3. 技術や手法のキモはどこ?

事前学習とドメインでのFineturnの2フェーズに分かれる。

事前学習のフェーズでは、要約タスクでは先頭3文が要約として十分な情報量を含んでいるというlead-biasを活用し、先頭3文を残りの文章から生成する事前学習を行う(ただ抽出してくることを学習しないように残りの文章から生成する)。

f:id:ymym3412:20201208040503p:plain

次のフェーズでは、Theme ModelingとDenoising AEを使って学習する。
Theme Modelingでは同じ記事中の文のペアa1-a2と、異なる記事の文のペアa1-b1とをTransformerに投入して同じ記事中の文章が似ていると判断できるように学習する。
Denoising AEでは、文のトークン列に対して異なる文から抽出したトークンを挿入して並び替えたものをnoisy sequenceとして元のsequenceを復元する。

f:id:ymym3412:20201208040519p:plain

4. どうやって有効だと検証した?

NYTとCNN/DMデータセットで検証。
教師あり/なしと抽出型/抽象型とで比較を実施し、教師なし抽象型手法の中ではもっとも高いRougeを示した。

5. 議論はある?

Pretrainedが大部分の貢献をしている。theme modelingとdenoisingも多少貢献あり。
要約タスクで先頭3文を使うのは教師ありでやっていたと認識しているので、これを教師なしと呼称してもよいのか?

【6日目】What Emotions Make One or Five Stars? Understanding Ratings of Online Product Reviews by Sentiment Analysis and XAI

この記事はNLP/CV論文紹介 Advent Calendar 2020の6日目の記事です。
今日はレビューのスコア予測を題材にモデルの解釈を行う話です。研究論文というより授業チックなものです。

0. 論文

[2003.00201] What Emotions Make One or Five Stars? Understanding Ratings of Online Product Reviews by Sentiment Analysis and XAI
Chaehan So

1. どんなもの?

Amazonのレビューのスコア予測を題材に、学習したモデルの解釈をfeature importanceやlocal attribution, partial dependency plotなどで分析する

2. 先行研究と比べてどこがすごい?

特になし

3. 技術や手法のキモはどこ?

Amazonのレビュースコア予測を題材にして、以下の3つのことを行う。

  1. スコアを回帰タスクとしてモデルを学習させる
  2. 学習させたモデルの解釈を行う
  3. タスクを分類に切り替えて分析する

データはAmazonのレビューのテーブルデータに前処理や変数の除去をしたものに加えて、テキストに感情分析を行いjoyやfearなどの感情を0-1のスコアでつけたカラムも追加している。

回帰タスクで学習の結果、もっともよかったRandom Forestの解釈を行う。
feature importanceやlocal attributionの可視化、partial dependency plotなどを行い、特徴量が目的変数にどのように寄与しているかを分析している。

f:id:ymym3412:20201206214945p:plain

f:id:ymym3412:20201206215001p:plain

f:id:ymym3412:20201206215014p:plain

また分類タスクに切り替えてモデルの学習を行うとこちらもRandom Forestがもっともよい結果だった。
しかしRandom ForestのAccuracy72.9%に対してno-information rateが64.4%もあり、データの不均衡さがデータの中に生じているためうまく予測を行えていないと考えられる。


タスクを回帰、分類の両方でときその際に結果の解釈やモデルの解釈を進めていくという授業的な内容だった。
仕事で機械学習モデルを作成して意思決定を行うといったことをする人の入門などに良いのではないだろうか。

参考文献