やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【7日目】TED: A Pretrained Unsupervised Summarization Model with Theme Modeling and Denoising

この記事はNLP/CV論文紹介 Advent Calendar 2020の7日目の記事です。
今日はTransformerモデルの事前学習などを駆使して教師なし抽象型要約を行う手法です。

0. 論文

[2001.00725] TED: A Pretrained Unsupervised Summarization Model with Theme Modeling and Denoising
Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, Eric Darve

1. どんなもの?

Transformerモデルでの事前学習やTheme modeling/denoising AEなどを使った学習する教師なし抽象型要約モデル

2. 先行研究と比べてどこがすごい?

CNN/DMやNYTといった大規模要約タスクのデータセットに対して行なった教師なし抽象型要約の研究。またTransformerモデルを使った教師なし手法であること

3. 技術や手法のキモはどこ?

事前学習とドメインでのFineturnの2フェーズに分かれる。

事前学習のフェーズでは、要約タスクでは先頭3文が要約として十分な情報量を含んでいるというlead-biasを活用し、先頭3文を残りの文章から生成する事前学習を行う(ただ抽出してくることを学習しないように残りの文章から生成する)。

f:id:ymym3412:20201208040503p:plain

次のフェーズでは、Theme ModelingとDenoising AEを使って学習する。
Theme Modelingでは同じ記事中の文のペアa1-a2と、異なる記事の文のペアa1-b1とをTransformerに投入して同じ記事中の文章が似ていると判断できるように学習する。
Denoising AEでは、文のトークン列に対して異なる文から抽出したトークンを挿入して並び替えたものをnoisy sequenceとして元のsequenceを復元する。

f:id:ymym3412:20201208040519p:plain

4. どうやって有効だと検証した?

NYTとCNN/DMデータセットで検証。
教師あり/なしと抽出型/抽象型とで比較を実施し、教師なし抽象型手法の中ではもっとも高いRougeを示した。

5. 議論はある?

Pretrainedが大部分の貢献をしている。theme modelingとdenoisingも多少貢献あり。
要約タスクで先頭3文を使うのは教師ありでやっていたと認識しているので、これを教師なしと呼称してもよいのか?