やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【24日目】TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue

この記事はNLP/CV論文紹介 Advent Calendar 2020の24日目の記事です。
今日はタスク指向対話向けのBERTモデルです。

0. 論文

[2004.06871] TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue
Chien-Sheng Wu, Steven Hoi, Richard Socher, Caiming Xiong

1. どんなもの?

9つのタスク指向対話データセットで事前学習し、Fine-Tuneしたタスク指向型対話タスク向けのモデル

2. 先行研究と比べてどこがすごい?

BERTに特別なコンポーネントの追加なしで性能向上を行なっていること、NSPとは違う事前学習タスクを取り入れていること

3. 技術や手法のキモはどこ?

タスク指向型対話向けのBERT「TOD-BERT」。

事前学習には9種類のタスク指向型対話データセットを使用。
MLMに加えて、マルチターン対話のうちtターン目で区切ってtまでのシステムとユーザーの発話をcontextとしてt+1のresponseを同じバッチ内のresponseの中から選択することで正しいcontext-responseの結びつきを学習するResponse contrastive lossを使った学習を導入した。

f:id:ymym3412:20201226194534p:plain

4. どうやって有効だと検証した?

評価には4種ほどのデータセットを使い、Downstream taskとして「Intent recognition」「Dialogue state tracking 」「Dialogue act prediction」「Response selection」を用いてモデルを評価した。
タスクによってはRCLが効果を発揮している。またfew-shotの学習成果もBERTを超えていた。

5. 議論はある?

BERTは追加のコンポーネントをごちゃごちゃやるより対象ドメインのデータをたくさん集めて事前学習した方が性能が上がりそう


コードも公開されている。

github.com