【23日目】SUBJQA: A Dataset for Subjectivity and Review Comprehension

この記事はNLP/CV論文紹介 Advent Calendar 2020の23日目の記事です。
今日は主観的な表現にフォーカスしたQAデータセット構築の論文です。

0. 論文

[2004.14283] SubjQA: A Dataset for Subjectivity and Review Comprehension
Johannes Bjerva, Nikita Bhutani, Behzad Golshan, Wang-Chiew Tan, Isabelle Augenstein

1. どんなもの？

様々なドメインのデータセットから抽出して構築した、主観的な表現を使ったQAデータセット「SUBJQA」

2. 先行研究と比べてどこがすごい？

主観的な表現に着目したデータセットを作成したこと

3. 技術や手法のキモはどこ？

QAタスクでは、主観的な内容の質問や回答が要求されることがあるが、主観表現に着目したデータセットは存在していなかった。

論文ではOpineDBといったOpinion Extractorを使ってopinionを抽出、その後それを行列分解を使ってある程度類似したopinionをまとめあげる。
それに対してクラウドソーシングでそのopinion部分が回答になるような質問を作成、そのQAをさらに人手チェックすることでデータセットを作成した。

f:id:ymym3412:20201225004925p:plain