【2日目】Simple Unsupervised Keyphrase Extraction using Sentence Embeddings
この記事はNLP/CV論文紹介 Advent Calendar 2020の2日目の記事です。 今日はEmbedRankと呼ばれる教師なしキーワード抽出アルゴリズムをまとめます。
0. 論文
[1801.04470] Simple Unsupervised Keyphrase Extraction using Sentence Embeddings
Kamil Bennani-Smires, Claudiu Musat, Andreea Hossmann, Michael Baeriswyl, Martin Jaggi
1. どんなもの?
抽出対象の文章とキーワード候補のEmbeddingを使った教師なしキーワード抽出アルゴリズム
2. 先行研究と比べてどこがすごい?
教師あり手法と比べてアノテーションデータが要らず、また近年発達した文章のEmbeddingを求める手法を使ったキキーワード候補を抽出する
3. 技術や手法のキモはどこ?
文書にとって重要なキーワードはEmbedding空間上で文書のベクトルに類似している単語(フレーズ)である、という仮説で文書とキーワード候補をDoc2VecとSent2Vecの二種類でベクトル化し、その類似度を元にスコアリングして抽出するEMbedRankを提案した。 またこの手法だと、意味が重複しているキーワード(例えば"molecular equivalence numbers"と"molecular equivalence indices"はほぼ同じ意味)が抽出されてしまうため、MaximalMarginal Relevance(MMR) を使って重複を排除しながらキーワードを抽出するEmbedRank++も提案した。
4. どうやって有効だと検証した?
Inspec、DUC、NUSの3つのデータセットを使って既存手法とPrecision/Recall/F1ベースで定量比較を、また重複排除の効果を確かめるための定性評価を行なった。
定量評価ではEmbedRank d2vやEmbedRank s2vがよい性能を示したが、定性調査では重複排除を行うEmbedRank++を好む傾向になった。
5. 議論はある?
EmbedRank++が実験で負けてしまったのは、重複排除の段階で本来は正解だが意味的に近い単語がすでに選ばれているため除外、ということが実行されてしまったからだろうか。 なのでEmbedRankの方は意味が近くても列挙するおかげで正解できる傾向にあるのではないか。 実務的にはEmbedRank++の方がよさそう
EmbedRankでは重複排除のためにMMRを利用していたが、他にもDiversityを高める手法は存在する。
クエリにマッチした情報を返すことで得られるInformativenessと、様々なカテゴリの情報を返すことで得られるDiversityはトレードオフの関係にあたり、InformativenessとDiversityを両立させてスコアを最大化させる部分集合を求める問題はNP困難であることが多く、それに対してIA-SelectやMax-Sum Diversificationなどの近似やGreedyなアルゴリズムを使って解決する手法が提案されている。
またKeyClusterではグラフ上でのクラスタリングを使って重複を排除しつつ抽出する手法を提案している。
実装上はMMRが簡単だが、状況に合わせてこういった手法も念頭におけるようにしたい。