【11日目】Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem

この記事はNLP/CV論文紹介 Advent Calendar 2020の11日目の記事です。
今日はツイートのようなマイクロブログからN-gramの頻度とお互いの重複からバズりワードを抽出してくる論文です。

0. 論文

Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem - ACL Anthology
Masumi Shirakawa, Takahiro Hara, Takuya Maekawa

1. どんなもの？

マイクロブログからN-gram頻度のz-scoreとN-gram同士の単語の重複をカバーしていくN-gramを抽出することで流行したフレーズを抽出するアルゴリズム

2. 先行研究と比べてどこがすごい？

言語非依存で、かつ不完全なN-gramの抽出を緩和する

3. 技術や手法のキモはどこ？

特定の期間の文書集合(Dt)とそれ以前の文書集合(Dr)とを比較して急激に増加して流行フレーズを抽出したい。

まず頻度のz-scoreを計算し、候補となるN-gramを抽出する。
その後、より長くてより多くのN-gramと部分的に重複しているようなN-gramをgreedyに選択していく。
例えば“let it”, “let it be is”や“it be is” などから長くかつ多くをカバーしているlet it beを抽出していく。