【11日目】Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem
この記事はNLP/CV論文紹介 Advent Calendar 2020の11日目の記事です。
今日はツイートのようなマイクロブログからN-gramの頻度とお互いの重複からバズりワードを抽出してくる論文です。
0. 論文
Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem - ACL Anthology
Masumi Shirakawa, Takahiro Hara, Takuya Maekawa
1. どんなもの?
マイクロブログからN-gram頻度のz-scoreとN-gram同士の単語の重複をカバーしていくN-gramを抽出することで流行したフレーズを抽出するアルゴリズム
2. 先行研究と比べてどこがすごい?
言語非依存で、かつ不完全なN-gramの抽出を緩和する
3. 技術や手法のキモはどこ?
特定の期間の文書集合(Dt)とそれ以前の文書集合(Dr)とを比較して急激に増加して流行フレーズを抽出したい。
まず頻度のz-scoreを計算し、候補となるN-gramを抽出する。
その後、より長くてより多くのN-gramと部分的に重複しているようなN-gramをgreedyに選択していく。
例えば“let it”, “let it be is”や“it be is” などから長くかつ多くをカバーしているlet it beを抽出していく。
4. どうやって有効だと検証した?
収集したTwitterのデータにマニュアルで流行語かどうかのラベルを付与し、評価にはAverage Precisionおよびmin-z-scoreを用いている。
ベースラインとの比較を行い有効性を確認。
コード github.com