やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【11日目】Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem

この記事はNLP/CV論文紹介 Advent Calendar 2020の11日目の記事です。
今日はツイートのようなマイクロブログからN-gramの頻度とお互いの重複からバズりワードを抽出してくる論文です。

0. 論文

Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem - ACL Anthology
Masumi Shirakawa, Takahiro Hara, Takuya Maekawa

1. どんなもの?

マイクロブログからN-gram頻度のz-scoreとN-gram同士の単語の重複をカバーしていくN-gramを抽出することで流行したフレーズを抽出するアルゴリズム

2. 先行研究と比べてどこがすごい?

言語非依存で、かつ不完全なN-gramの抽出を緩和する

3. 技術や手法のキモはどこ?

特定の期間の文書集合(Dt)とそれ以前の文書集合(Dr)とを比較して急激に増加して流行フレーズを抽出したい。

まず頻度のz-scoreを計算し、候補となるN-gramを抽出する。
その後、より長くてより多くのN-gramと部分的に重複しているようなN-gramをgreedyに選択していく。
例えば“let it”, “let it be is”や“it be is” などから長くかつ多くをカバーしているlet it beを抽出していく。

4. どうやって有効だと検証した?

収集したTwitterのデータにマニュアルで流行語かどうかのラベルを付与し、評価にはAverage Precisionおよびmin-z-scoreを用いている。
ベースラインとの比較を行い有効性を確認。

f:id:ymym3412:20201212044908p:plain

f:id:ymym3412:20201212044635p:plain


コード github.com