やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【14日目】TF-IDFC-RF: A Novel Supervised Term Weighting Scheme for Sentiment Analysis

この記事はNLP/CV論文紹介 Advent Calendar 2020の14日目の記事です。
今日はTF-IDFの教師あり手法を拡張したTF-IDFC-RFというスコアリングアルゴリズムの紹介です。

0. 論文

[2003.07193] TF-IDFC-RF: A Novel Supervised Term Weighting Scheme
Flavio Carvalho, Gustavo Paiva Guedes

1. どんなもの?

TF-IDFを拡張した教師あり重みつけ手法(Supervised Weighted Scheme: SWS) の「TF-IDFC-RF」

2. 先行研究と比べてどこがすごい?

SWSの一種であるTF-RFをベースにしており、TF-RFの課題であるネガティブクラスの単語の重みが小さくなる点を解決

3. 技術や手法のキモはどこ?

内容としてはTF-IDFの教師ありの拡張であるSWSを紹介しつつ、そこから派生したTF-IDFC-RFを提案している。 ベースはTF-RFだが、TF-RFでは重みつけの際にポジティブクラスでのtermの出現数Aとネガティブクラスでのtermの出現数Cを使ってlog(A/C)という計算をしてしまっているため、ポジティブクラスの特徴語は高いスコアを得るが、それと比べてネガティブクラスは高いスコアを想定的に得づらい。
クラス間の相対的な出現数をスコアに加味するために、max(A, C)/min(A, C)というスコアに変更したTF-IDFC-RFを提案した。

f:id:ymym3412:20201215052626p:plain

これにより両クラスの特徴語に等しく高いスコアをつけられている。

f:id:ymym3412:20201215052701p:plain

f:id:ymym3412:20201215052718p:plain

4. どうやって有効だと検証した?

4種類のデータセットを使い、分類器としてSVMとナイーブベイズを使って他の重みつけの手法との比較を行なった。
評価値としては、そもそも分類器の違いだけで数値に大きな隔たりがあり、また一概にTF-IDFC-RFが有効という結果ではなかった。

5. 議論はある?

よく出てくる単語だとどの程度のスコアになるのか具体例が見たかった。


様々な教師あり重みつけ手法がまとめられており、勉強にもなった