【6日目】What Emotions Make One or Five Stars? Understanding Ratings of Online Product Reviews by Sentiment Analysis and XAI
この記事はNLP/CV論文紹介 Advent Calendar 2020の6日目の記事です。
今日はレビューのスコア予測を題材にモデルの解釈を行う話です。研究論文というより授業チックなものです。
0. 論文
1. どんなもの?
Amazonのレビューのスコア予測を題材に、学習したモデルの解釈をfeature importanceやlocal attribution, partial dependency plotなどで分析する
2. 先行研究と比べてどこがすごい?
特になし
3. 技術や手法のキモはどこ?
Amazonのレビュースコア予測を題材にして、以下の3つのことを行う。
- スコアを回帰タスクとしてモデルを学習させる
- 学習させたモデルの解釈を行う
- タスクを分類に切り替えて分析する
データはAmazonのレビューのテーブルデータに前処理や変数の除去をしたものに加えて、テキストに感情分析を行いjoyやfearなどの感情を0-1のスコアでつけたカラムも追加している。
回帰タスクで学習の結果、もっともよかったRandom Forestの解釈を行う。
feature importanceやlocal attributionの可視化、partial dependency plotなどを行い、特徴量が目的変数にどのように寄与しているかを分析している。
また分類タスクに切り替えてモデルの学習を行うとこちらもRandom Forestがもっともよい結果だった。
しかしRandom ForestのAccuracy72.9%に対してno-information rateが64.4%もあり、データの不均衡さがデータの中に生じているためうまく予測を行えていないと考えられる。
タスクを回帰、分類の両方でときその際に結果の解釈やモデルの解釈を進めていくという授業的な内容だった。
仕事で機械学習モデルを作成して意思決定を行うといったことをする人の入門などに良いのではないだろうか。