【22日目】F1 is Not Enough! Models and Evaluation Towards User-Centered Explainable Question Answering
この記事はNLP/CV論文紹介 Advent Calendar 2020の22日目の記事です。
今日はユーザーからの質問に根拠込みで回答するモデルの評価方法に関する論文です。
0. 論文
[2010.06283] F1 is Not Enough! Models and Evaluation Towards User-Centered Explainable Question Answering
Hendrik Schuff, Heike Adel, Ngoc Thang Vu
1. どんなもの?
ユーザーからの質問に根拠込みで回答するExplainable Question Answering(XQA)のモデルの提案と評価方法に関する提案
2. 先行研究と比べてどこがすごい?
回答から得るユーザーの体験も考慮下評価指標を設計していること
3. 技術や手法のキモはどこ?
従来のXQAモデルでは、予測したfactを根拠説明に使用しなかったり、そもそも根拠説明に関係しないfactを抽出してしまっていたため、これを解決する階層型のモデルを提案。
またXQAモデルの評価ではF1値などを使うことが多いが、これはGTに対するモデルの性能をみているだけで、その回答と根拠がユーザーを満足させるものかという観点がなかった。
そこでモデルが生成した根拠に適切なfactが含まれているかをチェックするFARMと、予測した根拠の中から説明をできているかを測る指標LOCAを提案した。
4. どうやって有効だと検証した?
従来のモデルとを使って、提案指標での比較を行った。
5. 議論はある?
ユーザーの体験を考慮した評価指標設計は非常に面白い