【3日目】Named Entity Recognition for Social Media Texts with Semantic Augmentation
この記事はNLP/CV論文紹介 Advent Calendar 2020の3日目の記事です。
今日はソーシャルメディアテキストのNERにおけるデータスパーシティへの対策の論文です。
0. 論文
Named Entity Recognition for Social Media Texts with Semantic Augmentation - ACL Anthology
Yuyang Nie, Yuanhe Tian, Xiang Wan, Yan Song, Bo Dai
1. どんなもの?
ソーシャルメディアのテキストで未知のNamed Entity(NE)への性能を考慮したNER手法
2. 先行研究と比べてどこがすごい?
単語のEmbedding空間上で近いEmbeddingを活用することでNERの精度をあげる
3. 技術や手法のキモはどこ?
ソーシャルメディアのテキストでは多様なNEが出現するが個々の頻度は小さくデータスパーシティの問題に直面する。
そこで単語のEmbedding空間上で近いm個の単語を取得してくればそれらの単語は人物や組織などNEに関連したtypeだろうという仮定のもと、それらのembeddingを重み付き和でモデルに入力するsemantic augmentationを導入した。
4. どうやって有効だと検証した?
WNUT16/WNUT17/Weiboの3つのデータセットで既存の手法と定量比較した。
また今回フォーカスしている、未知のNEに対する性能評価も実施。
学習データに出現しなかった未知語に対するrecallを既存手法と比較し良い性能を示した。
5. 議論はある?
EncoderとしてTENERを使用しており、文字レベルの素性も使っているため、Word Embeddingにもないような未知語にもある程度対応できそうか?