やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【3日目】Named Entity Recognition for Social Media Texts with Semantic Augmentation

この記事はNLP/CV論文紹介 Advent Calendar 2020の3日目の記事です。
今日はソーシャルメディアテキストのNERにおけるデータスパーシティへの対策の論文です。

0. 論文

Named Entity Recognition for Social Media Texts with Semantic Augmentation - ACL Anthology
Yuyang Nie, Yuanhe Tian, Xiang Wan, Yan Song, Bo Dai

1. どんなもの?

ソーシャルメディアのテキストで未知のNamed Entity(NE)への性能を考慮したNER手法

2. 先行研究と比べてどこがすごい?

単語のEmbedding空間上で近いEmbeddingを活用することでNERの精度をあげる

3. 技術や手法のキモはどこ?

ソーシャルメディアのテキストでは多様なNEが出現するが個々の頻度は小さくデータスパーシティの問題に直面する。
そこで単語のEmbedding空間上で近いm個の単語を取得してくればそれらの単語は人物や組織などNEに関連したtypeだろうという仮定のもと、それらのembeddingを重み付き和でモデルに入力するsemantic augmentationを導入した。

f:id:ymym3412:20201204020456p:plain

4. どうやって有効だと検証した?

WNUT16/WNUT17/Weiboの3つのデータセットで既存の手法と定量比較した。

また今回フォーカスしている、未知のNEに対する性能評価も実施。
学習データに出現しなかった未知語に対するrecallを既存手法と比較し良い性能を示した。

f:id:ymym3412:20201204020734p:plain

5. 議論はある?

EncoderとしてTENERを使用しており、文字レベルの素性も使っているため、Word Embeddingにもないような未知語にもある程度対応できそうか?