やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【8日目】LEGAL-BERT: The Muppets straight out of Law School

この記事はNLP/CV論文紹介 Advent Calendar 2020の8日目の記事です。
今日は法律領域のBERTモデル、そして特定ドメインでのBERTを学習させるための実験に関する論文です。

0. 論文

[2010.02559] LEGAL-BERT: The Muppets straight out of Law School
Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Nikolaos Aletras, Ion Androutsopoulos

1. どんなもの?

法律領域のテキストで学習させたLEGAL-BERTの紹介、およびそれを学習させるにあたり特定ドメインのBERTを学習させるやり方についてまとめた論文

2. 先行研究と比べてどこがすごい?

英語の法律テキストのBERTモデルを構築したこと。特定ドメイン向けのBERTモデルを学習させるための実験を行なったこと

3. 技術や手法のキモはどこ?

英語の法律領域向けのBERTを作成するにあたり、

  1. BERT-BASEをドメインタスクでFine Tuneする
  2. BERT-BASEをドメインのテキストで追加のPre-Trainを行い、それからタスクでFine Tuneする
  3. ドメインのテキストでフルスクラッチで事前学習を行い、ドメインタスクを学習する

の3パターンを考え、パラメータ探索を行いながら、これらの方法でどのやり方が各タスクで性能に変化を及ぼすかを調査した。

f:id:ymym3412:20201209033315p:plain

4. どうやって有効だと検証した?

まず事前学習の収束速度やLossの値を確認。フルスクラッチの場合や、一部のドメインコーパスでの事前学習の場合はLossが小さい値になった。

ドメインタスクでは、3つのコーパスでクラス分類と系列ラベリングで検証。
(2)のパターンと(3)のパターンのどちらが有効かはタスクによりけりだが、いずれも(1)のパターンより有効であり、ドメインコーパスでの事前学習タスクが重要であることを示唆している。

f:id:ymym3412:20201209033759p:plain

5. 議論はある?

単純にFine Tuneするだけではなく、ドメインコーパスを使って事前学習を行うことが性能に大きく寄与していることを知れたのは大変興味深い