やむやむもやむなし

やむやむもやむなし

自然言語処理やエンジニアリングのメモ

【25日目】Pretrained Transformers for Text Ranking:BERT and Beyond

この記事はNLP/CV論文紹介 Advent Calendar 2020の25日目の記事です。 今回はこれまでのフォーマットとは変えて、細かく踏み込んで論文を読んでいきます。 今回読むのは「Pretrained Transformers for Text Ranking:BERT and Beyond」というタイトルの論文で…

【24日目】TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue

この記事はNLP/CV論文紹介 Advent Calendar 2020の24日目の記事です。 今日はタスク指向対話向けのBERTモデルです。 0. 論文 [2004.06871] TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue Chien-Sheng Wu, Steven Hoi, R…

【23日目】SUBJQA: A Dataset for Subjectivity and Review Comprehension

この記事はNLP/CV論文紹介 Advent Calendar 2020の23日目の記事です。 今日は主観的な表現にフォーカスしたQAデータセット構築の論文です。 0. 論文 [2004.14283] SubjQA: A Dataset for Subjectivity and Review Comprehension Johannes Bjerva, Nikita Bhu…

【22日目】F1 is Not Enough! Models and Evaluation Towards User-Centered Explainable Question Answering

この記事はNLP/CV論文紹介 Advent Calendar 2020の22日目の記事です。 今日はユーザーからの質問に根拠込みで回答するモデルの評価方法に関する論文です。 0. 論文 [2010.06283] F1 is Not Enough! Models and Evaluation Towards User-Centered Explainable…

SQLで始める自然言語処理

こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQu…

【21日目】Flow-edge Guided Video Completion

この記事はNLP/CV論文紹介 Advent Calendar 2020の21日目の記事です。 今日は動画の欠損した領域を補完するVideo Completion TaskでFlowベースの手法の中で輪郭などもしっかりと補完できる手法の紹介です。 0. 論文 [2009.01835] Flow-edge Guided Video Com…

【20日目】Domain Adaptive Semantic Segmentation Using Weak Labels

この記事はNLP/CV論文紹介 Advent Calendar 2020の20日目の記事です。 今日はsemantic segmentationのDomain Adaptationにおいてweak labelを用いた損失を使って学習する手法です。 0. 論文 Domain Adaptive Semantic Segmentation Using Weak Labels Sujoy …

【19日目】Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed Datasets

この記事はNLP/CV論文紹介 Advent Calendar 2020の19日目の記事です。 今日はマルチクラス分類で、ラベルの不均衡さを克服するためにラベルの共起などを用いたLossを提案する論文です。 0. 論文 Distribution-Balanced Loss for Multi-Label Classification …

【18日目】Self-Supervised Graph Transformer on Large-ScaleMolecular Data

この記事はNLP/CV論文紹介 Advent Calendar 2020の18日目の記事です。 今日は分子のデータに対して適用するための、GNNとTransformerを組み合わせたGROVERというモデルです。 0. 論文 [2007.02835] Self-Supervised Graph Transformer on Large-Scale Molecu…

【17日目】TaPas: Weakly Supervised Table Parsing via Pre-training

この記事はNLP/CV論文紹介 Advent Calendar 2020の17日目の記事です。 今日はBERTのような事前学習を行ってテーブルデータへのQuestion Answeringを解くTransformerモデルです。 0. 論文 TaPas: Weakly Supervised Table Parsing via Pre-training - ACL Ant…

【16日目】End-to-End Object Detection with Transformers

この記事はNLP/CV論文紹介 Advent Calendar 2020の16日目の記事です。 今日はTransformerを使ったnon-autoregressiveなObject Detectionモデル「DETR」です。 0. 論文 [2005.12872] End-to-End Object Detection with Transformers Nicolas Carion, Francisc…

【15日目】An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

この記事はNLP/CV論文紹介 Advent Calendar 2020の15日目の記事です。 今日は画像界隈を騒がせたVision Transformer(ViT)を読みます。 0. 論文 [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitski…

【14日目】TF-IDFC-RF: A Novel Supervised Term Weighting Scheme for Sentiment Analysis

この記事はNLP/CV論文紹介 Advent Calendar 2020の14日目の記事です。 今日はTF-IDFの教師あり手法を拡張したTF-IDFC-RFというスコアリングアルゴリズムの紹介です。 0. 論文 [2003.07193] TF-IDFC-RF: A Novel Supervised Term Weighting Scheme Flavio Car…

【13日目】Unsupervised Learning of Probably Symmetric Deformable 3D Objectsfrom Images in the Wild

この記事はNLP/CV論文紹介 Advent Calendar 2020の13日目の記事です。今日から後半戦開始です。 今日は単一の視点の画像のみから対称な3Dモデルを教師なしで生成する手法です。 0. 論文 [1911.11130] Unsupervised Learning of Probably Symmetric Deformabl…

【12日目】Does my multimodal model learn cross-modal interactions? It’s harder to tell than you might think!

この記事はNLP/CV論文紹介 Advent Calendar 2020の12日目の記事です。 今日はMulti Modal Classificationタスクでモデルの比較を平等に行うために、モーダル間のinteractionを排除しモーダルの出力の加法のみで統一的に予測を行うやり方を使ったモデル比較を…

【11日目】Never Abandon Minorities: Exhaustive Extraction of Bursty Phrases on Microblogs Using Set Cover Problem

この記事はNLP/CV論文紹介 Advent Calendar 2020の11日目の記事です。 今日はツイートのようなマイクロブログからN-gramの頻度とお互いの重複からバズりワードを抽出してくる論文です。 0. 論文 Never Abandon Minorities: Exhaustive Extraction of Bursty …

【10日目】CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval

この記事はNLP/CV論文紹介 Advent Calendar 2020の10日目の記事です。 今日はCross Modal検索において、画像領域と単語のマッチングをよりはっきりと行うためのモデルです。 0. 論文 CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval Z…

【9日目】Embedding-based Retrieval in Facebook Search

この記事はNLP/CV論文紹介 Advent Calendar 2020の9日目の記事です。 今日はFacebookが運用しているEmbeddingを活用した検索基盤に関する論文です。 0. 論文 [2006.11632] Embedding-based Retrieval in Facebook Search Jui-Ting Huang, Ashish Sharma, Shu…

【8日目】LEGAL-BERT: The Muppets straight out of Law School

この記事はNLP/CV論文紹介 Advent Calendar 2020の8日目の記事です。 今日は法律領域のBERTモデル、そして特定ドメインでのBERTを学習させるための実験に関する論文です。 0. 論文 [2010.02559] LEGAL-BERT: The Muppets straight out of Law School Ilias C…

【7日目】TED: A Pretrained Unsupervised Summarization Model with Theme Modeling and Denoising

この記事はNLP/CV論文紹介 Advent Calendar 2020の7日目の記事です。 今日はTransformerモデルの事前学習などを駆使して教師なし抽象型要約を行う手法です。 0. 論文 [2001.00725] TED: A Pretrained Unsupervised Summarization Model with Theme Modeling …

【6日目】What Emotions Make One or Five Stars? Understanding Ratings of Online Product Reviews by Sentiment Analysis and XAI

この記事はNLP/CV論文紹介 Advent Calendar 2020の6日目の記事です。 今日はレビューのスコア予測を題材にモデルの解釈を行う話です。研究論文というより授業チックなものです。 0. 論文 [2003.00201] What Emotions Make One or Five Stars? Understanding …

【5日目】Local Context Attention for Salient ObjectSegmentation

この記事はNLP/CV論文紹介 Advent Calendar 2020の5日目の記事です。 今日は画像からSalientな部分をSegmentationするSalient Object Segmentationに関する論文です。 0. 論文 [2009.11562] Local Context Attention for Salient Object Segmentation Jing T…

【4日目】Pre-training without Natural Images

この記事はNLP/CV論文紹介 Advent Calendar 2020の4日目の記事です。 今日はcvpaper.challenge発の取り組みである事前学習用のフラクタル画像のデータセットの論文です。 0. 論文 Pre-training without Natural Images Hirokatsu Kataoka, Kazushige Okayasu…

【3日目】Named Entity Recognition for Social Media Texts with Semantic Augmentation

この記事はNLP/CV論文紹介 Advent Calendar 2020の3日目の記事です。 今日はソーシャルメディアテキストのNERにおけるデータスパーシティへの対策の論文です。 0. 論文 Named Entity Recognition for Social Media Texts with Semantic Augmentation - ACL A…

【2日目】Simple Unsupervised Keyphrase Extraction using Sentence Embeddings

この記事はNLP/CV論文紹介 Advent Calendar 2020の2日目の記事です。 今日はEmbedRankと呼ばれる教師なしキーワード抽出アルゴリズムをまとめます。 0. 論文 [1801.04470] Simple Unsupervised Keyphrase Extraction using Sentence Embeddings Kamil Bennan…

【1日目】Multimodal Pretraining Unmasked:Unifying the Vision and Language BERTs

この記事はNLP/CV論文紹介 Advent Calendar 2020の1日目の記事です。 このカレンダーでは私が気になっている論文をフォーマットに合わせてまとめていきます。 0. 論文 [2011.15124] Multimodal Pretraining Unmasked: Unifying the Vision and Language BERT…

SRE(サイトリライアビリティエンジニアリング)を読みました

仕事で意識することも多くなってきたので今更ながらSRE本を読みました。 書籍では大きな部とその中の章の構成となっており、ここでは部の簡潔なまとめを書きながら印象に残った章について軽くコメントをしていきます。 SREってどんな本? この書籍はGoogleの…

ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう-

機械学習をやっている人なら誰もが遭遇したであろうこの光景 (※写真はPyTorchのLanguage ModelのExampleより) Pythonのargparseでシェルから引数を受け取りPythonスクリプト内でパラメータに設定するパターンは、記述が長くなりがちな上、どのパラメータがmo…

Kubeflow Pipelinesで日本語テキスト分類の実験管理

機械学習ワークフロー管理ツールであるKubeflowのPipelines機能を使って日本語テキスト分類の実験管理を行います。 この記事ではKubeflowのチュートリアルに従ってKubeflowのクラスタを構築してPipelinesを動かし、最後に日本語のデータセットをKubeflow Pip…

MLflowをさくっと導入できるdocker-composeを作った

tl;dr docker-composeを叩くだけでさくっと認証付きのMLflowサーバーを立てられるようにしました こちらからどうぞ: ymym3412/mlflow-docker-compose みなさん機械学習の実験をしていますか? 学習に使ったハイパーパラメーターやデータ、Train/Valデータの…