BERTを超えたXLNetの紹介

概要

自然言語処理のタスク学習の流れと事前学習の種類

GRUを用いた自己回帰言語モデル。単語を順々に読込み、順々に予測する (画像の引用元:https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/)
自己符号化をもとにした事前学習手法であるBERT。 (画像の引用元(https://arxiv.org/pdf/1810.04805.pdf))

XLNetと関連研究

Transformer

Transformerの全体図。Multi-Head Attentionとposition-wise Feed Forward Networksを組み合わせたブロックをEncoder, Decoderそれぞれで6つ積層させたモデル。
dot product Attention
Transformer を文に適用した際の模式図

Transformer-XL

通常のTransformerの学習・推論。固定長(=4)の情報しか扱えない。
Transformer-XLの学習と推論。過去の情報を固定して使うことで、固定長以上の情報を扱える。

ELMo

ELMOの概念図。https://arxiv.org/pdf/1810.04805.pdfより

BERT

(左)順方向・逆方向それぞれの方向から”tennis”を予測した際の条件付き確率 (右)ELMoの模式図
BERT, GPT, ELMoの比較

XLNet

  1. [mask]という特殊な文字を使用していので、それらが出現しないfine-tuning時に問題がでてくる
  2. 後述するようにBERTのような自己符号化モデルでは、予測対象の単語が複数あった場合、自己回帰モデルのように予測対象の単語間の依存関係をとることができない

単語の予測順序の入れ替え

Two Stream Self-Attention

(a)Content Stream Attention, (b)Query Stream Attention (c ) overview , e(x_i)は単語の埋め込み

実例

“I play tennis today”を[tennis, play, today, I]と順序を入れ替えた状態で、[tennis]から”play”を予測した図
“I play tennis today”を[tennis, play, today, I]と順序を入れ替えた状態で、[tennis, play]から”today”を予測した図
“I play tennis today”を[tennis, play, today, I]と順序を入れ替えた状態で、[tennis, play, today]から”I”を予測した図
“I”を予測する際のQuery Stream Attentionの概略図
“play”の時刻におけるContent Stream Attentionの概略図

BERTとの比較

BERT, XLNetの目的関数

自己回帰言語モデルとの比較

結果

最後に

謝辞

--

--

--

Data Scientist (Engineer) in Japan Twitter : https://twitter.com/AkiraTOSEI LinkedIn : https://www.linkedin.com/mwlite/in/亮宏-藤井-999868122

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Akihiro FUJII

Akihiro FUJII

Data Scientist (Engineer) in Japan Twitter : https://twitter.com/AkiraTOSEI LinkedIn : https://www.linkedin.com/mwlite/in/亮宏-藤井-999868122

More from Medium

Review — fastText: Enriching Word Vectors with Subword Information

Deduplication, near duplicate: a short guide

Service Robots Help the Intelligent Transformation of the Catering Industry in China

Different Transformer Models