個人的に面白かったML論文 in 2019 Part 2 — NLP, 自然科学とML, DLの解析 —

この記事について

この記事は、2019年に発表された機械学習論文の中で、個人的に面白かった論文の概要を紹介します。まとめていると多くなってしまったので、3つの記事に分けます。この記事はPart2です。

Part 2では、下記4分野の合計24の論文を紹介します。この4分野は便宜上設定したものなので、所属分野に重複等があることをご了承ください。

1.自然言語処理

  1. Updating Pre-trained Word Vectors and Text Classifiers using Monolingual Alignment

2.Transformer 改良

  1. TRANSFORMER-XL: ATTENTIVE LANGUAGE MODELS BEYOND A FIXED-LENGTH CONTEXT

3.物理・数学とML

  1. Ab-Initio Solution of the Many-Electron Schrodinger Equation with Deep Neural Networks

4.深層学習の解析

  1. One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers

1.自然言語処理

自然言語処理では、2018年末に発表されたBERTの改良系の論文がやはり多かったです。BERTの改良系手法が綺羅星のように出ては消えていた印象がありますが、ALBERT, XLNetは2020年1月段階でもチラホラ応用されているの見かけます。BERTは色々なタスクにFine-tuneして転用できることもあり、Fine-tuneに関する研究も目立ちます。Fake-news等への悪用を懸念して、GPT-2のフルモデルを発表をOpenAIが渋っていたことが話題になりましたが、fake-news対策の研究もありました。

1-1.Updating Pre-trained Word Vectors and Text Classifiers using Monolingual Alignment

https://arxiv.org/abs/1910.06241

NLPのFine-tuneで得られた単語ベクトルをさらに洗練する手法の提案。大規模コーパスで得られたベクトルXとそれをもとにタスク用データで微調整したベクトルYを用いて、線形回帰でXを行列Qを用いて整列させなおすことにより、新たな表現ベクトルZを得る。

1-2.MIXOUT: EFFECTIVE REGULARIZATION TO FINETUNE LARGE-SCALE PRETRAINED LANGUAGE MODELS

https://arxiv.org/abs/1909.11299

Dropoutのように確率的にニューロンを落とすが、代わりに転移元のネットワークの重みをもってくるMIXOUTという転移学習手法を提案。破壊的忘却を阻止し、転移元と近い重みのままFinetuneが可能。NLPで成果。

1-3.SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

https://arxiv.org/abs/1911.03437

破壊的忘却を防ぎつつ職人芸的な学習率調整が不要なNLP転移学習手法SMARTの提案。モデルのパラメータが転移元のそれと離れないような正則化、入力の摂動に対して出力が変化しないような正則化をかける。

1-4.ERNIE: Enhanced Language Representation with Informative Entities

https://arxiv.org/abs/1905.07129

知識グラフ(KG)を組みわせることで、言語モデルを改善する研究。文中のEntityに対応する部分をKGから取ってくる。また、ランダムにentityにマスクをかけ、適切なものをKGからとってくるような学習をさせることにより文書とKGとの融合を促進する。

1–5. XLNet: Generalized Autoregressive Pretraining for Language Understanding

https://arxiv.org/abs/1906.08237

BERTは[mask]をかけた単語を予測することでpretrainを実施するが、タスク適用(fine-tune)の時はそのような機構になっていないため、ノイズになっていると推測。単語の予測順序を入れ替える(元の順序情報は保持)ことで、自己回帰モデルで双方向の意味依存関係を取得できるようにする。また、順序が入れ替わっているため、通常のSelf-Attentionに加えてQuery Stream Attentionというものを用いる。20を超えるタスクでBERT超え。

以前書いた解説記事はこちら↓

1-6. RoBERTa: A Robustly Optimized BERT Pretraining Approach

https://arxiv.org/abs/1907.11692

BERTの改良。BERTでは穴埋め問題と文のペア問題を解いて言語モデルをつくるが、前者は一度つくったら学習の間は使い回し、後者は他の研究ではあまり成果を上げられなかった。そこで、前者を学習中にマスクの位置を動的に変化させ、後者を廃止した。さらにデータを追加すると、性能がUPした。

1–7. ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

https://arxiv.org/abs/1909.11942

BERT改良。Embedding時に行列を分解して高い表現力を保ったままパラメータを効率化する、パラメータ共有をすることで効率性を高める、文書順序タスク導入、の3戦略を使う。BERT Largeより少パラメータ・高速でも高性能を実現した。最後の戦略ではもともとBERTで導入されていたNSPタスク(文書トピック予測と文書一貫性予測)をSOP(Sentence Order Prediction)に変更している。トピック予測が簡単すぎるため効果が薄かったと考え、一貫性予測(coherence)のみに絞っている。

1–8. Good News, Everyone! Context driven entity-aware captioning for news images

https://arxiv.org/abs/1904.01475

画像の説明(caption)は今まで一般的な形容しかできなかったが、ニュース記事と組み合わせることで画像をより詳細に説明することができるようになった。固有名詞を特殊文字で置き換えることで、データにない単語に対応可能。また、データセットGoodNewsを提供。

1–9.PaperRobot: Incremental Draft Generation of Scientific Ideas

https://arxiv.org/abs/1905.07870

論文のタイトルを入れると、過去の論文から作ったKnowledge Graph(KG)を使って、「アブストラクト、結論と次の研究、次回のタイトル」を自動生成してくれるという研究。KG中の要素同士の結合をLink predictionで増やしKGを充実させること、タイトルとKGから得た重要そうな要素をMemoryとAttentionを使って文書生成をしている。タイトルとKGから重要そうな単語を抽出(Related Entity Embedding)し、Memory NetworksとMemory Attentionに入れる。そこから文書を生成してくれる。

1–10.Defending Against Neural Fake News

https://arxiv.org/abs/1905.12616

MLで生成されたFake Newsに対応するために、GPT-2と似た機構で脅威モデルGROVERを作ったという研究。Fake Newsの内容だけでなく、著者・日付・タイトルも順次生成していくようなモデルになっている。言語モデルの潜在変数に分類器をつけてFake/Real判定をさせたところ、BERTやGPT2よりGROVER自身を使う方が判定精度はよかった(そりゃ当然という気がせんでもない)

2.Transformerの改良

Transformerは自然言語処理では圧倒的な存在になってきましたが、モデルが重い、学習にコツがいる、短い固定長しか扱えない等の問題がありました。それらを緩和する研究が頻繁に見られます。また、BERTをはじめとするモデルは個人どころか企業でも用意できない計算リソースを必要とするため、Single Headed Attention RNNのようにその流れに一石を投じる研究が個人的には好きです。

2–1.TRANSFORMER-XL: ATTENTIVE LANGUAGE MODELS BEYOND A FIXED-LENGTH CONTEXT

https://arxiv.org/abs/1901.02860

通常は短い固定長しか扱えないTransformer Encoderで文書全体を参照させる研究。一定以上古い部分はGradientをとらずパラメータ参照のみさせることによって、文章全体(固定長以上)を使った予測値を算出いできるようにす。オリジナルのTransformerより450%、RNNより80%長期依存を学習できるようになった。

2–2.ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE

https://openreview.net/forum?id=B1x8anVFPr

Transformer EncoderのLayer Normの位置をskip connectionの加算後からMulti head Attention(or FFN)の前に配置することによって、学習初期の勾配が爆発することがなくなり、warm upが不要になる。

2–3.COMPRESSIVE TRANSFORMERS FOR LONG-RANGE SEQUENCE MODELLING

https://openreview.net/forum?id=SylKikSYDH

Attentionを再現するように過去の系列を圧縮することで、メモリ容量を超えた時系列を学習できるようにしたcompressive Transformerを提案。ベースはTransformer-XLで、ある程度過去になったら圧縮をかける。圧縮方法は色々な手法があるが、Attentionを再現できるようにConv1Dで圧縮する手法が一番よかった。実際、過去の圧縮された情報へのAttention Weightは大きくなっており、その情報が有効活用されていることがわかる。また、Learning rateを下げる手法はあまり良くなく、optimizationの頻度を下げる(バッチサイズをあげる)手法がCompressive Transformer, Transformer-XL両方で有効だったと書いてある。

2–4. Single Headed Attention RNN: Stop Thinking With Your Head

https://arxiv.org/abs/1911.11423

単一ヘッドのAttentionとLSTMを組み合わせ、1GPU/dayでTransoformerr-XLに匹敵するスコアを出す研究。軽口が多く、学術論文というよりブログポストに近いが、BERTなどの大規模モデルを1GPU/dayでやっつけてやろうという著者の気概は伝わってきて個人的には好き。

3.物理・数学とML

物理や数学などの自然科学分野と機械学習への融合も進んだようです。そのままデータをモデルに入れるのではなく、モデルやデータに物理的な制約をかけることを肝としている研究が多いように思います。数式を解けるDEEP LEARNING FOR SYMBOLIC MATHEMATICSや物理法則を見つけられるAI Feynmanは個人的にかなり衝撃でした。

3–1. Ab-Initio Solution of the Many-Electron Schrodinger Equation with Deep Neural Networks

https://arxiv.org/abs/1909.02487

量子化学計算をNNで行うというFermi Netを提案。量子化学計算は波動関数の最適化をエネルギー最小化を介して行うが、波動関数の近似をNNが担っている。HF近似、スレーター行列式、反対称性など物理的な制約をかなり組み込んでおり、エネルギー計算も物理的な計算によって算出する。従来は系によって手法を変えなければならなかったがFermi Netはどの系でも良い結果を出せるため手法を変える必要がなくなるかもしれない。

以前書いた解説記事はこちら

3–2. Newton vs the machine: solving the chaotic three-body problem using deep neural networks

https://arxiv.org/abs/1910.07291

解析的には解けない三体問題の物理シミュレーションをニューラルネットで近似すると上手くいったという研究。シミュレーション環境は限定的(平面環境下で、3つのうち実質任意に初期位置が変わるのは1つのみ)だが、物理シミュレーションへの適用可能性を感じる。これができると超大型モデルの相互作用を考えたエネルギーを高コスト計算する必要がなく、エネルギーの計算が一瞬でできるので、ブラックホールや高密度星団のシミュレーションができるようになるようだ。

以前書いた解説記事はこちら↓

3–3.DEEP LEARNING FOR SYMBOLIC MATHEMATICS

https://arxiv.org/abs/1912.01412

シンボル形式のまま数式の積分をする研究。数式を木構造に分解し、seq2seqでそれぞれのシンボルが出る確率を算出する言語モデルとして解く。かなり複雑な積分の問題も解けており、MathmaticaやMatlabを超える精度を出している。データセットは自前で用意する必要があるので、定数c1,c2に依存するxの関数fをランダムで作成し、図の要領で2次の微分f’’とf(もしくはx)に関する数式を出力してデータセットを作る。

3–4.Hamiltonian Graph Networks with ODE Integrators

https://arxiv.org/abs/1909.12790

直接物体の運動量・移動量変化をNNで予測するのではなく、ハミルトニアン(H)を介して計算させるHOGNを提案。HOGNはHという制約を介して物理モデルを学習していると解釈でき、軌道予測の精度が改善する。

以前書いた解説記事はこちら↓

3–5. AI Feynman: a Physics-Inspired Method for Symbolic Regression

https://arxiv.org/abs/1905.11481

物理の数式をデータから見つけるという研究。ポイントは、次元解析、無次元量化、並進対称性をもとに分解、などすることによって、問題を簡単にすること。

まず次元解析や、無次元化した量による多項式フィッティングを行う。次に、Brute forceという手法で各量の組み合わせを評価し、解けるかを確かめる(Brute forceというのは、それっぽいもので絨毯爆撃をする手法で、ここでは足したり引いたりルートをとったり、をして解けるかを確かめている)。それでも解けない場合はNeural Netで並進対称性があるかを確かめるなどして問題を単純にした後に再び次元解析等から挑戦し直す。

以前書いた解説ブログはこちら↓

4.深層学習の解析

宝くじ仮説の後続研究と、ディープラーニングの汎化性能は隠れ層におけるマージンと相関があるという研究はわりと注目研究かなという気がします。また、未知データにおける性能の落ち込みに対する研究がいくつか出ています。SOTA争いのように華がある分野ではないですが、どう汎化させるかという課題は社会実装において重要です。

4–1.One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers

https://arxiv.org/abs/1906.02773

良い初期値のみがネットワークの性能を左右するという”宝くじ仮説”において、良い初期値は、データセットを変えても良い初期値であるという結果。モデル、データセット、Optimizerを変えて実験しているが、けっこう転移できる。CIFAR10の半分で選んだ初期値をImageNetやSVHN等でも活用できる。大きなデータセット、多様なクラスをもつデータセットの初期値の方がより性能が良い。

4–2.Rigging the Lottery: Making All Tickets Winners

https://arxiv.org/abs/1911.11134

一部の初期値のみが精度に寄与し、その初期値のみで学習すると疎なネットワークでも最初の密なネットワークと同等程度の精度が出せるという”宝くじ仮説”において、どのような初期値でも最初から疎で高精度なネットワークを学習させるThe Rigged Lottery (RigL)を提案。『疎なNNで学習→パラメータが小さい部分を削除→Gradientが大きい部分をつなぐ』という操作を繰り返して学習する。学習時間もそれほど伸びていない(1.2~2倍程度)にも関わらず、疎化によって推論速度は大幅に向上し、精度も落ちるどころか上がっている。

4–3.When Does Label Smoothing Help?

https://arxiv.org/abs/1906.02629

[0,1]等one-hotのhard targetの代わりに、[0.9,0.1]等のsoft targetを用いるラベル平滑化の効果について調べた研究。同じラベルのデータの分布範囲を小さくする効果があるので言語モデル/分類問題に対しては有効。しかし、そのおかげで似ているクラスとの類似性情報が消えるので、それを使ったネットワークを蒸留すると精度が下がる。

4–4.ENTROPY PENALTY: TOWARDS GENERALIZATION BEYOND THE IID ASSUMPTION

https://arxiv.org/abs/1910.00164

SOTA手法が実データセットだとスコアが低くなる問題に関して、trainとtestで共通する非有用な特徴まで学習しているからだと主張。Information Bottleneckの枠組みを用いて、1層目の各チャネル・各ラベルの平均値からのズレにペナルティをかける正則化項を追加するEntropy Penaltyを提案。色合いがtrain,testで異なるC-MNISTで有意に改善。

4–5. BENCHMARKING NEURAL NETWORK ROBUSTNESS TO COMMON CORRUPTIONS AND PERTURBATIONS

https://arxiv.org/abs/1903.12261

ICRL2019 Best Paperの1つ。画像の汚染と摂動に対するAlexNetをベースラインとした評価指標と評価用データセットを提案。綺麗なデータと比較した場合の精度の落ち込み度をAlexネットと比較したものをスコアにする。著者らがいうには、ヒストグラム平坦化、multi scaleで画像を取り込む手法(MSDNetsw等)や複数の特徴を取り込む手法(DenseNet, ResNext等)が頑健性に対して良いらしい。

以前勉強会で発表した資料 はこちら↓

https://www.slideshare.net/AkihiroFujii2/190602-benchmarking-neural-network-robustness-to-common-corruptions-and-perturbations-148114898

まとめ

今回のブログでは、NLP、自然科学分野、DLの解析関連を主に紹介しました。来週は下記のようなテーマで2019年の面白かった論文一覧を投稿しますので、よろしければまたご覧ください。

  • Part 1 : 画像・動画系と学習の工夫関連(1/9に投稿)
  • Part 3 : GAN、実社会応用、その他分野(1/25までに投稿予定)

Twitter , 一言論文紹介とかしてます。

Data Scientist (Engineer) in Japan Twitter : https://twitter.com/AkiraTOSEI LinkedIn : https://www.linkedin.com/mwlite/in/亮宏-藤井-999868122