Python/Numpyで機械学習の最適化!AdaGradを実装

  • このエントリーをはてなブックマークに追加

機械学習にはコスト関数の極小値を探すために、様々な最適化手法が考案されています。ここでは学習が進むにつれ学習率が調整されていくAdaGradをPythonのnumpyで実装する方法を学びます。

こんにちは。wat(@watlablog)です。ここでは機械学習の最適化手法であるAdaGradを習得することを目標とします

AdaGradの概要

勾配降下法派生手法のおさらい

機械学習はコスト関数(損失関数、誤差関数とも呼ぶ)を最小化するように各重みベクトルを更新していく学習スタイルをとるものがあります。

この時、最も簡単な更新式は勾配降下法と呼ばれる手法で、関数の勾配情報を使って山を下っていくように極小値を探していく特徴を持ちます。

関数の最小値問題や勾配降下法については「Pythonで1変数と2変数関数の勾配降下法を実装してみた」に詳細を記載しましたので、よかったらそちらの記事も読んでみて下さい。

単純な勾配降下法は学習率が終始一定で、緩やかな勾配にさしかかったらすぐに変化量が小さくなる等の融通の利かなさがありました。

勾配降下法に慣性項を追加するMomentumをPythonで実装」で紹介したMomentumは更新式に慣性項を追加することでより滑らかな変化をするようになりました。

AdaGradの更新式

AdaGradも学習の進捗によって重みの更新量を変化させ、より最適解に辿り着きやすくするよう改善された手法(2011年にDuchiらにより提唱された)です。

AdaGradの更新式を式(1)と式(2)に示します。

$$\mathbf{h}_{i+1}=\mathbf{h}_{i}+ (\nabla f)^{2} (1)$$
$$\mathbf{x}_{i+1}=\mathbf{x}_{i}-\eta \frac{1}{\sqrt{\mathbf{h}_{i+1}}} (\nabla f) (2)$$

ここで、最終的な更新式は式(2)となりますが、式(1)の\(\mathbf{h}\)が学習率の後にかかり、平方根で分母に来ています。

\(\mathbf{h}\)は必ず増分するように更新されていくため、この式は学習が進捗していけば各重み毎に学習率が変化することを意味します。

AdaGradのAdaとは、Adaptive(適応的)から来ており、この各重みに適応して学習率が変化するというのが主な改善内容です。

AdaGradのメリットとデメリット

Momentumは慣性項と、加算の形で前の更新量の影響を現段階の更新量に反映していますが、学習率は一定のままです。

そして、Momentumは学習率\(\eta\)と慣性係数\(\alpha\)の2つのハイパーパラメータ(エンジニアが事前に調整すべきパラメータ)を持っており、調整が困難であるというデメリットがありました。

対しAdaGradは学習率\(\eta\)だけがハイパーパラメータなので(\(\mathbf{h}\)は勾配から自動的に定まるため)、調整はMomentumと比較すれば容易になります。

このように、学習の進捗によって学習率を適応的に変化させること、ハイパーパラメータが少ないということの2つがAdaGradの主なメリットです。

しかし、AdaGradは学習が進むにつれ、学習率が減少する方向にしか変化しないというのが最大のデメリットで、最適解に届かないで学習が終了してしまう可能性も大いにあります。

巷では「これを使っておけば大丈夫という最適化手法は無い!」と言われています。この辺の選択は本当に難しい所ですね!

Python/NumpyによるAdaGradの実装コード

Advertisements

全コード

以下に全コードを示します。今回も過去同様、これまでの最適化手法と挙動を比較していきます。勾配は理論値として式(3)を用意しました。

$$z=\frac{1}{4}x^{2}+y^{2} (3)$$

実行結果

以下が実行結果です。
AdaGradはGDやMomentumと比べ最初から最適解に向かって降下している結果を得ました。

AdaGradとGD、Momentumの比較

疑問点

以下は「勾配降下法に慣性項を追加するMomentumをPythonで実装」と同じようにGIF動画にしてみた結果で、確かに重み毎に学習率が調整されるAdaGradとしては欲しかった挙動です。

実行結果の動画

しかし、ここで疑問点。

コード内ではAdaGradだけ\(\eta=2\)としている所にお気付きでしょうか?こうしなかったら更新が遅すぎて全然最適解に行きませんでした。こんなもんなのでしょうか?(式が間違っている?)

てっきり学習率は同じにしても他の手法と比べ改善がみられるような点があると思っていましたが、通常\(\eta=2\)なんて使うかどうか疑問に感じました…。

ちなみに、以下の動画がAdaGradの学習率をGDやMomentumと同じ\(\eta=0.1\)にしたもの。

方向は良いのですが、非常にじれったい。これがハイパーパラメータの調整というものなのでしょうか(ちょっと不安)。

実行結果の動画(eta=0.1)

まとめ

本記事では勾配降下法(GD)、Momentumに引き続き、AdaGradをNumpyで書いてみました。まだまだ手探りで「ゼロつく(書籍)」のようにかっこよく書いたりは出来ませんでしたが、それぞれ狙った動きはしているのかなという所感です。

AdaGradは各重み毎に学習率を調整し、さらにハイパーパラメータが1つしかないというメリットがあることがわかりました。

まだ理解はあやしいので、以下の「ゼロから作るDeep Learning」を読み込んでいく必要があると感じました。

―Pythonで学ぶディープラーニングの理論と実装

最後は少し疑問点が発生し、だんだん難しくなってきたようですが、更新式を〇〇したらどういう挙動になるか…というのが少し見えて来ました!
Twitterでも関連情報をつぶやいているので、wat(@watlablog)のフォローお待ちしています!

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。

コメントを残す

*