勾配降下法

この手法は、一般的な関数 $g$ に対し、その最適解（最小解） をボールが坂道を転げ落ちて最も低い位置に落ち着くのと同じような原理を用いて求める手法と思ってもらうとイメージがし易いのではないかと思います。

$g$ は何次元の関数でも問題ないのですが、イメージし易いように、3次元空間上の表面を表す2変数1値関数 $z = g(x,y)$ という関数で解説します。

まず、 $x-y$ 平面を地表にはり、地球の中心から遠ざかる向きに $z$ 軸をとります。

この座標上に

$z = g(x, y)$

という曲面をはり、任意の場所にボールをおいた場合、このボールは重力により、最も低い位置に向かおうとします。

これをプログラミング的にシミュレートします。まず、任意の位置 $(x_0,y_0)$ および $z_0=f(x_0,y_0)$ をとります。ここで、ここでの曲面の傾き（ $z$ の微小変化）を偏微分を用いて求めます。

$\delta z = \frac{\partial g}{\partial x} \delta x + \frac{\partial g}{\partial y} \delta y$

このとき $z$ を最小に向かう方向に $x,y$ を動かしていきたいので $\delta z \le 0$ となるように $\delta x, \delta y$ を選ばなければなりません。従って、 $\frac{\partial g}{\partial x}(x_0, y_0), \frac{\partial g}{\partial y}(x_0, y_0)$ の符号と逆になる方向にそれぞれ $\delta x, \delta y$ を選ぶようにして、次の点を $(x_1,y_1) = (x_0 + \delta x, y_0 + \delta y)$ と決めます。 $\delta x, \delta y$ の符号の決め方は決まったとしても、 $|\delta x|,|\delta y|$ をどのように選ぶかが決まっていないと思うかもしれませんが、実はこれは適当に選んでもらってかまいません。（ただし各成分の大きさはそれぞれの傾きに比例させる）実際、ボールは連続的に低い方に動いていくわけですが、プログラミング的にはこれをコマ送りするような形になります。コマ送りの間隔をどのように選ぶかについては、トレードオフがある話ですので、バランスのとれた適当なところにする必要があります。大きすぎると最小値に収束せずに、発散してしまい、小さすぎると、（最小値を求めるための）処理速度が著しく悪化するということになるためです。あえて表現するならば、可能な限り小さく ということになります。

あとは、これを繰り返していけば、いずれ十分に大きな数 $n$ 回目には $\frac{\partial g}{\partial x}(x_n, y_n) = \frac{\partial g}{\partial y}(x_n,y_n) \simeq 0$ となり、その時の $z_n = g(x_n,y_n)$ が最小値となるという算段です。

具体的に解を求める（＝深層学習により最適関数を求める)

勾配降下法を理解したところで、ディープラーニングに戻って、勾配降下法を用いて、関数 $f$ を求めてみましょう。

n組の学習用サンプリングデータ（教師データとも言う）を

$(\mbox{入力},\mbox{出力}) = (x_j, y_j) \quad (0 \le j \le n-1)$

として

$y = f(x)$

という関数が、サンプリングデータから得られる最も適切な関数であるということは、いったいどのような状態のことでしょうか。

それは

$z = \sum_{j=0}^{n-1} |y_{j} - f(x_{j})|$

が最も低い値（ $\ge0$ ）を取る時の $f$ となります。

難しく聞こえそうな表現を使っていますが、仮に $\forall j$ において

$y_j = f(x_j)$

となる場合（すなわち少なくともサンプリングデータと同じ入力に対しては、近似解ではなく、理想解を出力できる場合ということ）、この $f$ はこれ以上ない形で最適になるわけですが、実際

$z = \sum_{j=0}^{n-1} |y_j - f(x_j)| = \sum_{j=0}^{n-1} 0 = 0$

となることから想像すれば、 $f(x_j)$ が $y_j$ に近ければ近いほど $z$ が小さくなることも想像できると思うので、この関数の $z$ の最小値を求めるということが最適な $f$ を求めるということと同値になります。

今、

$f(x) = \sum_{i=0}^{l-1} u_i \sigma(w_i x + b_i) \qquad$

として、

$z = \sum_{j=0}^{n-1} |y_j - f(x_j)|$

の $z$ が最小となる時の $u_i,w_i,b_i$ を求めたいので、これは

$z = \sum_{j=0}^{n-1} |y_j - f(x_j)| = C(u_{0},...,u_{l-1},w_{0},...,w_{l-1},b_{0},...,b_{l-1})$

という $3 * l$ 個の変数の多変数一値関数の最小値およびその時の

$(u_{0},...,u_{l-1},w_{0},...,w_{l-1},b_{0},...,b_{l-1})$

を求めることと同義になるのです。

ちょっと混乱しそうなので、整理しておきましょう。

関数	変数	説明
$y=f(x) = \sum_{i=0}^{l-1} u_i \sigma(w_i x + b_i)$	$x,y$	求めたい関数。 $u_i,w_i,b_i$ は最終的には定数となる
$z = C(u_0,.,u_{l-1},w_0,.,w_{l-1},b_0,.,b_{l-1})$ $= \sum_{j=0}^{n-1} \|y_j - f(x_j)\|$	$u_i,w_i,b_i$ (3* $l$ 個),z	上段の $f$ を求めるために導入したコスト関数。 $x_j,y_j$ は定数

この関数 $C$ の最小値およびその時の $u_i,w_i,b_i$ を先に解説した勾配降下法により求めてやれば良いのですが、あまりに変数が多く、記述が煩雑になるため、 $l = 1, n = 1$ の場合（すなわち隠れ層のニューロンが1つ、サンプリングデータの数も1つ）を解説します。

さらに、計算を簡単にするために、コスト関数である $C$ の形を少し変形します。 $C$ はサンプリングデータ $x_j$ を $f$ に代入して得られる値 $f(x_j)$ と $y_j$ の距離をサンプリング数分、合算して得られる値（>0）として定義されていますが、この距離は一般的な（ユークリッド幾何学上の）距離である必要はなく、数学的な 距離関数 の定義を満たしていれば、問題ありません。（学習速度を高めるためにはこの関数を適当に選ぶことが極めて重要になってきますが、ここでは原理を説明するために、最も微分がし易い距離関数を選びます）

ということで、以下のように設定を変更します。

関数	変数	説明
$y=f(x) = u \sigma(w x + b)$	$x,y$	求めたい関数。 $u,w,b$ は最終的には定数となる
$z = C(u,w,b) = \frac{1}{2}(y_0 - f(x_0))^{2}$	$u,w,b,z$	上段の $f$ を求めるために導入したコスト関数。 $x_0,y_0$ は定数
$z = C(u,w,b) = \frac{1}{2}(y_0 - u\frac{1}{1 + e^{w x_0 + b}})^{2}$	$u,w,b,z$	$C$ に $f,\sigma$ を代入して展開したもの

この時

$\frac{\partial C}{\partial u} = (y_0 - u\frac{1}{1 + e^{w x_0 + b}}) \cdot (-\frac{1}{1+e^{wx_0 + b}})$ $\frac{\partial C}{\partial w} = (y_0 - u\frac{1}{1 + e^{w x_0 + b}}) \cdot (\frac{u}{(1+e^{wx_0 + b})^{2}})\cdot (e^{wx_0 + b}) \cdot x_0$ $\frac{\partial C}{\partial b} = (y_0 - u\frac{1}{1 + e^{w x_0 + b}}) \cdot (\frac{u}{(1+e^{wx_0 + b})^{2}})\cdot (e^{wx_0 + b})$

となり、これらは、関数としてプログラミング可能であることがわかります。

では、実際にディープラーニングさせるためのプログラムを組んでみましょう。まず、 $u,w,b$ はひとまとまりで扱っていきたいので構造体を定義します。

class UWB {
	double u;
	double w;
	double b;
}

また上記で示した偏微分関数を次のとおり定義します。

double partialCbyU(UWB uwb);
double partialCbyW(UWB uwb);
double partialCbyB(UWB uwb);

この時任意の点 $u,w,b$ からほんのすこし坂道を転げ落ちたときの点は、次の関数で求められます。

UWB next(UWB uwb, UWB delta) {
	UWB nextUWB = new UWB();
	nextUWB.u = uwb.u + ((partialCbyU(uwb) > 0)?-1:1)*delta.u;
	nextUWB.w = uwb.w + ((partialCbyU(uwb) > 0)?-1:1)*delta.w;
	nextUWB.b = uwb.b + ((partialCbyU(uwb) > 0)?-1:1)*delta.b;
	return newxtUWB;
}

この関数を繰り返し呼び出せばよいのですが、そのままでは永久ループしてしまうので、収束をプログラミング的に表現してあげなければなりません。それは、次のようになります。

static final double EPSILON = 0.0001;//適当な小さい値
boolean isSmallEnough(UWB delta) {
	return (delta.u * delta.u + delta.w * delta.w + delta.b * delta.b) < EPSILON * EPSILON ; 
}
UWB diff(UWB uwb0, UWB uwb1) {
	UWB uwb=new UWB();
	uwb.u=uwb0.u - uwb1.u;
	uwb.w=uwb0.w - uwb1.w;
	uwb.b=uwb0.b - uwb1.b;
	return uwb;
}
UWB nextDelta(UWB diff, UWB nextDiff) {
	UWB nextDelta=new
	UWB(); //差の符号が逆向きになったということは、最下点を通り過ぎて振り子が帰ってきたということ。次の振れ幅を半分にする nextDelta.u=(diff.u *
	nextDiff.u> 0)?nextDelta.u:nextDelta.u / 2;
	nextDelta.w = (diff.w * nextDiff.w > 0)?nextDelta.w:nextDelta.w / 2;
	nextDelta.b = (diff.b * nextDiff.b > 0)?nextDelta.b:nextDelta.b / 2;
}

UWB findMinimumC(UWB initialUWB, UWB initialDelta) {
	UWB uwb = initialUWB;
	UWB delta = initialDelta;
	UWB diff = delta;
	while (!isSmallEnough(delta)) {
		UWB nextUWB = next(uwb, delta);
		UWB nextDiff = diff(uwb, nextUWB);
		delta = nextDelta(diff, nextDiff);
		diff = nextDiff;
		uwb = nextUWB;
	}
	return uwb;
}

初期値として適当な $u,w,b$ を選びfindMinimumC関数を呼び出し、この時戻り値として戻ってくるUWBオブジェクトの $u,w,b$ を $f(x)$ に代入してあげれば、それが深層学習を終えた最適な関数となります。（上記コードは動作原理を説明するためのものであり、動作を保証するものではありません。）

研究開発

勾配降下法

勾配降下法

具体的に解を求める（＝深層学習により最適関数を求める)