汎用関数

普遍性定理

「Deep Learning概論」でお話したとおり、理論的に多次元ベクトル関数 $f$ があれば自動運転の自動車は完成するのですが、これを少し抽象的に捉えると、「任意のデータサンプルからそのような出力（近似値）を得る多次元ベクトル関数を作り出すことは可能か」という命題に帰着することができます。

ニューラルネットワークによる比較的単純な関数を利用することで、それが可能であることが数学的に証明されています。これはある種の普遍性をもっており（任意の入力に対して任意の出力を返せる関数を作り出せるという点で）、普遍性定理と呼ばれています。

ハーン・バナッハの定理（関数解析学）
リースの表現定理（関数解析学）
フーリエ解析（解析学）

を使って証明するのですが、DeepLearningを理解するまたは使いこなすという立場からは、この厳密な証明の必然性は弱いので、ここでは直感的な理解のための説明をしたいと思います。（それでも多少の数学の知識は必要となります。）

まずは、一次元でこのこと（任意の関数を作り出せること）を確認します。一次元でこの普遍関数を理解できれば、線形代数の知識を使うことで多次元関数もその延長にあるということをイメージできるかと思います。

例えば、関数

$y = g(x) = 2x + 3$

を作りたいとします。

どうやってこの関数を作り出すのでしょうか。わかりやすく結論からいえば、

ステップ関数を重ねて作り出す

といことになります。

ステップ関数とは特定の定義域でのみ一つの値をとって、それ以外の定義域では0を返す関数のことです。

関数 $y=g(x)$ をステップ関数の和で表現するには

$h_0(x) = -7 \quad (\mbox{if}\quad -5 \leq x \leq \neq -4),\quad 0 \quad (\mbox{otherwise})$ $h_1(x) = -5 \quad (\mbox{if}\quad -4 \leq x \leq \neq -3),\quad 0 \quad (\mbox{otherwise})$ $h_2(x) = -3 \quad (\mbox{if}\quad -3 \leq x \leq \neq -2),\quad 0 \quad (\mbox{otherwise})$ $h_3(x) = -1 \quad (\mbox{if}\quad -2 \leq x \leq \neq -1),\quad 0 \quad (\mbox{otherwise})$ $h_4(x) = 1 \quad (\mbox{if}\quad -1 \leq x \leq \neq 0),\quad 0 \quad (\mbox{otherwise})$ $h_5(x) = 3 \quad (\mbox{if}\quad 0 \leq x \leq \neq 1),\quad 0 \quad (\mbox{otherwise})$ $h_6(x) = 5 \quad (\mbox{if}\quad 1 \leq x \leq \neq 2),\quad 0 \quad (\mbox{otherwise})$ $h_7(x) = 7 \quad (\mbox{if}\quad 2 \leq x \leq \neq 3),\quad 0 \quad (\mbox{otherwise})$ $h_8(x) = 9 \quad (\mbox{if}\quad 3 \leq x \leq \neq 4),\quad 0 \quad (\mbox{otherwise})$ $h_9(x) = 11 \quad (\mbox{if}\quad 4 \leq x \leq \neq 5),\quad 0 \quad (\mbox{otherwise})$

として

$y = h(x) = \sum_{i=0}^{9}h_i(x)$

と定義すると $h(x)$ はかなりラフでありますが、-5 <= x < 5でそれなり（最大誤差 $|2|$ ）に $g(x)$ に近い値をとる関数になります。

$y = g(x) = 2x + 3 \simeq h(x) = \sum_{i=0}^{9}h_i(x)$

もっと一般的な関数について考えてみましょう。

仮に $g$ が具体的にどんな関数かをしらずに $y = g(x)$ を満たす $x,y$ の組を10000個与えられたとします。
これを以下のとおり表現します。

与えられた10000個のデータを

$x_i, y_i \in \textbf{R} \quad (0 \leq i \leq 9999)$

として

$\forall i(0 \leq i \leq 9999), \quad x_i \leq x_{i+1},\quad y_i = g(x_i)$

とする（すなわち $x_i$ を昇順に並び替える）。

この時関数 $h_i (0 \leq i \leq 9999)$ を |

$h_i(x) = y_i \quad (\mbox{if} \quad x_i \leq x \leq x_{i+1}), \quad 0 \quad (\mbox{otherwise})$

と定義し

$h(x) = \sum_{i=0}^{9999}h_i(x)$

とすると、 $h$ が $g$ への近似関数になることはわかってもらえると思います。

このように、サンプリングデータから関数を作るプログラムは、比較的に簡単に実装可能ですが、この作り方によってできる関数 $h$ には重大な欠点があります。

それは $h$ それは、関数の実行速度です。単純に考えて、サンプリングデータが増えれば増えるほど、 $h$ 関数はその内部処理において条件分岐が比例して増えていきます。

この関数は1次元の関数でサンプリング数も1万程度なので、実際にこのようなやり方で関数を作ったとしても、それなりの速度で動くかもしれませんが、例えば画像データをサンプリングデータとして使う場合、入力データは100pixel*100pixelの比較的小さい画像でも、1万次元のベクトル値になり、10万枚の画像データを入力値で場合分けした場合、区分の場合分けは、 $100000^{10000}$ という天文学的数となり、その関数は実用的な速度で動作するとは思えません。

$h$ 関数を作り出す時の時間がそれなりにかかったとしても、 $h$ を使う時には高速に動作してほしいのです。

さらにこの手法は1次元の入力値の場合は比較的簡単に定義域を上記の手法で分割、well-definedな形で定義可能ですが、n次元になった場合には、サンプリングデータが存在しない定義域が発生してしまうため、この定義域に対する結果をどのように設定すべきかは簡単には決められません。

この問題を解決するのが、ニューラルネットワークをヒントに生まれた関数ということになります。

それは次のようなものです

$y = \sum_{i=0}^{l-1} u_i \sigma(h_i) \qquad \mbox{ただし}\sigma(h_i) = \frac{1}{1 + e^{-h_j}}$ $h_i = w_i x + b_i \qquad (i = 0 , \cdots , l-1)$

これはいわゆる隠れ層が1層で、 $l$ 個のニューロンを持つニューラルネットワークが作り出す関数です。この $w_i$ と $b_i$ と $u_i$ を調整することで任意の関数の近似関数が得られるということになります。

「なぜこの関数により任意の関数の近似関数が得られるのか」、「近似関数を得るための $w_i,b_i,u_i$ はどのように求めることができるのか」、を次回以降の記事で解説していきたいと思います。

研究開発

汎用関数

普遍性定理