ランダム近似：ロビンズ - モンロアルゴリズム

参考論文は以下の通りです：
Robbins, Herbert, and Sutton Monro. "A stochastic approximation method." The annals of mathematical statistics (1951): 400-407.

問題定義#

関数 $M(x)$ の表現は不明です。与えられた $x$ 値に対して、対応する $M(x)$ の正確な値を観測することはできません。なぜなら、私たちの観測にはしばしばノイズが含まれているからです。これをランダムと呼びます：

y = M(x) + \varepsilon

私たちは、ノイズがあっても得られた観測値 $y$ には追跡可能なパターンがあると考えています。これは確率分布 $Y=Y(x)$ に従います。その累積分布関数（または確率分布関数、分布関数）は次のように表されます：

H(y|x) = {\rm Pr}(Y(x)\leq y)

そして、確率変数 $Y(x)$ の期待値は真の値 $M(x)$ と等しいことが満たされます：

M(x) = \int_{-\infty}^\infty y~{\rm d}H(y|x)

関数 $M(x)$ の正確な表現が不明であるにもかかわらず、私たちはしばしば方程式 $M(x)=\alpha$ の根（ここで $\alpha$ は定数）を求める必要があります。

便宜上、関数 $M(x)$ が単調であると仮定します。これにより、方程式 $M(x)=\alpha$ には唯一の根が存在し、これを $x=\theta$ と記します。 $M(x)$ が不明であるため、 $\theta$ も私たちにとっては未知です。

Robbins - Monro アルゴリズムは、既存の観測値を利用して、逐次的な反復近似を通じて「曲線救国」を実現し、根を求める最終目的を達成します。

方程式の根を求める問題は、関数の零点問題に容易に変換できます。
Robbins - Monro アルゴリズムの核心的な考え方は、現在の関数の値を利用して関数の零点の位置を推測することです。

Robbins - Monro アルゴリズム#

Robbins - Monro アルゴリズムは反復的な根を求めるアルゴリズムです。 $M(x)$ が不明であるため、ニュートン法を使用することはできません。たとえ $M^\prime(x)$ の表現がわかっても、ニュートン法を適用しても収束するとは限りません。

アルゴリズムの結論を紹介する前に、重要な前提を示します：観測値 $y$ は有界であること。これはアルゴリズムが成立する基礎です。実際の使用において、この前提は一般的に満たされます。
数学的に表現すると、確率分布 $Y(x)$ に対して、 ${\rm Pr}(|Y(x)|\leq C) = \int_{-c}^c ~{\rm d}H(y|x) = 1$ が常に成り立ちます。

Robbins - Monro アルゴリズムの反復公式を直接示します

x_{n+1} = x_n + a_n(\alpha - y_n)

注意すべきは、定数 $\alpha = 0$ の場合、反復公式は $x_{n+1} = x_n-a_ny_n$ と書けることです。

では、反復系列 $\{a_n\}$ はどのように選択すべきでしょうか？

反復ステップ長系列 $\{a_n\}$ は非負の系列であるべきで、次の条件を満たす必要があります：

\lim\limits_{i\rightarrow\infty} a_i = 0, \quad\sum\limits_{i=1}^\infty a_i = \infty，\quad\sum\limits_{i=1}^\infty a_i^2 \lt \infty

これにより、アルゴリズムが収束し、誤差が制御可能であることが保証されます。

私たちは $a_n = \frac1n$ を上記の条件を満たす系列として選びます。実際、すべての形が $\frac{c^\prime}{n}\leq a_n\leq \frac{c^{\prime\prime}}{n}$ である系列も条件を満たします。ここで $c^\prime, ~c^{\prime\prime}$ は正の実数定数です。このような系列を、 $\frac1n$ 型系列と呼びます。

定理：もし系列 $\{a_n\}$ が $\frac1n$ 型系列であり、 $M(x)$ が単調非減少で、方程式 $M(x) = \alpha$ が唯一の根 $\theta$ を持ち、導関数 $M^\prime(\theta)>0$ が成り立つならば、Robbins-Monro アルゴリズムは有効です。反復近似によって得られた根 $x_n$ は確率的に真の根 $\theta$ に収束します。

直感的理解#

前述のように、方程式の根を求める問題は関数の零点問題に変換でき、Robbins - Monro アルゴリズムは現在の関数の値を利用して関数の零点の位置を推測します。

もし関数が非減少関数で、関数の値が正であれば、次の反復では負の修正が必要です（関数の値が 0 に近づくように）。逆に、関数の値が負であれば、正の修正が必要です。

関数の値は最終的に 0（零点）に近づく必要があるため、反復ステップも徐々に小さくなり、最終的には 0 に近づく必要があります。また、収束を確保するために、累積の分散は有限であるべきです。

アルゴリズムの証明#

アルゴリズムが成立するためには、反復で得られた根 $x_{n}$ が確率的に真の根 $\theta$ に収束する必要があります。
数学的に表現すると、 $n\rightarrow \infty$ のとき、 $\mathbb P(|x_n-\theta|\lt\varepsilon|x_{n-1})\rightarrow 1$ または $\mathbb P(|x_n-\theta|\gt\varepsilon|x_{n-1})\rightarrow 0$ であり、ここで $\varepsilon$ は任意の正の実数です。

確率的収束の十分条件から始めます。 $\lim_{n\rightarrow\infty}\mathbb E(x_n-\theta)^2=0$ は確率的収束の一つの十分条件です。

二次モーメントの極限が 0 であるとき、分散の非負性と結びつけると、 $Var(x_n-\theta) = \mathbb E(x_n-\theta) = 0$ となります。そしてチェビシェフの不等式により、確率的収束の条件が成立することが保証されます。

十分条件と必要条件：
A があれば B がある、したがって A は B の十分条件です。
A がなければ B がない、したがって A は B の必要条件です。

チェビシェフの不等式 Chebyshev's Inequality

$\mathbb P(|X-\mathbb E[X]|\geq b)\leq \frac{Var[X]}{b^2}$

したがって、私たちはただ $\lim_{n\rightarrow\infty}\mathbb E(x_n-\theta)^2=0$ を証明すればよいのです。

反復方程式に基づいて、次のように列挙します：

\begin{align*} \mathbb E [(x_{n+1}-\theta)^2] &= \mathbb E[\mathbb E[(x_{n+1}-\theta)^2|x_n] ]\\ &=\mathbb E\left[\int_{-\infty}^\infty (x_n+a_n(\alpha-y)-\theta)^2 ~{\rm d}H(y|x_n) \right] \\ &=\mathbb E\left[\int_{-\infty}^\infty \left((x_n-\theta)^2 +2(x_n-\theta)a_n(\alpha-y_n) + a_n^2(\alpha-y_n)^2 \right) ~{\rm d}H(y|x_n) \right] \\ &= \mathbb E[(x_n-\theta)^2]-2a_n\mathbb E[(x_n-\theta)(M(x_n)-\alpha)] + a_n^2\mathbb E\left[\int_{-\infty}^\infty (\alpha-y)^2~{\rm d}H(y|x_n)\right] \end{align*}

ここで $\mathbb E(\mathbb E(X)) = \mathbb E(X)$

上式の記号をいくつか置き換え、式を簡略化します。

\begin{align*} & b_n = \mathbb E[(x_n-\theta)^2]\\ & d_n = \mathbb E[(x_n-\theta)(M(x_n)-\alpha)]\\ & e_n = \mathbb E\left[\int_{-\infty}^\infty(\alpha -y)^2~{\rm d}H(y|x_n)\right] \end{align*}

したがって、上式は $b_{n+1}-b_n = 2a_nd_n - a_n^2e_n$ と書けます。

私たちは $M(x)$ が単調であると仮定しました。さらに進めて、単調非減少であるとしましょう。
容易に得られます：

\begin{align*} d_n &= \mathbb E[(x_n-\theta)(M(x_n)-\alpha)] \\ &= (x_n-\theta)(M(x_n)-\alpha) \\ &\gt 0 \end{align*}

観測値 $y$ は有界であるため、 $e_n$ も有界です。

\begin{align*} e_n \leq (C+|\alpha|)^2 \lt\infty \end{align*}

$b_{n+1}-b_n = 2a_nd_n - a_n^2e_n$ を合計すると、次のようになります。

b_{n+1} = b_1+\sum_{j=1}^n a_j^2e_j-2\sum_{j=1}^n a_j d_j

$b_{n+1} = \mathbb E [(x_{n+1}-\theta)^2] \geq0$ であるため、

\begin{align*} \sum_{j=1}^n a_jd_j \leq \frac12\left( b_1+\sum_{j=1}^n a_n^2 e_n \right) \lt \infty \end{align*}

したがって、正項級数 $\sum_1^\infty a_nd_n$ は収束します。

したがって、極限 $\lim_{n\rightarrow\infty} b_n = \lim_{n\rightarrow\infty}\mathbb E(x_n-\theta)^2$ は必ず存在します。

補題 1 非負定数系列 $\{k_n\}$ が $d_n\geq k_nb_n, \sum_{n=1}^\infty a_nk_n=\infty$ を満たすならば $\lim_{n\rightarrow\infty}\mathbb E(x_n-\theta)^2=0$ が成り立ちます。

すでに証明したように、 $\sum_{n=1}^\infty a_nd_n$ は収束し、また $\sum_{n=1}^\infty a_nd_n \geq \sum_{n=1}^\infty a_nk_nb_n$ が成り立つため、級数 $\sum_{n=1}^\infty a_nk_nb_n$ は収束するはずです。しかし、 $\sum_{n=1}^\infty a_nk_n$ は発散するため、必ず $\lim_{n\rightarrow\infty}b_n=0$ となります。

Robbins-Monro アルゴリズムの再帰公式 $x_{n+1} - x_n = a_n(\alpha - y_n)$ に基づき、観測値が有界であることを考慮し、再帰公式を結びつけて定義します。

|x_n-\theta| \leq A_n = |x_1-\theta| + (C+|\alpha|)(a_1+a_2+\cdots+a_{n-1})

得られるのは ${\rm Pr}(|x_n-\theta|\leq A_n) = 1$ です。次に

\overline k_n = \inf\left\{ \frac{M(x)-\alpha}{x-\theta} \right\}， \quad {\rm for} \quad 0 \lt|x-\theta|\leq A_n

前述のように、関数が単調非減少であると仮定したため、 $\overline k_n\geq0$ が成り立ちます。したがって

d_n=\int_{|x-\theta|\leq A_n}(x-\theta)(M(x)-\alpha)~{\rm d}P_n(x)\geq \int_{|x-\theta|\leq A_n}\overline k_n(x-\theta)^2~{\rm d}P_n(x) = \overline k_n b_n

仮定：正常数 $K$ に対して、 $n$ が十分大きいとき

$\overline k_n\geq\frac K{A_n}$ ，かつ
$\sum_{n=2}^\infty \frac{a_n}{(a_1+\cdots+a_{n-1})} = \infty$

明らかに得られるのは： $\sum_1^\infty a_n = \infty$ したがって、 $n$ が十分大きいとき：

A_n = |x_1-\theta| + (C+|\alpha|)(a_1+a_2+\cdots+a_{n-1}) \leq 2(C+|\alpha|)(a_1+a_2+\cdots+a_{n-1})

証明できますが、 $n$ が十分大きいとき

a_n\overline k_n\geq a_n\frac K{A_n}\geq \frac{a_nK}{2(C+|\alpha|)(a_1+a_2+\cdots+a_{n-1})}

すなわち $\sum_{n=1}^\infty a_nk_n=\infty$ が発散します。補題 1 から導きます：

補題 2 もし正常数 $K$ が存在し、 $n$ が十分大きいとき、 $\{\overline k_n\}$ と $\{a_n\}$ が次の仮定を満たすならば

$\overline k_n\geq\frac K{A_n}$ ，かつ
$\sum_{n=2}^\infty \frac{a_n}{(a_1+\cdots+a_{n-1})} = \infty$

必ず $\lim_{n\rightarrow\infty}b_n=0$ が成り立ちます

前述のように、 $a_n = \frac1n$ は条件を満たす $\{a_n\}$ 系列です。私たちはただ仮定条件を満たす $\{k_n\}$ が存在することを証明すればよいのです。

直感的に言えば、反復式中に $k_n$ の表現形式は存在しませんが、結論が明示的に $k_n$ に依存しないようにすることが重要です。補題 2 の導出過程で、 $k_n$ を $M(x)$ と関連付けたため、自然に $M(x)$ の性質に要求を提出することになります。

定理 1 $\{a_n\}$ が $\frac 1n$ 型系列であり、 $M(x)$ が次の条件を満たすとき：

M(x)\left\{ \begin{align*} &\leq \alpha - \delta && {\rm for}~~ x\lt\theta\\ &\geq \alpha+\delta && {\rm for}~~x\gt\theta \end{align*}\right. \quad {\rm for~some~}\delta\gt 0.

必ず $\lim_{n\rightarrow\infty}b_n=0$ が成り立ちます

補題 2 を用いてこの結論を証明できます。なぜなら

\frac{M(x)-\alpha}{x-\theta} \geq \frac\delta{A_n},\quad {\rm for}~~0\lt|x-\theta|\leq A_n

したがって $\overline k_n\geq \frac\delta{A_n}$ となり、 $K=\delta$ を取ると補題 2 が成立します。

定理 1 における $M(x)$ の制限条件は比較的強い（満たすのが難しい）ため、より緩やかな条件（満たしやすい条件）を得たいと考えています。

定理 2 関数 $M(x)$ が次の条件を満たすとき：

$M(x)$ は単調非減少である
$M(\theta) = \alpha$
$M^\prime(\theta)\gt 0$

必ず $\lim_{n\rightarrow\infty}b_n=0$ が成り立ちます

私たちは同様に補題 2 を用いて証明します。
まず：

M(x)-\alpha = (x-\theta)(M^\prime(x) + o(x-\theta))

ここで $o(x-\theta)$ は高次の無限小であり、仮定条件に基づき、関数のグラフを考慮すると容易に理解できます： $o(x-\theta) \geq 0$ 。明らかに、 $|x-\theta|\leq\delta$ のとき、常数 $\delta\gt0$ が存在し、 $o(x-\theta) \geq -\frac12M^\prime(\theta)$ となります。

したがって：

\frac{M(x)-\alpha}{x-\theta} \left\{\begin{align*} &\geq \frac{M(\theta+\delta)-\alpha}{A_n} \geq \frac{\delta M^\prime(\theta)}{2A_n} && {\rm for}~\theta+\delta\leq x\leq \theta+A_n \\ & = \frac{\alpha-M(x)}{\theta-x}\geq \frac{\alpha-M(\theta-\delta)}{A_n}\geq \frac{\delta M^\prime(\theta)}{2A_n} && {\rm for}~\theta-A_n\leq x\leq \theta-\delta \end{align*} \right.

$K=\frac{\delta M^\prime(\theta)}{2}\gt0$ を取ると、補題 2 が成立します。

これにより、定理が証明されました。