指数分布族初探

論文を読んで指数型分布族に関連する内容を整理しました。正確ではないかもしれませんが、皆さんのご指導をお願い申し上げます。

指数分布族 Exponential Family は、指数族、指数族分布とも呼ばれ、統計学において最も重要なパラメータ分布族です。

指数型分布族を学ぶ際には、指数分布 Exponential Distribution と区別する必要があります。両者は同じものではありません。

「族」とは、英語で family と呼ばれ、通常は類似の特徴を持つ一群を指します。指数型分布族は、確率密度関数と確率分布関数が分布パラメータの変化に伴って変化する一群の分布です。

一般的な指数型分布族には以下が含まれます：
正規分布、カイ二乗分布、二項分布、多項分布、ポアソン分布、パスカル分布、 $\beta$ 分布、 $\Gamma$ 分布、対数正規分布など。詳細はウィキペディアの項目や知乎のコラムを参照してください。

指数分布族#

指数型分布族 exponential family の確率密度関数は以下の形を持ちます：

f_\mathbf{X}(x;\theta) = h(x)\exp\{\langle\eta(\theta), T(x)\rangle-A(\theta)\}

ここで、 $\theta$ は唯一のパラメータであり、上式を満たすすべての $\theta$ がパラメータ空間 $\Theta$ を構成し、対応するパラメータ分布族 $\{P_\theta:\theta\in\Theta\}$ は指数族です。ここでのパラメータ $\theta$ は狭義の実数に限らず、 $n$ 次元ベクトル $\theta\in \mathbb{R}^n$ であることにも注意が必要です。

パラメータ $\theta$ が変化すると、分布 $X$ の形態（確率密度関数、確率分布関数および対応するグラフ）も変化します。確率変数 $x$ は分布 $X$ に従います。関数 $T(x), h(x), \eta(\theta), A(\theta)$ はすべて既知の関数です。関数 $h(x)$ は非負関数です。

$h(x)$ は通常、基礎度量 base measure と呼ばれます。

$T(x)$ は十分統計量 sufficient statistic です。

$A(\theta)$ は累積量生成関数 cumulant generating function または対数配分関数（配分関数の対数） log-partition function とも呼ばれます。明らかに $A(\theta)$ は実値関数であり、実数を返します。

ここで、 $\eta(\theta)$ と $T(x)$ は実数またはベクトルである可能性があります。

定義式からわかるように、指数関数の性質により $\exp\{\cdot\} = e^{\{\cdot\}} > 0$ は非負です。したがって、指数族の支撑集は $h(x)$ のみに依存します。つまり、 $x$ のみに依存し、未知のパラメータ $\theta$ には依存しません。この点を利用して、非指数型分布族（例えば均一分布）を排除できます。

ここで、支撑集の概念を簡単に補足する必要があります。簡単に言えば、実値関数 $f$ に対して、 $f$ の支撑集は次のように定義されます：

$\text{supp}(f)=\{x\in X:f(x)\neq0\}$

支撑集は関数 $f$ の元の定義域 $X$ の部分集合です。詳細については、ウィキペディアの項目や CSDN ブログを参照してください。確率密度関数において、確率が非負であるため、確率変数の支撑集を次のように定義できます（見てください知乎のコラム）：

$\text{supp}(X) =\{x\in R : f_X(x)\gt 0\}$

いくつかの等価形式#

指数の演算則に基づき、等価変換を通じて指数族の 2 つの等価形式を示します：

$f_\mathbf{X}(x;\theta) = h(x)g(\theta)\exp\{\langle\eta(\theta), T(x)\rangle\}$

$f_\mathbf{X}(x;\theta) = \exp\{\langle\eta(\theta), T(x)\rangle-A(\theta)+B(x)\}$

対応する置換関係は： $-A(\theta) = \ln g(\theta)$ 、 $B(x)=\ln h(x)$

特に、 $Z(\theta) = \dfrac{1}{g(\theta)}$ と取ることで、非常に一般的な指数族の表現を得ることができます。ここで $Z(\theta)$ はこの分布の配分関数 partition function です。

f_\mathbf{X}(x;\theta) = \frac{1}{Z(\theta)}h(x)\exp\{\langle\eta(\theta), T(x)\rangle\}

規範形式#

上記の定義式において、 $\eta(\theta)$ はパラメータ $\theta$ に関する関数です。指数族においては、 $\eta(\cdot)$ が双射関数（すなわち一対一対応関数）であることを要求します。双射は関数が単調可微分であり、逆関数が存在することを意味します。

双射関数の特性を利用することで、指数族の形式を簡素化できます。 $\hat\theta = \eta(\theta)$ とし、この変換は可逆であるため $\theta = \eta^{-1}(\hat\theta)$ となります。したがって、次のようになります： $f_\mathbf{X}(x;\hat\theta) = h(x)\exp\{\langle\hat\theta, T(x)\rangle-A^\prime(\hat\theta)\}$

記号を等価に置き換えると、指数族の規範形式 Canonical Form は次のようになります：

f_\mathbf{X}(x;\theta) = h(x)\exp\{\langle\theta, T(x)\rangle-A(\theta)\}

更新されたこのパラメータ $\theta$ を指数族の規範パラメータ（または自然パラメータ）と呼びます。

自然形式#

定義上はそれぞれ異なる言い方がありますが、一般的には指数族の自然形式 Natural Form と規範形式は等しいかほぼ等しいと考えられています。例えば、スタンフォード大学の資料、バークレー大学の資料、マサチューセッツ工科大学の講義資料、ブログ、知乎コラム 1 および知乎コラム 2 などがあります。

ウィキペディアでは別の理解が提供されていますが、ここでは紹介しません。

自然パラメータ空間#

自然パラメータ空間 Natural Parameter Space を紹介する前に、対数配分関数 log-partition function $A(\theta)$ を紹介します。

A(\theta) = \log\left(\int_X h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x\right)

配分関数とは、正規化定数の特別な形式と理解できます。

対数配分関数 $A(\theta)$ により、 $f_\mathbf{X}(x;\theta)$ が正規化され、すなわち $f_\mathbf{X}(x;\theta)$ が確率密度関数であることが保証されます。この正規化を理解するには、上記のいくつかの等価形式の小節にあるこの表現を参照してください。

f_\mathbf{X}(x;\theta) = \frac{1}{Z(\theta)}h(x)\exp\{\langle\eta(\theta), T(x)\rangle\}

ここで $Z(\theta) = \int_X h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x$ は $x$ に依存しない関数です。両辺の式を同時に積分すると、次のようになります。

\int_Xf_\mathbf{X}(x;\theta) = \frac{1}{Z(\theta)}\int_X h(x)\exp\{\langle\eta(\theta), T(x)\rangle\} = 1

自然パラメータ空間とは、配分関数が有限 ( $\lt \infty$ ) となるときのパラメータ $\theta$ の集合を指します。すなわち：

\mathcal N = \left\{\theta:\int_X h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x \lt \infty\right\} = \left\{\theta:Z(\theta) \lt \infty\right\}

自然パラメータ空間には特別な性質があります。まず、自然パラメータ空間 $\mathcal N$ は凸集合 Convex Set であり、対数配分関数 $A(\theta)$ は凸関数 Convex Function です。証明は以下の通りです：

異なる 2 つのパラメータ $\theta_1\in\mathcal N,~\theta_2\in\mathcal N$ を考え、 $0\lt\lambda\lt 1$ を与えられたとき、 $\theta=\lambda\theta_1+(1-\lambda)\theta_2$ も自然パラメータ空間 $\mathcal N$ に属することを証明します（すなわち $\theta\in\mathcal N$ が成り立つことを証明します）。

$\begin{aligned} Z(\theta) &= \exp\{A(\theta)\} = \exp\{A(\lambda\theta_1+(1-\lambda)\theta_2)\}\\ &=\int_X h(x)\exp\{\langle(\lambda\theta_1+(1-\lambda)\theta_2), T(x)\rangle\}~{\rm d}x \\ & = \int_X \left(h(x)^{\lambda}\exp\{\langle\lambda\theta_1, T(x)\rangle \}\right)\left(h(x)^{1-\lambda}\exp\{\langle(1-\lambda)\theta_2, T(x)\rangle\}\right)~{\rm d}x \\ &\leq \left(\int_X h(x)\exp\{\frac1\lambda\langle\lambda\theta_1, T(x)\rangle\} ~{\rm d}x \right)^\lambda \left(\int_X h(x)\exp\{\frac1{1-\lambda}\langle(1-\lambda)\theta_2, T(x)\rangle\} ~{\rm d}x \right)^{1-\lambda} \\ &=Z(\theta_1)^\lambda \cdot Z(\theta_2)^{1-\lambda} \end{aligned}$

上式の $\leq$ はヘルダーの不等式 Hölder's inequality に由来し、その定義は Wolfram MathWorld や知乎のコラムを参照してください。著名な数学ソフトウェア Mathematica は Wolfram Research 社によって開発されています。

$\theta_1,\theta_2\in \mathcal N$ であるため、 $Z(\theta_1),Z(\theta_2)\lt\infty$ が成り立ちます。したがって、 $Z(\theta) = Z(\theta_1)^\lambda \cdot Z(\theta_2)^{1-\lambda} \lt \infty$ も成り立ち、定義により $\theta\in\mathcal N$ が得られます。これにより、自然パラメータ空間 $\mathcal N$ が凸集合であることが証明されます。

上式を対数を取ると、次のようになります：

$A(\theta) = A(\lambda\theta_1+(1-\lambda)\theta_2) \leq \lambda A(\theta_1) + (1-\lambda)A(\theta_2)$

これにより、対数配分関数 $A(\theta)$ が凸関数であることが証明されます。 $\theta_1\neq\theta_2$ の場合、Hölder's inequality は等号を取れず、 $A(\theta)$ は厳密な凸関数です。

凸集合、凸関数の定義については、凸最適化のチュートリアル知乎のコラムや凸最適化の古典的教科書 cvxbook by Stephen Boyd を参照してください。

指数分布族の例#

指数族の規範形式を振り返り、以下にいくつかの一般的な分布が指数族に属することを証明します。

f_\mathbf{X}(x;\theta) = h(x)\exp\{\langle\theta, T(x)\rangle-A(\theta)\}

ベルヌーイ分布（2 点分布）#

ベルヌーイ分布の確率質量関数（ベルヌーイ分布は離散的であるため、確率質量関数です）は次のようになります：

p(x;\lambda) = \lambda^x\cdot (1-\lambda)^{(1-x)}

ここで、 $\lambda$ はこのベルヌーイ分布のパラメータ（事象が発生する確率）、 $x =0$ （事象が発生しない）、 $x =1$ （事象が発生する）です。他の $x$ の値は存在しません。

式を次のように書き換えます：

\begin{aligned} p(x;\lambda) &= \lambda^x\cdot (1-\lambda)^{(1-x)}\\ &\color{red}=\exp\left\{\log\left(\frac{\lambda}{1-\lambda}\right)x+\log(1-\lambda) \right\} \end{aligned}

次のように取ります：

\theta = \frac{\lambda}{1-\lambda}, \quad T(x)=x,\quad A(\theta) = -\log(1-\lambda) = \log(1+e^\theta),\quad h(x) = 1

これにより、ベルヌーイ分布は単一パラメータの指数族に属することが証明されます。

ポアソン分布#

ポアソン分布の確率質量関数は次のようになります：

\begin{aligned} p(x;\lambda) &= \frac{\lambda^xe^{-\lambda}}{x!} \\ &\color{red} = \frac{1}{x!}\exp\{x\log\lambda-\lambda\} \end{aligned}

次のように取ります：

\theta = \log\lambda,\quad T(x) = x,\quad A(\theta)=\lambda=e^\theta,\quad h(x)=\frac{1}{x!}

これにより、ポアソン分布は単一パラメータの指数族に属することが証明されます。

ガウス分布（正規分布）#

ガウス分布の確率密度関数は次のようになります：

\begin{aligned} p(x;\mu,\sigma^2) &= \frac{1}{\sqrt{2\pi}\sigma}\exp\left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\}\\ & \color{red}=\frac{1}{\sqrt{2\pi}}\exp\left\{ \frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}x^2-\frac{1}{2\sigma^2}\mu^2-\log\sigma \right\} \end{aligned}

次のように取ります：

\theta = \begin{bmatrix}\mu / \sigma^2 \\ \\ -1/2\sigma^2\end{bmatrix},\quad T(x) = \begin{bmatrix} x \\ \\ x^2\end{bmatrix},\quad A(\theta) = \frac{\mu^2}{2\sigma^2}+\log\sigma=-\frac{\theta_1^2}{4\theta_2}-\frac12\log(-2\theta_2),\quad h(x)=\frac{1}{\sqrt{2\pi}}

これにより、ガウス分布は多パラメータの指数族に属することが証明されます。

指数族の性質#

十分統計量#

十分統計量の理解については、この記事の他に知乎のコラムやブログを参照してください。これらの資料は内容の理解に大いに役立ちます。この記事のノートの内容も、これらの資料から一部得られたものです。

$X_1,\cdots,X_n$ を $X$ の一組のサンプルとします。観測前、サンプル $X_1,\cdots,X_n$ は確率変数であり、観測後、サンプル $X_1,\cdots,X_n$ は具体的な値となります。

数理統計の観点から、我々はサンプルを通じて元の分布を推測したいと考えます。十分統計量 Sufficient Statistic は、統計量 Statistic であり、サンプル空間上の可測関数で、 $T(X_1,\cdots, X_2)$ と記述され、多くの場所では直接 $T(X)$ と書かれます。統計量として、元の確率変数が含む情報を縮小します。

例えば、サンプル平均を求める際、サンプル値の順序は我々が関心を持たない情報です。

一組のサンプルに対して、サンプル自体は一つの結合確率密度関数を持ち、これを $f(x)$ と記述します。この分布自体にパラメータが存在しない場合（またはパラメータが既知の場合）、この関数は本質的にこの一組のサンプルが含むすべての情報を描写します。

上記の結合確率密度関数に未知のパラメータ $\theta$ が存在する場合、これを $f(x;\theta)$ または $f_\theta(x)$ と記述します。統計量 $T$ の値 $T=t$ が与えられたとき、対応する条件分布 $F_\theta(X|T=t)$ が未知のパラメータ $\theta$ に依存しない分布（すなわち、確定した分布）であるならば、この統計量 $T$ は十分統計量 Sufficient Statistic です。

十分統計量は、パラメータ $\theta$ に関するすべての有用な情報を保持し、無用な情報を排除します。

十分統計量に基づいて、さらに極小十分統計量 Minimum Sufficient Statistic を紹介します。直感的には、十分統計量の形式がシンプルであることを望むため、極小十分統計量の定義はこのように来ています。

もし $T^\star = T^\star(X)$ が十分統計量であり、任意の十分統計量 $T=T(X)$ に対して、可測関数 $\varphi$ が存在し、 $T^\star = \varphi(T)$ であれば、 $T^\star$ は極小十分統計量です。

この定義の論理は、もし $T^\star$ が十分統計量であれば、 $T$ も必ず十分統計量であるということです。

導関数と期待値#

期待値を学ぶ際、期待値を求めることは積分を計算することを意味します。しかし、指数分布族の特別な性質により、期待値と導関数が関連付けられます。導関数を求めることは一般に積分よりも簡単であるため、我々は導関数を好むことになります。

累積量生成関数 Cumulant Generating Function $A(\theta)$ の一階導関数を求めることで、十分統計量 $T$ の期待値を得ることができます。

\begin{align*} \frac{\partial A(\theta)}{\partial \theta^T} &= \frac{\partial}{\partial \theta^T}\left\{ \log \int_Xh(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x\right\} \\ &= \frac{\int_X T(x)h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x}{\int_Xh(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x} \\ &=\frac{1}{Z(\theta)} \int_X T(x)h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x\\ &=\int_X T(x)h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &=\int_X T(x)f_\mathbf{X}(x;\theta)~{\rm d}x \\ &=\mathbb E[T(X)] \end{align*}

ここでの公式は少し複雑で、いくつかの点に注意が必要です：

なぜ $\theta^T$ に対して導関数を求めるのか？これは、導関数の連鎖法則を適用する際に、 $\langle\theta,T(x) \rangle$ の導関数が $T(x)$ であり、 $T(x)^T$ ではないことを保証するためです。
なぜ導関数の記号と積分の記号を入れ替えられるのか？ここではレーベグの支配収束定理 Dominated Convergence Theorem が満たされます。
なぜ式の中に $A(\theta)$ が追加されているのか？分母部分はちょうど配分関数 $Z(\theta)$ を取り出すことができ、この量は積分変数 $x$ に依存しないため、指数の演算則に従って移動できます。このステップは上記のいくつかの等価形式の小節を参照してください。
最後のステップが期待値に変わる理由は？ $f_\mathbf{X}(x;\theta)$ が確率分布であるためです。

導関数と分散#

累積量生成関数 $A(\theta)$ の二階導関数を求めることで、十分統計量 $T$ の分散を得ることができます。

\begin{align*} \frac{\partial}{\partial \theta}(\frac{\partial A(\theta)}{\partial \theta^T}) &= \frac{\partial}{\partial \theta} \int_X T(x)h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \int_X T(x)h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}\left(T(x)^T - \frac{\partial}{\partial \theta}A(\theta)\right)~{\rm d}x \\ &= \int_X T(x)\left(T(x) - \frac{\partial}{\partial \theta^T}A(\theta)\right)^T h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \int_X T(x)\left(T(x) - \mathbb E[T(X)]\right)^T h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \int_X T(x)T(x)^T h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &\quad- \mathbb E[T(X)]^T \int_X T(x) h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \mathbb E[T(X)T(X)^T]-\mathbb E[T(X)]\cdot\mathbb E[T(X)]^T \\ &= Var[T(X)] \end{align*}

前のセクションと同様に、ここでも導関数と積分の入れ替えが用いられています。具体的な詳細はレーベグの支配収束定理を参照してください。

行列、ベクトルの導関数と転置については、ブログ園のブログを参照してください。このブログおよび文中の引用リンクは詳細な説明を提供しています。

パラメータ化#

パラメータ化 parameterization とは、パラメータを用いて表現することを意味します。

もし指数族のパラメータ $\theta$ の要素が線形独立であり、十分統計量 $T(x)$ の要素も線形独立であるならば、この指数族を最小指数族 minimal exponential familyと呼びます。

最小指数族の対応する中国語の翻訳はないようですが、直訳すると最小指数族となります。しかし、最簡指数族と翻訳する方がより適切かもしれません。その理由は以下の通りです：
非最小指数族 (non-minimal) の指数族に対して、適切なパラメータ置換またはパラメータ変換を行うことで、最小指数族を得ることができます。

最小指数族の対数配分関数 $A(\theta)$ は厳密な凸関数であり、フェンシェルの不等式 Fenchel's inequality を満たします。フェンシェル不等式を紹介する前に、まず凸共役を導入します。

参考ウィキペディア
凸共役 Convex Conjugate（フェンシェル共役とも呼ばれる）
元の空間 $X$ 上の拡張実値関数 extended real-valued function

$f: X\rightarrow\mathbb R~\cup~\{-\infty, +\infty\}$

の対偶空間 dual space $X^*$ 上の共役関数 conjugate function を次のように記述します：

$f^*=X^*\rightarrow\mathbb R~\cup~\{-\infty, +\infty\}$

対偶空間の点 $x^*\in X^*$ と元の空間の点 $x\in X$ の対応関係は次のように定義されます：

$f^*(x^*)=\sup\{\langle x^*,x\rangle-f(x)\}$

ここで、 $\sup$ は $\rm supremum$ 、すなわち最小上界（上確界）を指します。また、 $\inf (\rm infimum)$ は最大下界（下確界）であり、 $\max \rm(maximum)$ および $\min (\rm minimum)$ との違いは次の通りです：
CSDN ブログ、知乎のコラム

実値関数には必ず上確界 / 下確界が存在します（必ず取れる）。しかし、最大値または最小値が存在するとは限りません（最大 / 最小値の点が定義上取れない場合があります）。例えば $f(x)=\frac{\sin x}{x}$ のように。

最大値 / 最小値が取れる場合、それは上確界 / 下確界です。

$A(\theta)$ に関して、その凸共役 $A^*(\theta^*)$ は次のようになります：

A^*(\theta^*) = \sup\{\langle\theta^*,\theta\rangle-A(\theta)\}

$\mu = \mathbb E[T(X)]$ と定義すると、 $\dfrac{\partial}{\partial\theta^T}\left(\langle\theta^*,\theta\rangle-A(\theta)\right) = \theta^*-\mu$ となります。

したがって、 $\theta^*=\mu$ のとき、導関数の値はゼロになり、上確界を取ります。対応する凸共役は $A^*(\mu)=\langle\mu,\theta\rangle-A(\theta)$ であり、少し変形すると次のようになります：

A^*(\mu) +A(\theta) = \langle\mu,\theta\rangle

フェンシェル不等式 Fenchel's inequality
一方で、フェンシェル不等式により、任意の $x\in X,~x^*\in X^*$ に対して次のようになります：

f(x)+f^*(x^*)\geq\langle x^*, x\rangle

$\mu\in\partial A(\theta)$ の場合、上式は等号を取ります。

平均表示法 指数族は標準パラメータ化 canonical parameterization で表現することも、平均パラメータ化 mean parameterization で表現することもできます。なぜなら、 $\theta$ と平均 $\mu$ は一対一対応しているからです。すなわち、 $\theta$ の関数として見ることも、平均 $\mu$ の関数として見ることもできます。

統計的推論#

最大尤推定による母平均の推定#

まず、最大尤推定 Maximum Likelihood Estimation の理念を振り返ります。

ある未知の分布があり、一連のサンプル観測値があります。したがって、これらのサンプル観測値を用いて最も可能性の高い分布を推測します。これには 2 つの問題が生じます：

モデルは確定していますか？一般的には問題を簡素化するためにモデルが告知されます。実際の問題では、モデルが告知されていない場合、個々のモデルを試す必要があるかもしれません。
パラメータは確定していますか？パラメータは不確定です。モデルが既知であれば、一般的な操作はこの一組のサンプル観測値を用いてモデルをフィットさせ、その後パラメータを逆推定することです。

最大尤推定による母平均 $\mu$ の推定。手順：

$n$ 回の独立同分布サンプル観測値の集合 $\mathcal D=(x_1,x_2,\cdots,x_N)$ が与えられます。
尤度関数を記述します。方法は、これらのサンプル値を確率密度関数に代入し、結果を掛け合わせることです。

L(\theta|\mathcal D) =\prod_{i=1}^N f(x_i;\theta) = \prod_{i=1}^N h(x_i)\exp\{\langle\eta(\theta), T(x_i)\rangle-A(\theta)\}

尤度関数の対数を取り、導関数を求めてスコア関数を得ます。

\begin{align*} &l(\theta|\mathcal D) = \log L(\theta|\mathcal D) = \log\left(\prod_{i=1}^N h(x_i)\right) + \theta^T\left( \sum_{i=1}^N T(x_i) \right) - NA(\theta) \\ & \nabla_\theta l(\theta|\mathcal D)= \sum_{i=1}^N T(x_i) - N\nabla_\theta A(\theta) \end{align*}

導関数を 0 に設定し、尤度方程式を解きます。

\nabla_\theta l(\theta|\mathcal D) = 0 \quad \Longrightarrow \quad \nabla_\theta A(\hat\theta) = \frac1N\sum_{i=1}^N T(x_i)

最大尤推定は、本質的に尤度関数を最大化することです。しかし、特別な場合もあります：

対数尤度関数が単調で、導関数の零点が存在しない場合。

または、サンプルが少なすぎて、導関数の零点が存在しても取れない場合。

一般的には端点値を取ります。

母平均 $\mu = \mathbb E[T(X)]$ を定義し、上式を組み合わせると次のようになります。

\hat\mu_{MLE} = \mathbb E[T(X)] ~{\color{red} = }~ \nabla_\theta A(\hat\theta) = \frac1N\sum_{i=1}^N T(x_i)

この等式（赤い等号）が成立する理由は、上記の導関数と期待値の小節で既に証明されています。

$\hat\mu_{MLE}$ は不偏です。なぜなら、

\mathbb E [\hat\mu_{MLE}] = \frac1N\sum_{i=1}^N\mathbb E[T(X_i)] = \frac1N N\mu = \mu

$\hat\mu_{MLE}$ は効率的です。 $\hat\mu_{MLE}$ が最小分散不偏推定量 uniformly minimum-variance unbiased estimator (UMVUE) であることが証明できます。

上記で述べたように、対数尤度関数の一階導関数はスコア関数とも呼ばれ、次のように記述されます。

\begin{align*} S(X;\theta) &= \nabla_\theta l(X;\theta) = \nabla_\theta\log L(X;\theta) = \nabla_\theta\log \prod_{i=1}^N f(x_i;\theta) \\ & = \sum_{i=1}^N T(x_i) - N\nabla_\theta A(\theta) \end{align*}

ここで、 $X$ はサンプル系列 $\{X_1,X_2,\cdots, X_n\}$ であり、対応するサンプル観測値は $\{x_1, x_2,\cdots,x_n\}$ です。

参考知乎の質問により、フィッシャー情報 Fisher Information を導入します。フィッシャー情報はスコア関数の二階モーメント second moment です。

I(\theta) = \mathbb E[S^2(X;\theta)]

フィッシャー情報はパラメータ推定の精度を測るために使用されます。
N 回の観測によって得られるフィッシャー情報は、単回の観測によって得られるフィッシャー情報の N 倍です。
後文では単回観測のフィッシャー情報を例にします。

スコア関数は $\theta$ に関する関数であり、明らかにこのフィッシャー情報行列も $\theta$ に関するものです。 参考ウィキペディアおよびネットブログにより、次のように証明できます：

\begin{align*} \mathbb E[S(X;\theta)] & = \int_X S(X;\theta) f(x;\theta) ~{\rm d}x = \int_X\frac{\frac{\partial}{\partial \theta} f(x;\theta)}{f(x;\theta)}f(x;\theta) ~{\rm d}x\\ &=\color{red} \frac{\partial}{\partial \theta}\int_X f(x;\theta)~{\rm d}x = \frac{\partial}{\partial \theta} 1 = 0 \end{align*}

ここではレーベグの収束定理に基づき、導関数と積分が入れ替わっています。
離散の場合は、積分記号を和記号に置き換えればよいです。N 倍の関係が生じる可能性があります。

したがって、 $I(\theta) = \mathbb E[S^2(X;\theta)] - \mathbb E^2[S(X;\theta)] = Var[S(X;\theta)]$ となります。すなわち、フィッシャー情報はスコア関数の分散です。

ここで $S(X;\theta)$ が二階可微分であるため、次のように証明できます：

\begin{align*} \mathbb E[S^2(X;\theta)] =-\mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] \end{align*}

証明の過程は類似しており、次のようになります。

$\begin{align*} \mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] &= \int_X \frac{\partial^2}{\partial\theta^2}\log L(X;\theta)f(x;\theta)~{\rm d}x = \int_X\frac{\partial}{\partial\theta}S(X;\theta)f(x;\theta)~{\rm d}x \\ &=\int_X\frac{\partial}{\partial\theta}\left(\frac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}\right)f(x;\theta)~{\rm d}x\\ &=\int_X\left(\frac{\frac{\partial^2}{\partial\theta^2}f(x;\theta)}{f(x;\theta)}-\left(\frac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}\right)^2\right)f(x;\theta)~{\rm d}x \\ &={\color{red} 0}-\int_X\left(\frac{\partial}{\partial\theta}\log L(X;\theta)\right)^2 f(x;\theta)~{\rm d}x \\ &=-\int_X S^2(X;\theta)f(x;\theta)~{\rm d}x\\ &=-\mathbb E[S^2(X;\theta)] \end{align*}$

赤い部分の積分が 0 になるのは、積分記号と二階導関数が入れ替わった後、導関数を取ると 0 になるからです。
離散の場合は、積分記号を和記号に置き換えればよいです。N 倍の関係が生じる可能性があります。

ここでフィッシャー情報のいくつかの等価置換式をまとめます：

I(\theta) = \mathbb E[S^2(X;\theta)] = -\mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] = -\mathbb E\left[\frac{\partial}{\partial\theta}S(X;\theta)\right] = Var[S(X;\theta)]

一方で、 $L(\theta) = f_X(x;\theta) = h(x)\exp\{\langle\theta, T(x)\rangle-A(\theta)\}$ です。対数を取り、二階導関数を求めると次のようになります：

\frac{\partial^2}{\partial\theta^2}\log L(X;\theta) = -\frac{\partial^2}{\partial\theta^2} A(\theta)

したがって、次のようになります：

I(\theta) = -\mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] = -\mathbb E\left[-\frac{\partial^2}{\partial\theta^2} A(\theta) \right] =Var[T(X)]

自然パラメータ $\theta$ のフィッシャー情報は、ちょうど十分統計量の分散 $Var[T(X)]$ に等しいことがわかります。

一方で、