Sunforger

Sunforger

指數分布族初探

論文讀到指數型分布族相關內容,遂做一個整理。不盡準確,望大佬們不吝指教。

指數分布族 Exponential Family 也稱為指數族、指數族分布,是統計中最重要的參數分布族

學習指數型分布族,應當與指數分布 Exponential Distribution 區分開來。兩者並不是同一個東西。

所謂 “族”,英語裡中稱為 family,通常是具有相似特徵的一類。指數型分布族是一組分布,其概率密度函數和概率分布函數隨著分布參數的變化而變化。

常見的指數型分布族包括:
正態分布、卡方分布、二項分布、多項分布、Poisson 分布、Pascal 分布、 β\beta分布、 Γ\Gamma分布、對數正態分布等等。具體可見維基百科詞條知乎專欄

指數分布族#

指數型分布族 exponential family 的概率密度函數有以下表現形式:

fX(x;θ)=h(x)exp{η(θ),T(x)A(θ)}f_\mathbf{X}(x;\theta) = h(x)\exp\{\langle\eta(\theta), T(x)\rangle-A(\theta)\}

其中,θ\theta 是唯一的參數,滿足上式的所有 θ\theta 構成參數空間 Θ\Theta,對應的參數分布族 {Pθ:θΘ}\{P_\theta:\theta\in\Theta\} 是指數族。必須注意,這裡的參數 θ\theta 不局限於狹隘的實數,也可以是 nn 維向量 θRn\theta\in \mathbb{R}^n

參數 θ\theta 改變,分布 XX 的形態(概率密度函數、概率分布函數以及對應的圖像)也將改變。隨機變量 xx 服從於分布 XX。函數 T(x),h(x),η(θ),A(θ)T(x), h(x), \eta(\theta), A(\theta) 都是已知函數。函數 h(x)h(x) 為非負函數。

h(x)h(x) 通常被稱為是基礎度量 base measure.

T(x)T(x) 是充分統計量 sufficient statistic.

A(θ)A(\theta) 是累積量生成函數 cumulant generating function 或稱為對數配分函數(配分函數的對數) log-partition function 。顯然 A(θ)A(\theta) 是實值函數,返回一個實數。

其中,η(θ)\eta(\theta)T(x)T(x) 可以是實數,也可以是向量。

由定義式子可以看出,根據指數函數的性質 exp{}=e{}>0\exp\{\cdot\} = e^{\{\cdot\}} > 0 是非負的。所以指數族的支撐集只與 h(x)h(x) 有關。也就是說,只與 xx 有關,而與未知參數 θ\theta 無關。我們利用這一點,可以排除非指數型分布族(比如均勻分布)。

這裡需要簡單補充一下所謂支撐集的概念。簡單來說,對於實值函數 ff 而言, ff 的支撐集定義為:

supp(f)={xX:f(x)0}\text{supp}(f)=\{x\in X:f(x)\neq0\}

支撐集是函數 ff 原定義域 XX 的一個子集。了解更多,可以參考 維基百科詞條CSDN 博客。在概率密度函數中,由於概率非負,可以定義隨機變量的支撐集為(見 知乎專欄):

supp(X)={xR:fX(x)>0}\text{supp}(X) =\{x\in R : f_X(x)\gt 0\}

幾種等價形式#

基於指數的運算法則,通過等價變換,給出指數族的兩種等價形式:

fX(x;θ)=h(x)g(θ)exp{η(θ),T(x)}f_\mathbf{X}(x;\theta) = h(x)g(\theta)\exp\{\langle\eta(\theta), T(x)\rangle\}

fX(x;θ)=exp{η(θ),T(x)A(θ)+B(x)}f_\mathbf{X}(x;\theta) = \exp\{\langle\eta(\theta), T(x)\rangle-A(\theta)+B(x)\}

對應的替換關係是:A(θ)=lng(θ)-A(\theta) = \ln g(\theta)B(x)=lnh(x)B(x)=\ln h(x)

特別地,我們取 Z(θ)=1g(θ)Z(\theta) = \dfrac{1}{g(\theta)}, 可以得到另一中非常常見的指數族的表達式如下。其中 Z(θ)Z(\theta) 是這個分布的配分函數 partition function。

fX(x;θ)=1Z(θ)h(x)exp{η(θ),T(x)}f_\mathbf{X}(x;\theta) = \frac{1}{Z(\theta)}h(x)\exp\{\langle\eta(\theta), T(x)\rangle\}

規範形式#

上述定義式中,η(θ)\eta(\theta) 是關於參數 θ\theta 的一個函數。在指數族中,我們要求 η()\eta(\cdot) 是一個雙射函數(也就是一一對應函數)。雙射意味著函數單調可導,且存在反函數。

我們借助雙射函數的特性,就可以簡化指數族的形式。令 θ^=η(θ)\hat\theta = \eta(\theta),當然,這個變化是可逆的 θ=η1(θ^)\theta = \eta^{-1}(\hat\theta)。 於是,我們得到:fX(x;θ^)=h(x)exp{θ^,T(x)A(θ^)}f_\mathbf{X}(x;\hat\theta) = h(x)\exp\{\langle\hat\theta, T(x)\rangle-A^\prime(\hat\theta)\}

等價替換一下符號,我們得到指數族規範形式 Canonical Form 如下:

fX(x;θ)=h(x)exp{θ,T(x)A(θ)}f_\mathbf{X}(x;\theta) = h(x)\exp\{\langle\theta, T(x)\rangle-A(\theta)\}

我們通常把更新過後的這個參數 θ\theta 稱為指數族的規範參數(或自然參數)。

自然形式#

雖然在定義上各有各的說法,但一般認為指數族的自然形式 Natural Form 和規範形式兩者等同或幾乎等同。例如斯坦福大學材料伯克利大學材料麻省理工課件博客知乎專欄 1 以及 知乎專欄 2

維基百科提供了另一種理解,這裡不做介紹。

自然參數空間#

介紹自然參數空間 Natural Parameter Space 之前,我們首先介紹對數配分函數 log-partition function A(θ)A(\theta)

A(θ)=log(Xh(x)exp{θ,T(x)} dx) A(\theta) = \log\left(\int_X h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x\right)

所謂配分函數,可以理解為歸一化常數的一種特殊形式。

對數配分函數 A(θ)A(\theta) 使得 fX(x;θ)f_\mathbf{X}(x;\theta) 得以歸一化,也就是說,保證了 fX(x;θ)f_\mathbf{X}(x;\theta) 是一個概率密度函數。理解這個歸一化,可以參考上文 幾種等價形式 小節中的這個表達式

fX(x;θ)=1Z(θ)h(x)exp{η(θ),T(x)}f_\mathbf{X}(x;\theta) = \frac{1}{Z(\theta)}h(x)\exp\{\langle\eta(\theta), T(x)\rangle\}

其中Z(θ)=Xh(x)exp{θ,T(x)} dxZ(\theta) = \int_X h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x是與 xx 無關的一個函數。然後把兩邊式子同時積分,得到

XfX(x;θ)=1Z(θ)Xh(x)exp{η(θ),T(x)}=1\int_Xf_\mathbf{X}(x;\theta) = \frac{1}{Z(\theta)}\int_X h(x)\exp\{\langle\eta(\theta), T(x)\rangle\} = 1

所謂自然參數空間,就是使配分函數有限 (<\lt \infty) 時的參數 θ\theta 的集合,即:

N={θ:Xh(x)exp{θ,T(x)} dx<}={θ:Z(θ)<}\mathcal N = \left\{\theta:\int_X h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x \lt \infty\right\} = \left\{\theta:Z(\theta) \lt \infty\right\}

自然參數空間有這一些特殊的性質。首先,自然參數空間 N\mathcal N 是一個凸集 Convex Set,對數配分函數 A(θ)A(\theta) 是一個凸函數 Convex Function。證明如下:

考慮兩個不同的參數 θ1N, θ2N\theta_1\in\mathcal N,~\theta_2\in\mathcal N,給定 0<λ<10\lt\lambda\lt 1 證明 θ=λθ1+(1λ)θ2\theta=\lambda\theta_1+(1-\lambda)\theta_2 也在自然參數空間 N\mathcal N 內(即證明 θN\theta\in\mathcal N 也成立)

Z(θ)=exp{A(θ)}=exp{A(λθ1+(1λ)θ2)}=Xh(x)exp{(λθ1+(1λ)θ2),T(x)} dx=X(h(x)λexp{λθ1,T(x)})(h(x)1λexp{(1λ)θ2,T(x)}) dx(Xh(x)exp{1λλθ1,T(x)} dx)λ(Xh(x)exp{11λ(1λ)θ2,T(x)} dx)1λ=Z(θ1)λZ(θ2)1λ\begin{aligned} Z(\theta) &= \exp\{A(\theta)\} = \exp\{A(\lambda\theta_1+(1-\lambda)\theta_2)\}\\ &=\int_X h(x)\exp\{\langle(\lambda\theta_1+(1-\lambda)\theta_2), T(x)\rangle\}~{\rm d}x \\ & = \int_X \left(h(x)^{\lambda}\exp\{\langle\lambda\theta_1, T(x)\rangle \}\right)\left(h(x)^{1-\lambda}\exp\{\langle(1-\lambda)\theta_2, T(x)\rangle\}\right)~{\rm d}x \\ &\leq \left(\int_X h(x)\exp\{\frac1\lambda\langle\lambda\theta_1, T(x)\rangle\} ~{\rm d}x \right)^\lambda \left(\int_X h(x)\exp\{\frac1{1-\lambda}\langle(1-\lambda)\theta_2, T(x)\rangle\} ~{\rm d}x \right)^{1-\lambda} \\ &=Z(\theta_1)^\lambda \cdot Z(\theta_2)^{1-\lambda} \end{aligned}

上式中的 \leq 來自於赫爾德不等式 Hölder's inequality 其定義可以參考 Wolfram MathWorld知乎專欄。 值得一提的是,著名的數學軟件 Mathematica 就是 Wolfram Research 公司開發的。

因為 θ1,θ2N\theta_1,\theta_2\in \mathcal NZ(θ1),Z(θ2)<Z(\theta_1),Z(\theta_2)\lt\infty 成立。所以 Z(θ)=Z(θ1)λZ(θ2)1λ<Z(\theta) = Z(\theta_1)^\lambda \cdot Z(\theta_2)^{1-\lambda} \lt \infty 也成立,根據定義,即可得 θN\theta\in\mathcal N。於是可以證明自然參數空間 N\mathcal N 是一個凸集。

將上式取對數,得到:

A(θ)=A(λθ1+(1λ)θ2)λA(θ1)+(1λ)A(θ2)A(\theta) = A(\lambda\theta_1+(1-\lambda)\theta_2) \leq \lambda A(\theta_1) + (1-\lambda)A(\theta_2)

於是可以證明,對數配分函數 A(θ)A(\theta) 是一個凸函數。θ1θ2\theta_1\neq\theta_2 時,Hölder's inequality 無法取到等號,A(θ)A(\theta) 是嚴格的凸函數

關於凸集、凸函數的定義,可以參看凸優化教程 知乎專欄 或凸優化經典教材 cvxbook by Stephen Boyd

指數分布族實例#

回顧指數族的規範形式,下面我們證明幾種常見的分布,屬於指數族。

fX(x;θ)=h(x)exp{θ,T(x)A(θ)}f_\mathbf{X}(x;\theta) = h(x)\exp\{\langle\theta, T(x)\rangle-A(\theta)\}

伯努利分布(兩點分布)#

伯努利分布的概率質量函數(伯努利分布是離散的,所以是概率質量函數)為:

p(x;λ)=λx(1λ)(1x)p(x;\lambda) = \lambda^x\cdot (1-\lambda)^{(1-x)}

其中,λ\lambda 是這個伯努利分布的參數(事件發生的概率),x=0x =0 (事件不發生),x=1x =1 (事件發生)。不存在其他的 xx 取值。

我們將式子改寫:

p(x;λ)=λx(1λ)(1x)=exp{log(λ1λ)x+log(1λ)}\begin{aligned} p(x;\lambda) &= \lambda^x\cdot (1-\lambda)^{(1-x)}\\ &\color{red}=\exp\left\{\log\left(\frac{\lambda}{1-\lambda}\right)x+\log(1-\lambda) \right\} \end{aligned}

我們取

θ=λ1λ,T(x)=x,A(θ)=log(1λ)=log(1+eθ),h(x)=1\theta = \frac{\lambda}{1-\lambda}, \quad T(x)=x,\quad A(\theta) = -\log(1-\lambda) = \log(1+e^\theta),\quad h(x) = 1

可證伯努利分布屬於單參數指數族。

泊松分布#

泊松分布的概率質量函數如下:

p(x;λ)=λxeλx!=1x!exp{xlogλλ}\begin{aligned} p(x;\lambda) &= \frac{\lambda^xe^{-\lambda}}{x!} \\ &\color{red} = \frac{1}{x!}\exp\{x\log\lambda-\lambda\} \end{aligned}

θ=logλ,T(x)=x,A(θ)=λ=eθ,h(x)=1x!\theta = \log\lambda,\quad T(x) = x,\quad A(\theta)=\lambda=e^\theta,\quad h(x)=\frac{1}{x!}

可證泊松分布屬於單參數指數族。

高斯分布(正態分布)#

高斯分布的概率密度函數如下

p(x;μ,σ2)=12πσexp{12σ2(xμ)2}=12πexp{μσ2x12σ2x212σ2μ2logσ}\begin{aligned} p(x;\mu,\sigma^2) &= \frac{1}{\sqrt{2\pi}\sigma}\exp\left\{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right\}\\ & \color{red}=\frac{1}{\sqrt{2\pi}}\exp\left\{ \frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}x^2-\frac{1}{2\sigma^2}\mu^2-\log\sigma \right\} \end{aligned}

θ=[μ/σ21/2σ2],T(x)=[xx2],A(θ)=μ22σ2+logσ=θ124θ212log(2θ2),h(x)=12π\theta = \begin{bmatrix}\mu / \sigma^2 \\ \\ -1/2\sigma^2\end{bmatrix},\quad T(x) = \begin{bmatrix} x \\ \\ x^2\end{bmatrix},\quad A(\theta) = \frac{\mu^2}{2\sigma^2}+\log\sigma=-\frac{\theta_1^2}{4\theta_2}-\frac12\log(-2\theta_2),\quad h(x)=\frac{1}{\sqrt{2\pi}}

可證高斯分布屬於多參數指數族。

指數族的性質#

充分統計量#

關於充分統計量的理解,在本文之外,還可以參看 知乎專欄博客。這些材料對理解內容也會有很大幫助。本文的筆記內容,也部分來自於這些材料。

X1,,XnX_1,\cdots,X_nXX 的一組樣本。在觀測前,樣本X1,,XnX_1,\cdots,X_n 是隨機變量,在觀測後,樣本 X1,,XnX_1,\cdots,X_n 是具體的值。

數理統計的角度,我們希望通過樣本,來推斷原分布。充分統計量 Sufficient Statistic 作為統計量 Statistic 是定義在樣本空間上的可測函數,記作 T(X1,,X2)T(X_1,\cdots, X_2) 很多地方也直接寫作 T(X)T(X)。作為統計量,它縮減了原來隨機變量包含的信息。

比如說,求樣本均值時,樣本值的順序,是我們不關心的信息。

對於一組樣本,樣本本身會存在一個聯合概率密度函數,可以記作 f(x)f(x) 。如果這個分布本身不存在參數(或參數已知),那麼這個函數本質上就刻畫了這一組樣本包含的所有信息。

上述的聯合概率密度函數,若存在未知的參數 θ\theta,則記作 f(x;θ)f(x;\theta)fθ(x)f_\theta(x)。給定統計量 TT 的值 T=tT=t,如果對應的條件分布 Fθ(XT=t)F_\theta(X|T=t) 是一個與未知參數 θ\theta 無關的分布(也就是說,是一個確定的分布)那麼這個統計量 TT 就是一個充分統計量 Sufficient Statistic

充分統計量,保留了關於參數 θ\theta 的全部有用信息,消除了無用信息。

在充分統計量的基礎上,我們更近一步,介紹極小充分統計量 Minimum Sufficient Statistic。在直覺上,我們肯定希望充分統計量的形式越簡單越好,極小充分統計量的定義就是這麼來的。

如果 T=T(X)T^\star = T^\star(X) 是一個充分統計量,對於任意的充分統計量 T=T(X)T=T(X),存在可測函數 φ\varphi,使得 T=φ(T)T^\star = \varphi(T) 那麼, TT^\star 是極小充分統計量。

這個定義的邏輯在於:如果 TT^\star 是充分統計量,那麼 TT 一定是充分統計量。

導數與期望#

學習期望時,我們知道,求解期望是在算一個積分。但指數分布族的特殊性質能將期望與導數聯繫起來。而求導一般比積分簡單,因此我們會更喜歡導數。

我們對累積量生成函數 Cumulant Generating Function A(θ)A(\theta) 求一階導,可以得到充分統計量 TT 的期望。

A(θ)θT=θT{logXh(x)exp{θ,T(x)} dx}=XT(x)h(x)exp{θ,T(x)} dxXh(x)exp{θ,T(x)} dx=1Z(θ)XT(x)h(x)exp{θ,T(x)} dx=XT(x)h(x)exp{θ,T(x)A(θ)} dx=XT(x)fX(x;θ) dx=E[T(X)]\begin{align*} \frac{\partial A(\theta)}{\partial \theta^T} &= \frac{\partial}{\partial \theta^T}\left\{ \log \int_Xh(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x\right\} \\ &= \frac{\int_X T(x)h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x}{\int_Xh(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x} \\ &=\frac{1}{Z(\theta)} \int_X T(x)h(x)\exp\{\langle\theta, T(x)\rangle\}~{\rm d}x\\ &=\int_X T(x)h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &=\int_X T(x)f_\mathbf{X}(x;\theta)~{\rm d}x \\ &=\mathbb E[T(X)] \end{align*}

這裡的公式比較繞,有幾個點需要注意:

  1. 為什麼對於 θT\theta^T 求導?可以簡單理解成為了保證應用求導的鏈式法則時, θ,T(x)\langle\theta,T(x) \rangle 求導出來的東西是 T(x)T(x) 而不是 T(x)TT(x)^T
  2. 為什麼求導符號和積分符號可以換?這裡滿足勒貝格控制收斂定理 Dominated Convergence Theorem
  3. 為什麼式子裡又多出了個 A(θ)A(\theta) ?我們發現分母部分正好可以提出一個配分函數 Z(θ)Z(\theta),這個量是與積分變量 xx 無關的,因此我們可以按照指數的運算法則,把它移進去。這一步可以參考上文的 幾種等價形式 那個小節。
  4. 最後一步怎麼變成期望的?因為 fX(x;θ)f_\mathbf{X}(x;\theta) 是概率分布。

導數與方差#

對累積量生成函數 A(θ)A(\theta) 求二階導,可以得到充分統計量 TT 的方差。

θ(A(θ)θT)=θXT(x)h(x)exp{θ,T(x)A(θ)} dx=XT(x)h(x)exp{θ,T(x)A(θ)}(T(x)TθA(θ)) dx=XT(x)(T(x)θTA(θ))Th(x)exp{θ,T(x)A(θ)} dx=XT(x)(T(x)E[T(X)])Th(x)exp{θ,T(x)A(θ)} dx=XT(x)T(x)Th(x)exp{θ,T(x)A(θ)} dxE[T(X)]TXT(x)h(x)exp{θ,T(x)A(θ)} dx=E[T(X)T(X)T]E[T(X)]E[T(X)]T=Var[T(X)]\begin{align*} \frac{\partial}{\partial \theta}(\frac{\partial A(\theta)}{\partial \theta^T}) &= \frac{\partial}{\partial \theta} \int_X T(x)h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \int_X T(x)h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}\left(T(x)^T - \frac{\partial}{\partial \theta}A(\theta)\right)~{\rm d}x \\ &= \int_X T(x)\left(T(x) - \frac{\partial}{\partial \theta^T}A(\theta)\right)^T h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \int_X T(x)\left(T(x) - \mathbb E[T(X)]\right)^T h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \int_X T(x)T(x)^T h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &\quad- \mathbb E[T(X)]^T \int_X T(x) h(x)\exp\{\langle\theta,T(x)\rangle - A(\theta)\}~{\rm d}x \\ &= \mathbb E[T(X)T(X)^T]-\mathbb E[T(X)]\cdot\mathbb E[T(X)]^T \\ &= Var[T(X)] \end{align*}

與上一節類似,這裡也用到了導數積分互換,具體細節可以參看勒貝格控制收斂定理。

關於矩陣、向量的求導和轉置,可以參看 博客園博客 。博客以及文中的引用鏈接給出了詳細的解釋。

參數化#

所謂參數化 parameterization 意味著用參數來表示。

如果指數族的參數 θ\theta 的元素是線性無關的,充分統計量 T(x)T(x) 的元素也是線性無關的,那麼我們可以稱這個指數族為最小指數族 minimal exponential family

似乎沒有 minimal exponential family 的對應中文翻譯,所以粗暴字面翻譯最小指數族。但感覺翻譯成最簡指數族可能更加貼切一點。原因如下:
對於那些非 minimal 的指數族 (non-minimal) 的指數族,我們可以通過某種合適的參數替換或參數變換,得到一個最小指數族。

最小指數族對數配分函數 A(θ)A(\theta) 是嚴格的凸函數,滿足 Fenchel's inequality。在介紹 Fenchel 不等式之前,首先引入凸共軛。

參考 維基百科
凸共軛 Convex Conjugate(也稱 Fenchel Conjugate)
對於原空間 XX 上的擴充實值函數 extended real-valued function

f:XR  {,+}f: X\rightarrow\mathbb R~\cup~\{-\infty, +\infty\}

它在對偶空間 dual space XX^* 上的共軛函數 conjugate function 記作

f=XR  {,+}f^*=X^*\rightarrow\mathbb R~\cup~\{-\infty, +\infty\}

我們定義對偶空間中的點 xXx^*\in X^* 與原空間中的點 xXx\in X 的對應關係是:

f(x)=sup{x,xf(x)}f^*(x^*)=\sup\{\langle x^*,x\rangle-f(x)\}

其中,sup\supsupremum\rm supremum,即最小上界(上確界)。還有 inf(infimum)\inf (\rm infimum) 是最大下界(下確界)與 max(maximum)\max \rm(maximum)min(minimum)\min (\rm minimum) 的區別在於:
CSDN 博客知乎專欄

  1. 實值函數的必有上確界 / 下確界(一定能取到)。但不一定有最大值或最小值(可能最大 / 最小值點在定義上會取不到)。比如 f(x)=sinxxf(x)=\frac{\sin x}{x}
  2. 如果最大值 / 最小值能取到,就是上確界 / 下確界。

對於 A(θ)A(\theta) 來說,其凸共軛 A(θ)A^*(\theta^*)

A(θ)=sup{θ,θA(θ)}A^*(\theta^*) = \sup\{\langle\theta^*,\theta\rangle-A(\theta)\}

我們定義 μ=E[T(X)]\mu = \mathbb E[T(X)],於是 θT(θ,θA(θ))=θμ\dfrac{\partial}{\partial\theta^T}\left(\langle\theta^*,\theta\rangle-A(\theta)\right) = \theta^*-\mu

因此,當 θ=μ\theta^*=\mu 時,導數值為零,取到上確界。對應凸共軛為 A(μ)=μ,θA(θ)A^*(\mu)=\langle\mu,\theta\rangle-A(\theta),稍作變形我們得到

A(μ)+A(θ)=μ,θA^*(\mu) +A(\theta) = \langle\mu,\theta\rangle

Fenchel 不等式 Fenchel's inequality
另一方面,根據 Fenchel 不等式,任意 xX, xXx\in X,~x^*\in X^*

f(x)+f(x)x,xf(x)+f^*(x^*)\geq\langle x^*, x\rangle

由於 μA(θ)\mu\in\partial A(\theta) 上式取到等號。

均值表示法 指數族可以採用標準參數化 canonical parameterization 來表示,也可以以均值參數化 mean parameterization 來表示。因為 θ\theta 與均值 μ\mu 是一一對應的。即,既可以看做是 θ\theta 的函數,也可以看做是均值 μ\mu 的函數。

統計推斷#

最大似然估計求總體均值#

首先回顧一下最大似然估計 Maximum Likelihood Estimation 的理念。

有一個未知的分布,我們有一系列的樣本觀測值。於是我們要拿著這些樣本觀測值,去反猜最有可能的分布。這就出現了兩個問題:

  1. 模型確定嗎?一般為了簡化問題,會告知模型。實際問題中,如果沒有告知模型,可能需要逐個模型去嘗試。
  2. 參數確定嗎?參數是不確定的。如果模型已知,那麼一般操作是以這一組樣本觀測值去擬合模型,然後反推參數。

以最大似然估計求總體均值 μ\mu 。步驟:

  1. 已知 n 次重複採樣的獨立同分布樣本觀測值構成集合 D=(x1,x2,,xN)\mathcal D=(x_1,x_2,\cdots,x_N)
  2. 寫出似然函數。方法是直接把這些樣本值帶入概率密度函數,並將結果相乘。
L(θD)=i=1Nf(xi;θ)=i=1Nh(xi)exp{η(θ),T(xi)A(θ)}L(\theta|\mathcal D) =\prod_{i=1}^N f(x_i;\theta) = \prod_{i=1}^N h(x_i)\exp\{\langle\eta(\theta), T(x_i)\rangle-A(\theta)\}
  1. 對似然函數取對數,並求導,得到 score function
l(θD)=logL(θD)=log(i=1Nh(xi))+θT(i=1NT(xi))NA(θ)θl(θD)=i=1NT(xi)NθA(θ)\begin{align*} &l(\theta|\mathcal D) = \log L(\theta|\mathcal D) = \log\left(\prod_{i=1}^N h(x_i)\right) + \theta^T\left( \sum_{i=1}^N T(x_i) \right) - NA(\theta) \\ & \nabla_\theta l(\theta|\mathcal D)= \sum_{i=1}^N T(x_i) - N\nabla_\theta A(\theta) \end{align*}
  1. 令導數為 0,解似然方程。
θl(θD)=0θA(θ^)=1Ni=1NT(xi)\nabla_\theta l(\theta|\mathcal D) = 0 \quad \Longrightarrow \quad \nabla_\theta A(\hat\theta) = \frac1N\sum_{i=1}^N T(x_i)

最大似然估計,本質是讓似然函數取到極大值。但也有特殊情況:

  1. 如果對數似然函數單調,導致導數零點不存在
  2. 或由於樣本太少,導致導數零點雖然存在但取不到的情況發生

一般會取端點值。

我們定義總體均值 μ=E[T(X)]\mu = \mathbb E[T(X)],結合上式,我們得到

μ^MLE=E[T(X)] = θA(θ^)=1Ni=1NT(xi)\hat\mu_{MLE} = \mathbb E[T(X)] ~{\color{red} = }~ \nabla_\theta A(\hat\theta) = \frac1N\sum_{i=1}^N T(x_i)

這個等式(紅色等號)之所以能夠成立,我們在上面的 導數與期望 小節中已經證明。

μ^MLE\hat\mu_{MLE} 是無偏的。因為

E[μ^MLE]=1Ni=1NE[T(Xi)]=1NNμ=μ\mathbb E [\hat\mu_{MLE}] = \frac1N\sum_{i=1}^N\mathbb E[T(X_i)] = \frac1N N\mu = \mu

μ^MLE\hat\mu_{MLE} 是有效的。可以證明 μ^MLE\hat\mu_{MLE} 是最小方差無偏估計 uniformly minimum-variance unbiased estimator (UMVUE)

上面我們說到,對數似然函數的一階導數也稱為 score function 記作

S(X;θ)=θl(X;θ)=θlogL(X;θ)=θlogi=1Nf(xi;θ)=i=1NT(xi)NθA(θ)\begin{align*} S(X;\theta) &= \nabla_\theta l(X;\theta) = \nabla_\theta\log L(X;\theta) = \nabla_\theta\log \prod_{i=1}^N f(x_i;\theta) \\ & = \sum_{i=1}^N T(x_i) - N\nabla_\theta A(\theta) \end{align*}

其中, XX 是樣本序列 {X1,X2,,Xn}\{X_1,X_2,\cdots, X_n\},對應的樣本觀測值為 {x1,x2,,xn}\{x_1, x_2,\cdots,x_n\}

參考 知乎問答,我們引入費舍爾信息 Fisher Information。費舍爾信息是 score function 的二階矩 second moment。

I(θ)=E[S2(X;θ)]I(\theta) = \mathbb E[S^2(X;\theta)]

Fisher Information 是用於衡量參數估計的精確度的。
N 次觀測得到的 Fisher Information 是單次觀測得到的 Fisher Information 的 N 倍
後文中我們將以單次觀測的 Fisher Information 為例

score function 是關於 θ\theta 的函數,顯然這個 fisher information 矩陣也是關於 θ\theta 的。 參考 維基百科網絡博客 易證明:

E[S(X;θ)]=XS(X;θ)f(x;θ) dx=Xθf(x;θ)f(x;θ)f(x;θ) dx=θXf(x;θ) dx=θ1=0\begin{align*} \mathbb E[S(X;\theta)] & = \int_X S(X;\theta) f(x;\theta) ~{\rm d}x = \int_X\frac{\frac{\partial}{\partial \theta} f(x;\theta)}{f(x;\theta)}f(x;\theta) ~{\rm d}x\\ &=\color{red} \frac{\partial}{\partial \theta}\int_X f(x;\theta)~{\rm d}x = \frac{\partial}{\partial \theta} 1 = 0 \end{align*}

此處根據勒貝格收斂定理,導數與積分發生互換。
離散情況將積分號替換成求和即可。可能會產生一個 N 倍關係。

因此 I(θ)=E[S2(X;θ)]E2[S(X;θ)]=Var[S(X;θ)]I(\theta) = \mathbb E[S^2(X;\theta)] - \mathbb E^2[S(X;\theta)] = Var[S(X;\theta)]。即 fisher information 是 score function 的方差。

由於此處 S(X;θ)S(X;\theta) 是二階可導的,因此可以證明:

E[S2(X;θ)]=E[2θ2logL(X;θ)]\begin{align*} \mathbb E[S^2(X;\theta)] =-\mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] \end{align*}

證明過程類似,由於

E[2θ2logL(X;θ)]=X2θ2logL(X;θ)f(x;θ) dx=XθS(X;θ)f(x;θ) dx=Xθ(θf(x;θ)f(x;θ))f(x;θ) dx=X(2θ2f(x;θ)f(x;θ)(θf(x;θ)f(x;θ))2)f(x;θ) dx=0X(θlogL(X;θ))2f(x;θ) dx=XS2(X;θ)f(x;θ) dx=E[S2(X;θ)]\begin{align*} \mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] &= \int_X \frac{\partial^2}{\partial\theta^2}\log L(X;\theta)f(x;\theta)~{\rm d}x = \int_X\frac{\partial}{\partial\theta}S(X;\theta)f(x;\theta)~{\rm d}x \\ &=\int_X\frac{\partial}{\partial\theta}\left(\frac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}\right)f(x;\theta)~{\rm d}x\\ &=\int_X\left(\frac{\frac{\partial^2}{\partial\theta^2}f(x;\theta)}{f(x;\theta)}-\left(\frac{\frac{\partial}{\partial\theta}f(x;\theta)}{f(x;\theta)}\right)^2\right)f(x;\theta)~{\rm d}x \\ &={\color{red} 0}-\int_X\left(\frac{\partial}{\partial\theta}\log L(X;\theta)\right)^2 f(x;\theta)~{\rm d}x \\ &=-\int_X S^2(X;\theta)f(x;\theta)~{\rm d}x\\ &=-\mathbb E[S^2(X;\theta)] \end{align*}

紅色部分積分為 0 是因為積分號與二階導互換後,求導得 0
離散情況將積分號替換成求和即可。可能會產生一個 N 倍關係。

我們於此總結一下 Fisher Information 的幾個等價替換式

I(θ)=E[S2(X;θ)]=E[2θ2logL(X;θ)]=E[θS(X;θ)]=Var[S(X;θ)]I(\theta) = \mathbb E[S^2(X;\theta)] = -\mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] = -\mathbb E\left[\frac{\partial}{\partial\theta}S(X;\theta)\right] = Var[S(X;\theta)]

另一方面,我們有 L(θ)=fX(x;θ)=h(x)exp{θ,T(x)A(θ)}L(\theta) = f_X(x;\theta) = h(x)\exp\{\langle\theta, T(x)\rangle-A(\theta)\}
取對數然後求二階導後,我們得到:

2θ2logL(X;θ)=2θ2A(θ)\frac{\partial^2}{\partial\theta^2}\log L(X;\theta) = -\frac{\partial^2}{\partial\theta^2} A(\theta)

所以,可以得到:

I(θ)=E[2θ2logL(X;θ)]=E[2θ2A(θ)]=Var[T(X)]I(\theta) = -\mathbb E\left[\frac{\partial^2}{\partial\theta^2}\log L(X;\theta)\right] = -\mathbb E\left[-\frac{\partial^2}{\partial\theta^2} A(\theta) \right] =Var[T(X)]

我們發現,自然參數 θ\theta 的 Fisher Information 正好是充分統計量的方差 Var[T(X)]Var[T(X)]

另一方面,

【未完待續】

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。