論文讀到指數型分布族相關內容,遂做一個整理。不盡準確,望大佬們不吝指教。
指數分布族 Exponential Family 也稱為指數族、指數族分布,是統計中最重要的參數分布族。
學習指數型分布族,應當與指數分布 Exponential Distribution 區分開來。兩者並不是同一個東西。
所謂 “族”,英語裡中稱為 family,通常是具有相似特徵的一類。指數型分布族是一組分布,其概率密度函數和概率分布函數隨著分布參數的變化而變化。
常見的指數型分布族包括:
正態分布、卡方分布、二項分布、多項分布、Poisson 分布、Pascal 分布、 β分布、 Γ分布、對數正態分布等等。具體可見維基百科詞條和知乎專欄。
指數分布族#
指數型分布族 exponential family 的概率密度函數有以下表現形式:
fX(x;θ)=h(x)exp{⟨η(θ),T(x)⟩−A(θ)}
其中,θ 是唯一的參數,滿足上式的所有 θ 構成參數空間 Θ,對應的參數分布族 {Pθ:θ∈Θ} 是指數族。必須注意,這裡的參數 θ 不局限於狹隘的實數,也可以是 n 維向量 θ∈Rn。
參數 θ 改變,分布 X 的形態(概率密度函數、概率分布函數以及對應的圖像)也將改變。隨機變量 x 服從於分布 X。函數 T(x),h(x),η(θ),A(θ) 都是已知函數。函數 h(x) 為非負函數。
h(x) 通常被稱為是基礎度量 base measure.
T(x) 是充分統計量 sufficient statistic.
A(θ) 是累積量生成函數 cumulant generating function 或稱為對數配分函數(配分函數的對數) log-partition function 。顯然 A(θ) 是實值函數,返回一個實數。
其中,η(θ) 與 T(x) 可以是實數,也可以是向量。
由定義式子可以看出,根據指數函數的性質 exp{⋅}=e{⋅}>0 是非負的。所以指數族的支撐集只與 h(x) 有關。也就是說,只與 x 有關,而與未知參數 θ 無關。我們利用這一點,可以排除非指數型分布族(比如均勻分布)。
這裡需要簡單補充一下所謂支撐集的概念。簡單來說,對於實值函數 f 而言, f 的支撐集定義為:
supp(f)={x∈X:f(x)=0}
支撐集是函數 f 原定義域 X 的一個子集。了解更多,可以參考 維基百科詞條 或 CSDN 博客。在概率密度函數中,由於概率非負,可以定義隨機變量的支撐集為(見 知乎專欄):
supp(X)={x∈R:fX(x)>0}
幾種等價形式#
基於指數的運算法則,通過等價變換,給出指數族的兩種等價形式:
fX(x;θ)=h(x)g(θ)exp{⟨η(θ),T(x)⟩}
fX(x;θ)=exp{⟨η(θ),T(x)⟩−A(θ)+B(x)}
對應的替換關係是:−A(θ)=lng(θ),B(x)=lnh(x)
特別地,我們取 Z(θ)=g(θ)1, 可以得到另一中非常常見的指數族的表達式如下。其中 Z(θ) 是這個分布的配分函數 partition function。
fX(x;θ)=Z(θ)1h(x)exp{⟨η(θ),T(x)⟩}
規範形式#
上述定義式中,η(θ) 是關於參數 θ 的一個函數。在指數族中,我們要求 η(⋅) 是一個雙射函數(也就是一一對應函數)。雙射意味著函數單調可導,且存在反函數。
我們借助雙射函數的特性,就可以簡化指數族的形式。令 θ^=η(θ),當然,這個變化是可逆的 θ=η−1(θ^)。 於是,我們得到:fX(x;θ^)=h(x)exp{⟨θ^,T(x)⟩−A′(θ^)}
等價替換一下符號,我們得到指數族規範形式 Canonical Form 如下:
fX(x;θ)=h(x)exp{⟨θ,T(x)⟩−A(θ)}
我們通常把更新過後的這個參數 θ 稱為指數族的規範參數(或自然參數)。
自然形式#
雖然在定義上各有各的說法,但一般認為指數族的自然形式 Natural Form 和規範形式兩者等同或幾乎等同。例如斯坦福大學材料,伯克利大學材料,麻省理工課件,博客,知乎專欄 1 以及 知乎專欄 2。
維基百科提供了另一種理解,這裡不做介紹。
自然參數空間#
介紹自然參數空間 Natural Parameter Space 之前,我們首先介紹對數配分函數 log-partition function A(θ)
A(θ)=log(∫Xh(x)exp{⟨θ,T(x)⟩} dx)
所謂配分函數,可以理解為歸一化常數的一種特殊形式。
對數配分函數 A(θ) 使得 fX(x;θ) 得以歸一化,也就是說,保證了 fX(x;θ) 是一個概率密度函數。理解這個歸一化,可以參考上文 幾種等價形式 小節中的這個表達式
fX(x;θ)=Z(θ)1h(x)exp{⟨η(θ),T(x)⟩}
其中Z(θ)=∫Xh(x)exp{⟨θ,T(x)⟩} dx是與 x 無關的一個函數。然後把兩邊式子同時積分,得到
∫XfX(x;θ)=Z(θ)1∫Xh(x)exp{⟨η(θ),T(x)⟩}=1
所謂自然參數空間,就是使配分函數有限 (<∞) 時的參數 θ 的集合,即:
N={θ:∫Xh(x)exp{⟨θ,T(x)⟩} dx<∞}={θ:Z(θ)<∞}
自然參數空間有這一些特殊的性質。首先,自然參數空間 N 是一個凸集 Convex Set,對數配分函數 A(θ) 是一個凸函數 Convex Function。證明如下:
考慮兩個不同的參數 θ1∈N, θ2∈N,給定 0<λ<1 證明 θ=λθ1+(1−λ)θ2 也在自然參數空間 N 內(即證明 θ∈N 也成立)
Z(θ)=exp{A(θ)}=exp{A(λθ1+(1−λ)θ2)}=∫Xh(x)exp{⟨(λθ1+(1−λ)θ2),T(x)⟩} dx=∫X(h(x)λexp{⟨λθ1,T(x)⟩})(h(x)1−λexp{⟨(1−λ)θ2,T(x)⟩}) dx≤(∫Xh(x)exp{λ1⟨λθ1,T(x)⟩} dx)λ(∫Xh(x)exp{1−λ1⟨(1−λ)θ2,T(x)⟩} dx)1−λ=Z(θ1)λ⋅Z(θ2)1−λ
上式中的 ≤ 來自於赫爾德不等式 Hölder's inequality 其定義可以參考 Wolfram MathWorld 或 知乎專欄。 值得一提的是,著名的數學軟件 Mathematica 就是 Wolfram Research 公司開發的。
因為 θ1,θ2∈N 即 Z(θ1),Z(θ2)<∞ 成立。所以 Z(θ)=Z(θ1)λ⋅Z(θ2)1−λ<∞ 也成立,根據定義,即可得 θ∈N。於是可以證明自然參數空間 N 是一個凸集。
將上式取對數,得到:
A(θ)=A(λθ1+(1−λ)θ2)≤λA(θ1)+(1−λ)A(θ2)
於是可以證明,對數配分函數 A(θ) 是一個凸函數。當 θ1=θ2 時,Hölder's inequality 無法取到等號,A(θ) 是嚴格的凸函數。
關於凸集、凸函數的定義,可以參看凸優化教程 知乎專欄 或凸優化經典教材 cvxbook by Stephen Boyd
指數分布族實例#
回顧指數族的規範形式,下面我們證明幾種常見的分布,屬於指數族。
fX(x;θ)=h(x)exp{⟨θ,T(x)⟩−A(θ)}
伯努利分布(兩點分布)#
伯努利分布的概率質量函數(伯努利分布是離散的,所以是概率質量函數)為:
p(x;λ)=λx⋅(1−λ)(1−x)
其中,λ 是這個伯努利分布的參數(事件發生的概率),x=0 (事件不發生),x=1 (事件發生)。不存在其他的 x 取值。
我們將式子改寫:
p(x;λ)=λx⋅(1−λ)(1−x)=exp{log(1−λλ)x+log(1−λ)}
我們取
θ=1−λλ,T(x)=x,A(θ)=−log(1−λ)=log(1+eθ),h(x)=1
可證伯努利分布屬於單參數指數族。
泊松分布#
泊松分布的概率質量函數如下:
p(x;λ)=x!λxe−λ=x!1exp{xlogλ−λ}
取
θ=logλ,T(x)=x,A(θ)=λ=eθ,h(x)=x!1
可證泊松分布屬於單參數指數族。
高斯分布(正態分布)#
高斯分布的概率密度函數如下
p(x;μ,σ2)=2πσ1exp{−2σ21(x−μ)2}=2π1exp{σ2μx−2σ21x2−2σ21μ2−logσ}
取
θ=μ/σ2−1/2σ2,T(x)=xx2,A(θ)=2σ2μ2+logσ=−4θ2θ12−21log(−2θ2),h(x)=2π1
可證高斯分布屬於多參數指數族。
指數族的性質#
充分統計量#
關於充分統計量的理解,在本文之外,還可以參看 知乎專欄 或 博客。這些材料對理解內容也會有很大幫助。本文的筆記內容,也部分來自於這些材料。
記 X1,⋯,Xn 是 X 的一組樣本。在觀測前,樣本X1,⋯,Xn 是隨機變量,在觀測後,樣本 X1,⋯,Xn 是具體的值。
在數理統計的角度,我們希望通過樣本,來推斷原分布。充分統計量 Sufficient Statistic 作為統計量 Statistic 是定義在樣本空間上的可測函數,記作 T(X1,⋯,X2) 很多地方也直接寫作 T(X)。作為統計量,它縮減了原來隨機變量包含的信息。
比如說,求樣本均值時,樣本值的順序,是我們不關心的信息。
對於一組樣本,樣本本身會存在一個聯合概率密度函數,可以記作 f(x) 。如果這個分布本身不存在參數(或參數已知),那麼這個函數本質上就刻畫了這一組樣本包含的所有信息。
上述的聯合概率密度函數,若存在未知的參數 θ,則記作 f(x;θ) 或 fθ(x)。給定統計量 T 的值 T=t,如果對應的條件分布 Fθ(X∣T=t) 是一個與未知參數 θ 無關的分布(也就是說,是一個確定的分布)那麼這個統計量 T 就是一個充分統計量 Sufficient Statistic
充分統計量,保留了關於參數 θ 的全部有用信息,消除了無用信息。
在充分統計量的基礎上,我們更近一步,介紹極小充分統計量 Minimum Sufficient Statistic。在直覺上,我們肯定希望充分統計量的形式越簡單越好,極小充分統計量的定義就是這麼來的。
如果 T⋆=T⋆(X) 是一個充分統計量,對於任意的充分統計量 T=T(X),存在可測函數 φ,使得 T⋆=φ(T) 那麼, T⋆ 是極小充分統計量。
這個定義的邏輯在於:如果 T⋆ 是充分統計量,那麼 T 一定是充分統計量。
導數與期望#
學習期望時,我們知道,求解期望是在算一個積分。但指數分布族的特殊性質能將期望與導數聯繫起來。而求導一般比積分簡單,因此我們會更喜歡導數。
我們對累積量生成函數 Cumulant Generating Function A(θ) 求一階導,可以得到充分統計量 T 的期望。
∂θT∂A(θ)=∂θT∂{log∫Xh(x)exp{⟨θ,T(x)⟩} dx}=∫Xh(x)exp{⟨θ,T(x)⟩} dx∫XT(x)h(x)exp{⟨θ,T(x)⟩} dx=Z(θ)1∫XT(x)h(x)exp{⟨θ,T(x)⟩} dx=∫XT(x)h(x)exp{⟨θ,T(x)⟩−A(θ)} dx=∫XT(x)fX(x;θ) dx=E[T(X)]
這裡的公式比較繞,有幾個點需要注意:
- 為什麼對於 θT 求導?可以簡單理解成為了保證應用求導的鏈式法則時, ⟨θ,T(x)⟩ 求導出來的東西是 T(x) 而不是 T(x)T
- 為什麼求導符號和積分符號可以換?這裡滿足勒貝格控制收斂定理 Dominated Convergence Theorem
- 為什麼式子裡又多出了個 A(θ) ?我們發現分母部分正好可以提出一個配分函數 Z(θ),這個量是與積分變量 x 無關的,因此我們可以按照指數的運算法則,把它移進去。這一步可以參考上文的 幾種等價形式 那個小節。
- 最後一步怎麼變成期望的?因為 fX(x;θ) 是概率分布。
導數與方差#
對累積量生成函數 A(θ) 求二階導,可以得到充分統計量 T 的方差。
∂θ∂(∂θT∂A(θ))=∂θ∂∫XT(x)h(x)exp{⟨θ,T(x)⟩−A(θ)} dx=∫XT(x)h(x)exp{⟨θ,T(x)⟩−A(θ)}(T(x)T−∂θ∂A(θ)) dx=∫XT(x)(T(x)−∂θT∂A(θ))Th(x)exp{⟨θ,T(x)⟩−A(θ)} dx=∫XT(x)(T(x)−E[T(X)])Th(x)exp{⟨θ,T(x)⟩−A(θ)} dx=∫XT(x)T(x)Th(x)exp{⟨θ,T(x)⟩−A(θ)} dx−E[T(X)]T∫XT(x)h(x)exp{⟨θ,T(x)⟩−A(θ)} dx=E[T(X)T(X)T]−E[T(X)]⋅E[T(X)]T=Var[T(X)]
與上一節類似,這裡也用到了導數積分互換,具體細節可以參看勒貝格控制收斂定理。
關於矩陣、向量的求導和轉置,可以參看 博客園博客 。博客以及文中的引用鏈接給出了詳細的解釋。
參數化#
所謂參數化 parameterization 意味著用參數來表示。
如果指數族的參數 θ 的元素是線性無關的,充分統計量 T(x) 的元素也是線性無關的,那麼我們可以稱這個指數族為最小指數族 minimal exponential family
似乎沒有 minimal exponential family 的對應中文翻譯,所以粗暴字面翻譯最小指數族。但感覺翻譯成最簡指數族可能更加貼切一點。原因如下:
對於那些非 minimal 的指數族 (non-minimal) 的指數族,我們可以通過某種合適的參數替換或參數變換,得到一個最小指數族。
最小指數族對數配分函數 A(θ) 是嚴格的凸函數,滿足 Fenchel's inequality。在介紹 Fenchel 不等式之前,首先引入凸共軛。
參考 維基百科
凸共軛 Convex Conjugate(也稱 Fenchel Conjugate)
對於原空間 X 上的擴充實值函數 extended real-valued function
f:X→R ∪ {−∞,+∞}
它在對偶空間 dual space X∗ 上的共軛函數 conjugate function 記作
f∗=X∗→R ∪ {−∞,+∞}
我們定義對偶空間中的點 x∗∈X∗ 與原空間中的點 x∈X 的對應關係是:
f∗(x∗)=sup{⟨x∗,x⟩−f(x)}
其中,sup 是 supremum,即最小上界(上確界)。還有 inf(infimum) 是最大下界(下確界)與 max(maximum) 和 min(minimum) 的區別在於:
CSDN 博客,知乎專欄
- 實值函數的必有上確界 / 下確界(一定能取到)。但不一定有最大值或最小值(可能最大 / 最小值點在定義上會取不到)。比如 f(x)=xsinx。
- 如果最大值 / 最小值能取到,就是上確界 / 下確界。
對於 A(θ) 來說,其凸共軛 A∗(θ∗) 是
A∗(θ∗)=sup{⟨θ∗,θ⟩−A(θ)}
我們定義 μ=E[T(X)],於是 ∂θT∂(⟨θ∗,θ⟩−A(θ))=θ∗−μ 。
因此,當 θ∗=μ 時,導數值為零,取到上確界。對應凸共軛為 A∗(μ)=⟨μ,θ⟩−A(θ),稍作變形我們得到
A∗(μ)+A(θ)=⟨μ,θ⟩
Fenchel 不等式 Fenchel's inequality
另一方面,根據 Fenchel 不等式,任意 x∈X, x∗∈X∗ 有
f(x)+f∗(x∗)≥⟨x∗,x⟩
由於 μ∈∂A(θ) 上式取到等號。
均值表示法 指數族可以採用標準參數化 canonical parameterization 來表示,也可以以均值參數化 mean parameterization 來表示。因為 θ 與均值 μ 是一一對應的。即,既可以看做是 θ 的函數,也可以看做是均值 μ 的函數。
統計推斷#
最大似然估計求總體均值#
首先回顧一下最大似然估計 Maximum Likelihood Estimation 的理念。
有一個未知的分布,我們有一系列的樣本觀測值。於是我們要拿著這些樣本觀測值,去反猜最有可能的分布。這就出現了兩個問題:
- 模型確定嗎?一般為了簡化問題,會告知模型。實際問題中,如果沒有告知模型,可能需要逐個模型去嘗試。
- 參數確定嗎?參數是不確定的。如果模型已知,那麼一般操作是以這一組樣本觀測值去擬合模型,然後反推參數。
以最大似然估計求總體均值 μ 。步驟:
- 已知 n 次重複採樣的獨立同分布樣本觀測值構成集合 D=(x1,x2,⋯,xN)
- 寫出似然函數。方法是直接把這些樣本值帶入概率密度函數,並將結果相乘。
L(θ∣D)=i=1∏Nf(xi;θ)=i=1∏Nh(xi)exp{⟨η(θ),T(xi)⟩−A(θ)}
- 對似然函數取對數,並求導,得到 score function
l(θ∣D)=logL(θ∣D)=log(i=1∏Nh(xi))+θT(i=1∑NT(xi))−NA(θ)∇θl(θ∣D)=i=1∑NT(xi)−N∇θA(θ)
- 令導數為 0,解似然方程。
∇θl(θ∣D)=0⟹∇θA(θ^)=N1i=1∑NT(xi)
最大似然估計,本質是讓似然函數取到極大值。但也有特殊情況:
- 如果對數似然函數單調,導致導數零點不存在
- 或由於樣本太少,導致導數零點雖然存在但取不到的情況發生
一般會取端點值。
我們定義總體均值 μ=E[T(X)],結合上式,我們得到
μ^MLE=E[T(X)] = ∇θA(θ^)=N1i=1∑NT(xi)
這個等式(紅色等號)之所以能夠成立,我們在上面的 導數與期望 小節中已經證明。
μ^MLE 是無偏的。因為
E[μ^MLE]=N1i=1∑NE[T(Xi)]=N1Nμ=μ
μ^MLE 是有效的。可以證明 μ^MLE 是最小方差無偏估計 uniformly minimum-variance unbiased estimator (UMVUE)
上面我們說到,對數似然函數的一階導數也稱為 score function 記作
S(X;θ)=∇θl(X;θ)=∇θlogL(X;θ)=∇θlogi=1∏Nf(xi;θ)=i=1∑NT(xi)−N∇θA(θ)
其中, X 是樣本序列 {X1,X2,⋯,Xn},對應的樣本觀測值為 {x1,x2,⋯,xn}
參考 知乎問答,我們引入費舍爾信息 Fisher Information。費舍爾信息是 score function 的二階矩 second moment。
I(θ)=E[S2(X;θ)]
Fisher Information 是用於衡量參數估計的精確度的。
N 次觀測得到的 Fisher Information 是單次觀測得到的 Fisher Information 的 N 倍。
後文中我們將以單次觀測的 Fisher Information 為例
score function 是關於 θ 的函數,顯然這個 fisher information 矩陣也是關於 θ 的。 參考 維基百科 和 網絡博客 易證明:
E[S(X;θ)]=∫XS(X;θ)f(x;θ) dx=∫Xf(x;θ)∂θ∂f(x;θ)f(x;θ) dx=∂θ∂∫Xf(x;θ) dx=∂θ∂1=0
此處根據勒貝格收斂定理,導數與積分發生互換。
離散情況將積分號替換成求和即可。可能會產生一個 N 倍關係。
因此 I(θ)=E[S2(X;θ)]−E2[S(X;θ)]=Var[S(X;θ)]。即 fisher information 是 score function 的方差。
由於此處 S(X;θ) 是二階可導的,因此可以證明:
E[S2(X;θ)]=−E[∂θ2∂2logL(X;θ)]
證明過程類似,由於
E[∂θ2∂2logL(X;θ)]=∫X∂θ2∂2logL(X;θ)f(x;θ) dx=∫X∂θ∂S(X;θ)f(x;θ) dx=∫X∂θ∂(f(x;θ)∂θ∂f(x;θ))f(x;θ) dx=∫Xf(x;θ)∂θ2∂2f(x;θ)−(f(x;θ)∂θ∂f(x;θ))2f(x;θ) dx=0−∫X(∂θ∂logL(X;θ))2f(x;θ) dx=−∫XS2(X;θ)f(x;θ) dx=−E[S2(X;θ)]
紅色部分積分為 0 是因為積分號與二階導互換後,求導得 0
離散情況將積分號替換成求和即可。可能會產生一個 N 倍關係。
我們於此總結一下 Fisher Information 的幾個等價替換式:
I(θ)=E[S2(X;θ)]=−E[∂θ2∂2logL(X;θ)]=−E[∂θ∂S(X;θ)]=Var[S(X;θ)]
另一方面,我們有 L(θ)=fX(x;θ)=h(x)exp{⟨θ,T(x)⟩−A(θ)}
取對數然後求二階導後,我們得到:
∂θ2∂2logL(X;θ)=−∂θ2∂2A(θ)
所以,可以得到:
I(θ)=−E[∂θ2∂2logL(X;θ)]=−E[−∂θ2∂2A(θ)]=Var[T(X)]
我們發現,自然參數 θ 的 Fisher Information 正好是充分統計量的方差 Var[T(X)]
另一方面,
【未完待續】