最大似然估計法(Maximum Likelihood Estimation, MLE)是一種頻率學派的方法, 是統計上很常用的點估計方法
似然函數(likelihood function)是一種在參數\(\theta\)下觀察到樣本出現的條件機率:
\[ L(\theta) = \prod^{n}_{i=1} {f(x_i|\theta)} \]
多取一個log, 比較方便後續微分, 叫做對數似然函數(log likelihood function):
\[l(\theta)=log(L(\theta))=\prod^{n}_{i=1} { log \ f(x_i|\theta)}\]
以下所有的\(L\)都可以用\(l\)來代替
最大似然估計法(Maximum Likelihood Estimation, MLE)是藉由給定的樣本尋找最可能的\(\theta\), 藉此來最大化似然函數(likelihood function)的方法
\[ \max_{\theta}\ L(\theta)\]
假設存在一個唯一的\(\hat{\theta}\)使得似然函數最大化, 此時:
\[ \frac{ \partial L(\theta) }{\partial \theta} = 0\ ,\ \frac{ \partial L^2(\theta) }{\partial \theta^2} < 0 \]
其中\(x_i\)是已知的樣本, 假定\(f\)是含未知參數但形式已知的函式(假設可微分), 此時可藉由上式求解最佳母體參數\(\hat{\theta}\), 求得後, 可以用該參數的母體來進行新樣本的推論
若假設樣本為常態分佈:
\[ X_1, X_2, ..., X_n \sim i.i.d.\ N(\mu, \sigma) \]
參數\(\theta\)則為\(\mu\)和\(\sigma\), 此時的\(f\)是常態分佈的pdf(機率密度函數):
\[ f(x| \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2 }}\ exp(- \frac{(x-\mu)^2}{2 \sigma^2})\]
此時的最大對數似然函數, 經過一次微分等於零的操作後, 可以解得\(\hat{\mu}\)和\(\hat{\sigma}\):
\[ \hat{\mu} = \bar{x} = \sum^n_{i=1} \frac{x_i}{n}\]
\[ \hat{\sigma}^2 = \frac{1}{n}\sum^n_{i=1} (x_i-\bar{x})^2\]
以上就是我們常用的母體平均值和母體變異數估計公式, 是假設常態分佈的情況下推導出來
其中, 參數\(\hat{\mu}\)的估計量滿足不偏性(non-bias):
\[E[\hat{\mu}] = \mu\]
參數\(\hat{\sigma}^2\)的估計量卻沒有滿足不偏性:
\[E[\hat{\sigma}^2] = \frac{n-1}{n}\ \hat{\sigma}^2\]
這就是樣本變異量要除以\(n-1\)的原因:
\[ s^2 = \frac{1}{n-1}\sum^n_{i=1} (x_i-\bar{x})^2\]
這樣代進去才會讓母體變異數正確地滿足不偏性