統計中的信賴區間(Confidence interval)介紹

信賴區間(Confidence interval,CI)這個詞經常被提及,但是否真的了解其含義呢?

推論統計(statistical inference)中的參數估計(Parameter Estimation)是利用樣本統計量或其分配來估計母體參數, 例如想估計全班的身高平均, 假設全班的身高為常態分布, 隨機抽樣幾個人算身高平均, 就把它當成全班的平均, 這就是參數估計(平均值是常態分佈的一個參數)

參數估計又分成點估計(point estimate)和區間估計(Interval Estimation)

點估計顧名思義就是估計一個點, 把這個點當作母體參數, 而區間估計就是把母體參數視為一個區間範圍, 並不侷限在一固定的點

區間估計通常先求出點估計值, 然後在一個信賴水準下導出一個信賴區間, 這個信賴區間是一組上下限, 而信賴水準是指該區間包含母體參數的可信度

舉例來說, 若我們想對母體平均值做一個信賴水準95%的區間估計, 而假設資料是常態分布, 則樣本平均:

\[ \bar{X} \sim N(\mu , \frac{\sigma^2}{n} ) \]

將它標準化:

\[ Z = \frac{\bar{X}-\mu}{ \frac{\sigma}{\sqrt{n}}} \]

信賴水準95%表示:

\[P(-z\leq Z\leq z)= 1- \alpha =0.95 \]

\(z\)是quantile, 可以用程式語言python套件scipy的scipy.stats.norm.ppf(1-0.025)求得, ppf (\(\Phi^{-1}\))是cdf的反函數

1
2
import scipy.stats as stats
stats.norm.ppf(1-0.025)

1.959963984540054

\(z\)約等於\(1.96\):

\[P(-1.96\leq Z\leq 1.96)= 1- \alpha =0.95 \]

將標準化後的\(Z\)代入:

\[P(-1.96\leq \frac{\bar{X}-\mu}{ \frac{\sigma}{\sqrt{n}}} \leq 1.96)= 1- \alpha =0.95 \]

整理一下:

\[ P(\bar{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+ 1.96 \frac{\sigma}{\sqrt{n}} )= 0.95\]

這表示我們可以從樣本平均數\(\bar{X}\), 樣本數\(n\), 和母體標準差\(\sigma\)估算95%信心水準的信賴區間為:

\[ [ \bar{X}-1.96 \frac{\sigma}{\sqrt{n}} , \bar{X}+ 1.96 \frac{\sigma}{\sqrt{n}} ] \]