信賴區間(Confidence interval,CI)這個詞經常被提及,但是否真的了解其含義呢?
推論統計(statistical inference)中的參數估計(Parameter Estimation)是利用樣本統計量或其分配來估計母體參數, 例如想估計全班的身高平均, 假設全班的身高為常態分布, 隨機抽樣幾個人算身高平均, 就把它當成全班的平均, 這就是參數估計(平均值是常態分佈的一個參數)
參數估計又分成點估計(point estimate)和區間估計(Interval Estimation)
點估計顧名思義就是估計一個點, 把這個點當作母體參數, 而區間估計就是把母體參數視為一個區間範圍, 並不侷限在一固定的點
區間估計通常先求出點估計值, 然後在一個信賴水準下導出一個信賴區間, 這個信賴區間是一組上下限, 而信賴水準是指該區間包含母體參數的可信度
舉例來說, 若我們想對母體平均值做一個信賴水準95%的區間估計, 而假設資料是常態分布, 則樣本平均:
\[ \bar{X} \sim N(\mu , \frac{\sigma^2}{n} ) \]
將它標準化:
\[ Z = \frac{\bar{X}-\mu}{ \frac{\sigma}{\sqrt{n}}} \]
信賴水準95%表示:
\[P(-z\leq Z\leq z)= 1- \alpha =0.95 \]
\(z\)是quantile, 可以用程式語言python套件scipy的scipy.stats.norm.ppf(1-0.025)
求得, ppf (\(\Phi^{-1}\))是cdf的反函數
1 | import scipy.stats as stats |
1.959963984540054
故\(z\)約等於\(1.96\):
\[P(-1.96\leq Z\leq 1.96)= 1- \alpha =0.95 \]
將標準化後的\(Z\)代入:
\[P(-1.96\leq \frac{\bar{X}-\mu}{ \frac{\sigma}{\sqrt{n}}} \leq 1.96)= 1- \alpha =0.95 \]
整理一下:
\[ P(\bar{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+ 1.96 \frac{\sigma}{\sqrt{n}} )= 0.95\]
這表示我們可以從樣本平均數\(\bar{X}\), 樣本數\(n\), 和母體標準差\(\sigma\)估算95%信心水準的信賴區間為:
\[ [ \bar{X}-1.96 \frac{\sigma}{\sqrt{n}} , \bar{X}+ 1.96 \frac{\sigma}{\sqrt{n}} ] \]