十九·(1)均數的抽樣誤差和總體均數的估計

一、均數的十抽十樣誤差

第十六章講瞭總體與樣本的關系。十抽十樣研究的目的是用樣本信息推斷總體特征。假設要瞭解某地20歲健康男大學生身高的總體均數,我們在該地隨機十抽十取瞭110名健康男大學生,得身高的樣本均數為172.73(cm),可用它估計該地20歲健康男大學生身高的總體均數。由於存在變異,用樣本算得的樣本均數x往往不等於總體均數μ;若再從該地20歲健康男大學生中隨機十抽十取含量皆為110人的很多個樣本,因各樣本包含的個體不同,所得的各個樣本均數也不一定都相等,這種由十抽十樣而造成的樣本均數與總體均數之差異或各樣本均數之差異稱為均數的十抽十樣誤差。

在十抽十樣研究中,十抽十樣誤差是不可避免的,但可以估計其大小,可通過下面的模擬試驗說明。現把例18.2中110名20歲健康男大學生的身高寫在110個玻璃球上,把該110個身高數值作為假設的有限總體,其總體均數μ=172.73(cm),標準差σ為4.09(cm)。將這些玻璃球放在佈袋中作隨機十抽十樣試驗,每次從中隨機十抽十取10個玻璃球為一樣本,記錄下數據並計算其均數、標準差、然後把10個玻璃球再放入佈袋,充分混勻後再十抽十,共重復100次,求得100個樣本均數x和標準差s,其樣本均數入表19-1。

表19-1 100個10球樣本均數


173.22172.06170.89174.07172.60173.14172.61172.26171.93172.85
175.23173.76174.77172.57171.76172.74173.36173.69171.10173.40
173.87172.70173.23173.08172.46171.54171.72170.95172.89173.43
170.61173.82171.02173.11172.51172.07171.60171.79172.98172.05
171.11173.66171.21173.15172.12172.53173.21173.25172.03172.42
175.02171.45173.76176.02173.52172.28170.59171.93173.54172.44
172.05173.44174.01172.77174.04171.37172.07173.85173.06170.41
171.88173.38172.83170.89174.55171.45174.11171.88172.78173.73
171.73172.58174.50172.58172.89173.40174.21172.34171.18171.19
172.70172.77173.47172.13172.56172.13169.63170.71172.63172.14


上述模擬試驗的結果表明,在十抽十樣研究中十抽十樣誤差是不可避免的。反映均數十抽十樣誤差大小的指標是樣本均數x的標準差,簡稱標準誤(standard error)。

二、標準誤的計算

按照前述標準差的加權計算法,將表19-1的資料歸納成表19-2,可看出樣本均數的分佈仍服從正態分佈,然後按式(18.2),(18.14)計算樣本均數的均數(記作x)和樣本均數的標準差(記作sx)。

表19-2 100個樣本均數的頻數表及x、sx計算表


身高組段(cm)頻數f組中值ffXFX2
169~1169.5169.528730.25
170~7170.51193.5203491.75
171~19171.53258.0558832.75
172~36172.56210.01071225.00
173~26173.54511.0782658.50
174~8174.51396.0243602.00
175~2175.5351.061600.50
176~1771176.5176.531152.25
合計100 17266.02981293.00


數學上可以證明:①各樣本均數的均數x等於μ;②標準誤σx(理論值)按式(19.1)計算

σx=σ/x公式(19.1)

式中,σ為總體標準差,n為樣本含量。

本試驗各樣本試驗均數的均數x=172.66(cm)與μ=172.73(cm)相近,按式(19.1)算得的σx=4.09/x=1.29(cm)與本試驗所得的樣本均數的標準差sx=1.21(cm)也很接近。

在實際的十抽十樣研究中,σ常屬未知,通常用單一樣本標準差s來估計,得出標準誤sx(估計值),其計算公式為:

sx=s/x 公式(19.2)

例如模擬試驗中1號樣本的標準差s=4.05(cm),其標準誤sx(估計值)=4.05/x=1.28(cm)。

標準誤sx用來說明十抽十樣誤差的大小。由式(19.1)、(19.2)可知,標準誤的大小與標準差的大小成正比,與x成反比。

三、t分佈(t-distribution)

在前一章正態分佈中曾提到,為瞭應用方便,常將正態變量進行變量變換-u變換[u=(X-μ)/σ],使一般的正態分佈變換為標準正態分佈。上述十抽十樣模擬試驗表明,在正態分佈總體中以固定n(本試驗n=10)十抽十取若幹樣本時,樣本均數x的分佈仍服從正態分佈,即N(μ,σx)。那末,對此進行u變換[u=(x-μ)/σx],也可變換為標準正態分佈N(0,1),如圖19-1。

標準正態分佈示意圖

圖19-1 標準正態分佈示意圖

由於實際工作中,σ往往是未知的,常用sx作為σx的估計值,為與u變換區別,稱為t變換[t=(x-μ)/sx],t值的分佈為t分佈。t分佈的特征:①是以0為中心的對稱分佈的曲線;②其形態變化與n(確切地說與自十由度v)大小有關。自十由度v越大,t分佈越接近u分佈;自十由度越小,t 分佈中間越低平且兩端向外伸展,所以t分佈不是一條曲線,而是一簇曲線,如圖19-2。因此,t曲線下面積為95%或99%的界值不是一個常量,而是隨自十由度大小而變化的。為瞭便於應用,統計學上根據自十由度大小與t曲線下面積的關系,換算出t值表(附表19-1)以備參考。因t分佈是以0為中心的對稱分佈,故附表19-1隻列出正值,若算得的t值為負值時,可用其絕對值查表。

自十由度分別為1、5、∞的t分佈

圖19-2 自十由度分別為1、5、∞的t分佈

四、總體均數可信區間(confidence interval)的估計

用樣本指標(統計量,statistic)來估計總體指標(參數,parameter),稱為參數估計。是十抽十樣研究的主要目的之一。參數估計的方法有兩種。一是點(值)估計(point estimation),如用樣本均數估計總體均數。該法簡單,但未考慮十抽十樣誤差,而十抽十樣誤差在十抽十樣研究中又是不可避免的;二是用區間估計(interval estimation),即按一定的可信度估計未知總體均數所在范圍。統計上十習十慣用95%(或99%)可信區間表示總體均數μ有95%(或99%)的可能在某一范圍。下面以總體均數μ的95%可信區間為例,介紹其計算公式。σ已知時按正態分佈原理計算,σ未知時按t分佈原理計算。

(一)σ已知時:由u分佈可知,正態曲線下有95%的u值在±1.96之間,即:

-1.96≤u≤+1.96

移項後,x-1.96σx≤μ≤x+1.96σx,故總體均數μ的95%可信區間為

(x-1.96σx,x+1.96σx) 公式(19.3)

(二)σ未知,但n足夠大(如n>100)時:由t分佈可知,當自十由度v越大,t分佈越十逼十近u分佈,此時t曲線下有95%的t值約在±1.96之間,即

-1.96≤t≤+1.96

x-1.96σx≤μ≤x+1.96σx,故總體均數μ的95%可是信區間為

(x-1.96sx,x+1.96sx)公式(19.4)

(三)σ未知且n小時:某自十由度v的t曲線下有95%的t值在±t0.05(v)之間,即

-t0.05(v)≤t≤t0.05(v)

x-t0.05(v)sx≤μ≤x+t0.05(v)sx,故總體均數μ的95%可信區間為

(x-t0.05(v)sx,x+t0.05(v)sx)公式(19.5)

例19.1 由例18.2某地110名20歲健康男大學生的身高資料,算得身高均數x為172.73(cm),標準差為4.09(cm),試估計該地20歲健康男大學生身高均數的95%可信區間。

該例n=110,n較大,按式(19.4)計算

(172.73-1.96×4.09/,172.3+1.96×4.09/)=(171.79,173.49)該地20歲健康男大學生身高均數的95%的可信區間為171.97~173.49(cm)。

例19.2 由例18.1的11名20歲健康男大學生身高資料得出x為172.25(cm),s為3.31(cm),試估計該地20歲健康男大學生身高均數的95%可信區間。

該例n=11,n較小,按式(19.5)計算。V=11-1=10,由t值表查得t0.05(10)=2.228。

(172.25-2.228×3.31/,172.25+2.228×3.31/)=(170.03,174.47)該地20歲健康男大學生身高均數的95%可信區間為170.03~174.47(cm)。

《預防醫學》