十八·(1)集中趨勢指標和離散趨勢指標

第一節 集中趨勢指標

平均數是統計中應用最廣泛、最重要的一個指標體系。常用的有算術均數、幾何均數、中位數三個指標。它們用於描述一組同質計量資料的集中趨勢或反映一組觀察值的平均水平。

一、算術均數(arithmetic mean)

簡稱對數(mean)。十習十慣上以表示樣本均數,以希臘字母μ表示總體均數。均數適用於對稱分佈,特別是正態或近似正態分佈的計量資料,其計算方法有:

(一)直接法

當樣本的觀察值個數不多時,將各觀察值X1,X2,……,Xn相加再除以觀察值的個數n(樣本含量)即得均數。其公式為:

公式(18.1)

式中,希臘字母Σ(讀作sigma)是求和的符號。

例18.1 某地11名20歲健康男大學生身高(cm)分別為174.9,173.1, 171.8,179.0,173.9,172.7,166.2,170.8,171.8,172.1,168.5。試計算其均數。

(二)加權法

當觀察值個數較多時,可先將各觀察值分組歸納成頻數表,用加權法求均數。其計算步驟如例18.2。

例18.2 某地1993年隨機測量瞭該地110名20歲健康男大學生的身高(cm),資料如下,試計算其均數。

173.9173.9166.9179.5171.2167.8177.1174.7173.8182.5
173.6165.8168.7173.6173.7177.8180.3173.1173.0172.6
173.6175.3178.4181.5170.5176.4170.8171.8180.7170.7
173.8164.4170.0175.0177.7171.4162.9179.0174.9178.3
174.5174.3170.4173.2174.5173.7173.4173.9172.9177.9
168.3175.0172.1166.9172.7172.2168.0172.7172.3175.2
171.9168.6167.6169.1166.8172.0168.4166.2172.8166.1
173.5168.6172.4175.7178.8169.1175.5170.3171.7164.6
171.2169.1170.7173.6167.2170.7174.7171.8167.3174.8
168.5178.7177.3165.9174.0170.2169.5172.1178.2170.9
171.3176.1169.7177.9171.1179.3183.5168.5175.5175.9

1.編制頻數表

(1)求全距(range):找出觀察值中的最大值(183.5)和最小值(162.9),它們的差值即全距,常用R表示。本例R=20.6。

(2)定組距和組段:相鄰兩組的最小值之差稱組距,常用i表示,各組距可相等,也可不相等,一般用等距。常取全距的1/10,取整作組距。本例全距的1/10為2.06,取整為2,用等距共劃分11個組段。第一組段應包括資料中最小值,最末組段應包括最大值,一般要求組段的起點為較整齊的數。本例第一組段的起點(即下限)取162,其止點(即上限)為第二組段的起點即164,然後每一組距(本例為2)就成為一組段,最末組段應同時寫出下限和上限,本例為182~184。

(3)列表劃記:按上述的組段序列排列制表,用正字劃記法將例18.2中的數據歸納到各組段中,最後清點出頻數得頻數表,表18-1中的第(2)、(3)欄。

表18-1 110名20歲健康男大學生身高(cm)的頻數分佈

110名20歲健康男大學生身高(cm)的頻數分佈

由頻數表的頻數分佈可看出兩個重要特征:集中趨勢和離散趨勢。集中趨勢即頻數分佈向中央部分集中;離散趨勢即頻數分佈由中央到兩側逐漸減少。頻數分佈可為①對稱分佈或近似正態分佈,即集中位置在正中,兩側頻數分佈大致對稱,如表18-1;②偏態分佈,即集中位置偏向一側,頻數分佈不對稱,若集中位置偏向數值小的一側,為正偏態分佈;若集中位置偏向數值大的一側,為負偏態分佈。不同類型的分佈,應采用相應描述指標和統計分析方法。

2.計算公式

公式(18.2)

式中,k為組段數;f1,f2,……,fk分別為各組段的頻數;X1,X2,……,Xk分別為各組段的組中值,組中值為本組段的下限與相鄰較大組段的下限相加除以2,如“162-”組段的組中值X1=(162+164)/2=163,餘仿此。

3.列計算表(表18-2)計算均數

110名20歲健康男大學生身主的均數為172.73(cm)。

二、幾何均數(geometric mean)

用G表示。常用於等比級數資料和對數對稱分佈,尤其是對數正態分佈的計量資料。對數正態分佈即原始數據呈偏態分佈,經對數變換後(用原始數據的對數值lgX代替X)服從正態分佈。其計算方法有:

表18-2 110名20歲健康男大學生身高(cm)均數的計算表(加權法)

身高級段(1)組中值X(2)頻數f(3)FX(4)=(2)×(3)
162~1631163
164~1654660
166~16791503
168~169132197
170~171193249
172~173274671
174~175162800
176~17781416
178~17981432
180~1813543
182~1841832366
合計 110(Σf)19000(ΣfX)

(一)直接法

當觀察值個數n不多時,直接將n個觀察值(X1,X2,……Xn)的乘積開n次方。其計算公式為:

公式(18.3)

其對數形式:

公式(18.4)

例18.3 設有6份血清的抗體效價為1:10,1:20,1:40,1:80,1:80,1:160。求其平均效價。

本例可將各抗體效價的倒數代入公式(18.4),求平均效價數的倒數。

該6份血清的平均抗體效價為1:45。

(二)加權法

當觀察值個數n較多時,先將觀察值分組歸納成頻數表,再用公式(18.5)計算。

公式(18.5)

式中,X為各組段的效價或滴度的倒數(等比級數資料時)或各組段的組中值(對數正態分佈資料時);f 為各組段所對應頻數。

例18.430名麻疹易感兒童接種麻疹疫苗一個月後,血凝抑制抗體滴度如表18-3第(1)、(2)欄,試求其平均抗體滴度。

30名麻疹易感兒童免疫後的平均血凝抑制滴度為1:48.5。

三、中位數(median)

中位數是一組按大小順序排列的觀察值中位次居中的數值,用M表示。它常用於描述偏態分佈資料的集中趨勢。中位數不受個別特小或特大觀察值的影響,特別是分佈末端無確定數據不能求均數和幾何均數,但可求中位數。計算方法有:

表18-3 平均抗體滴度計算表

抗體滴度(1)人數f(2)滴度倒數X(3)lgX(4)flgX(5)=(2)×(4)
1:8280.90311.8062
1:166161.20417.2246
1:325321.50517.5255
1:6410641.806218.0620
1:12841282.10728.4288
1:25622562.40824.8164
1:51215122.70932.7093
合計30(Σf)50.5728(ΣflgX)

(一)直接法

當n較小時,可直接由原始數據求中位數。先將觀察值由小到大按順序排列,再按公式(18.6)或公式(18.7)計算。

公式(18.6)

(n為偶數時)  公式(18.7)

式中,n 為觀察值的總個數,X的右下標(n+1/2)、(n/2)、和(n/2+1)為有序數列中觀察值的位次,X(n+1/2)、X(n/2)和X(n/2+1)為相應位次上的觀察值。

例18.5 某病患者9名,其發病的潛伏期順序為2,3,3,3,4,5,6,9,16天,求中位數。

本例n=9,為奇數,按公式(18.6)計算

若上例在第20天又發現一例患者,則患者數增為10名,n為偶數,按公式(18.7)計算

(二)頻數表法

當n較大時,先將觀察值分組歸納成頻數表,再按組段由小到大計算累計頻數和累計頻率。如表18-4中的(3)、(4)兩欄,然後按公式(18.8)計算。

公式(18.8)

式中,L為中位數(即累計頻率為50%)所在組段的下限;i為該組段的組距;f為該組段的頻數;ΣfL為小於L的各組段的累計頻數;n為總例數。

例18.6 求表18-4中數據的中位數

表18-4 164名食物中毒潛伏期的中位數和百分位數*計算表

潛伏期(小時 )(1)人數f(2)累計頻數(Σf)(3)累計頻率(%)(4)
0~252515.2
12~588350.6
24~4012375.0
36~2314689.0
48~1215896.3
60~516399.4
72~841164100.0

*百分位數的意義與計算見後面的[附].

由表18-4可見,50%在“12~”組段內,則L=12,i=12,f=58,ΣfL=25,n=164,按式(18.8)計算

M=L+i/f(n/2-ΣfL)=12+12/58(164/2-25)=23.8(小時)

[附]百分位數:百分位數是一個位置指標,用Px表示。當P1,P2,……,P98,P99確定後,一個由小到大的有序數列即被分為100等份,各含1%的觀察值。百分位數常用於描述一組偏態分佈資料在某百分位置上的水平及確定偏態分佈資料的醫學正常值范圍。第50百分位數(P50)也就是中位數,所以,中位數也是一個特定的百分位數。計算百分位數用公式(18.9)

Px=L+i/fx(n.x%-ΣfL)公式(18.9)

式中,L、i、fx分別為Px所在組段的下限、組距和頻數;ΣfL為小於L的各級段的累計頻數。

例18.7 求表18-4中數據的P95。

求P95時,x=95,即累計頻率為95%所在組段。本例為“48~”組段,則L=48,i=12,fx=12,ΣfL=146,n=164,代入公式、(18.9)

P95=48+12/12(164×95%-146)=57.8(小時)

第二節 離散趨勢指標

計量資料的頻數分佈有集中趨勢和離散趨勢兩個主要特征,隻有把兩者結合起來,才能全面地認識事物,通過例18.8可進一步說明這一問題。

例18.8 有3組同齡男孩體重(kg)如下,其平均體重x都是30(kg),試分析其離散趨勢。

甲組2628303234
乙組2427303336
丙組2629303134

雖然三組資料的均數相等,即集中趨勢相同,但各組內數據參差不齊的程度(變異度)不同,也就是說三組的離散趨勢不同。

描述一組同質計量資料離散趨勢的常用指標有全、四分位數間距方差和標準差,其中方差和標準差最常用。

一、全距(range)

亦稱極差,用R表示。全距是一組觀察值中最大值與最小值之差,用於反映個體變異范圍的大小。全距大,說明變異度大;反之,說明變異度小。如例18.8中乙組全距為12(kg),比甲、丙兩組8(kg)大,表明乙組變異度大。全距適用於任何分佈的計量資料(末端無確切數值者除外)。

用全距來表達變異度的大小,簡單明瞭,故曾廣為使用。但它不能反映組內所有數據的變異度,如上述甲、丙兩組變異度的差異就反映不出來;其更大的缺點是易受個別特大或特小數值的影響,往往樣本越大,全距亦會越大。

二、四分位數間距(quartile interval)

四分位數間距是上四分位數Qu(即P75)與下四位數QL(即P25)之差,其間包括瞭全部觀察值的一半,用Q表示。它和極差類似,數值越大,說明變異越大;反之,說明變異越小。四分位數間距比極差穩定,但仍未考慮到每個觀察值的變異度。它適用於偏態分佈資料,特別是分佈末端無確定數據不能計算全距、方差和標準差的資料。

例18.9 求表18-4中數據的四分位數間距。

QL=P25=12+12/58(164×25%-25)=15.3(小時)

Qu=P75=24+12/40(164×75%-83)=36.0(小時)

Q=Qu-QL=P75-P25=20.7(小時)

三、方差(variance)和標準差(standard deviation)

為瞭克服極差的缺點,需全面地考慮組內每個觀察值的離散情況。因為組內每一觀察值(亦稱變量值)與總體均數的距離大小都會影響總體的變異度,故有人提出以各變量值離均差(X-μ)的平方和除以變量值的總個數N,來反映變異度大小,稱為總體方差,用σ2示之。

公式(18.10)

由式可見,各個離均差平方後,原來的度量單位變成瞭平方單位。為瞭用原單位表示而將總體方差開方,稱為總體標準差。

公式(18.11)

以上是總體方差和標準差。實際工作中經常得到的是樣本資料,μ是未知的,隻能用樣本均數x來代替μ,用樣本含量n代替N,按公式(18.11)算得的標準差常比σ小,美國統計學傢W.S.Gosset提出用n-1代替n,求得樣本標準差s,即

公式(18.12)

式中的n-1,在統計學上稱為自十由度(degree of freedom)

數學上可以證明離均差平方和Σ(X-x)2=ΣX2-(ΣX)2/n,故公式(18.2)可演變為:

直接法公式(18.13)

加權法公式(18.14)

方差與標準差適用於對稱分佈,特別是正態或近似正態分佈資料。

例18.10 試分別計算例18.8中三組男孩體重資料的標準差。

甲組:n=5,ΣX=26=28+30+32+34=150

ΣX2=262+282+302+322+342=4540

按式(18.13)

乙組:n=5,ΣX=150,ΣX2=4590

丙組:n=5,ΣX=150,ΣX2=4534

以上計算表明:S丙<S甲<S乙亦即乙組的變量度最大,甲組次之,丙組最小。

例18.11 求表18-2中110名20歲健康男大學生身高的標準差。

由表18-2,已知Σf=110,ΣfX=19000,再用第(2)欄乘第(4)欄後相加得ΣfX2。如本例,ΣfX2=163×163+165×660+……+183×366=3283646代入式(18.14)

四、標準差的應用

(一)表示觀察值的變異程度(或離散程度)

1.在兩組(或幾組)資料均數相近、度量單位相同的條件下,標準差大,表示觀察值的變異度大,即各觀察值離均數較遠,均數的代表十性十較差;反之,表示各觀察值多集中在均數周圍,均數的代表十性十較好。

2.若比較度量單位不同或均數相差懸殊的兩組(或幾組)觀察值的變異度時,需計算變異系數(coefficient ofvariation用CV表示)進行比較,其計算公式為:

CV= s/x×100% 公式(18.15) 公式(18.15)

式中s為樣本標準差,x為樣本均數。

例18.12 某地調查20歲男大學生110名,其身高均數為172.73(cm),標準差為4.09(cm);其體重均數為55.04(kg),標準差為4.10(kg),欲比較兩者變異度何者為大,宜先計算變異系數再比較。

身高CV=4.09/172.73×100%=2.37%

體重CV=4.10/55.04×100%=7.45%

由此可見,該地20名男大學生體重的變異度大於身高的變異度,說明身高這個指標比較穩定。

(二)結合均數描述正態分佈的特征和估計醫學正常值范圍,詳見第三節。

(三)結合樣本含量n計算標準誤,詳見第十九章。

《預防醫學》