十八·(2)正態分佈和醫學正常值范圍的估計

一、正態分佈

(一)正態分佈的圖形

將表18-1的110名20歲健康男大學生身高頻數分佈繪成圖18-1中的(1),可見高十峰位於中部,左右兩側大致對稱。可以設想,如果十抽十樣觀察例數逐漸增多,組段不斷分細,就會逐漸形成一條高十峰位於中央(均數所在處)、兩側完全對稱地降低、但永遠不與橫軸相十十交十十的鐘型曲線(圖18-1中的(3)),這條曲線近似於數學上的正態分佈(normal distribution)曲線。

統計學傢按其變化參數,推導出正態分佈密度函數f(X)

-∞<X<+∞公式(18.16)

式中μ為均數;σ為標準差;π為圓周率;е為自然對數的底,即2.71828。以上均為常數,僅X為變量。

為瞭應用方便,常將式(18.16)進行變量變換—u變換(即u=(X-μ)/σ),u變換後,μ=0,σ=1,使原來的正態分佈變換為標準正態分佈(standard normaldistribution)亦稱u分佈,如圖18-2。

頻數分佈逐漸接近正態分佈示意

圖18-1 頻數分佈逐漸接近正態分佈示意

正態分佈與標準正態分佈的面積與縱高

圖18-2 正態分佈與標準正態分佈的面積與縱高

此時,式( 18.16)化成

- ∞<u<+∞                          公式(18.17)

式中,φ(u)為標準正態分佈的密度函數,即縱軸高度。

根據X和u的不同取值,分別按式(18.16)和式(18.17)可以繪出正態分佈和標準正態分佈的圖形(圖18-2)。

(二)正態分佈的特征

由式(18.16 )gn (18.17)可看出正態分佈有下列特征:①正態曲線(normal curve)在橫軸上方均數處最高。②正態分佈以均數為中心,左右對稱。③正態分佈兩個參數(parameter),即均數μ和標準差σ;常用N(μ,σ)表示均數為μ、標準差為σ的正態分佈;所以標準正態分佈用N(0,1)表示。④正態曲線在±1σ處各有一人拐點。⑤正態曲線下的面積分佈有一定的規律。

二、正態曲線下面積的分佈規律

正態曲線下一定區間的面積可以通過對式(18.16)和式(18.17)積分求得。為瞭省去計算的麻煩,有人按式(18.17)編成瞭附表18-1“標準正態分佈曲線下的面積”通過查表可求出正態曲線下某區間的面積,進而估計該區間的觀察例數占總例數的百分數或變量值落在該區間的概率。查表時應註意:①表中曲線下面積為自-∞到u的面積;②當μ,σ已知時,先根據u變換(即u=(X-μ)/σ)求得u值,再查表;③當μ,σ未知且樣本含量n足夠大時,常用樣本均數x和樣本標準差s分別代替μ和σ進行u變換[即u=(X-μ)/S],求得u的估計值,再查表;④曲線下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,+∞)的面積相等;⑤曲線下橫軸上的總面積為100%或1。

下面三個區間的面積應用較多,要求記住,並結合圖18-3理解其意義。①標準正態分佈時區間(-1,1)或正態分佈時區間(μ-1σ,μ+1σ)的面積占總面積的68.27%;②標準正態分佈時間(-1.96,1.96)或正態分佈時區間(μ-1.96,μ+1.96)的面積占總面積的95.00%;③標準正態分佈區間(-2.58,2.58)或正態分佈時間區(μ-2.58,μ+2.58)的面積占總面積的99.00%。

正態與標準正態曲線及其面積分佈

圖18-3 正態與標準正態曲線及其面積分佈

三、醫學正常值范圍的估計

(一)正常值范圍(normal range)的意義

正常值是指正常人十體或動物體的各種生理常數,正常人十體十液和排十泄物中某種生理、生化指標或某種元素的含量,以及人十體對各種試驗的正常反應值等。由於存在變異,各種數據不僅因人而異,而且同一個人還會隨機體內外環境的改變而改變,因而需要確定其波動的范圍,即正常值范圍。

制定正常值范圍,①首先要確定一批樣本含量足夠在的“正常人”。所謂“正常人”不是指機體任何器官、組織的形態及機能都正常的人,而是指排除瞭影響所研究指標的疾病的有關因素的同質人群。②根據指標的實際用途確定單側或雙側界值:若某種指標過高或過低均屬異常,需要確定正常值范圍的下限和上限,如白細胞計數;若某指標過高為異常,需確定上限,如尿鉛;若某指標過低為異常,需確定下限,如肺活量。③根據研究目的的和實用要求選定適當的百分界值,常用80%、90%、95%或99%,其中最常用的是95%。④根據資料的分佈特點,選用恰當的界值計算方法,如正態分佈資料用正態分佈法;對數正態分佈資料用對數正態分佈法;偏態分佈資料用百分位數法。

(二)正常值范圍估計

計算正常值百分界值的方法甚多,如正態分佈法、對數正態分佈法、正態概率紙法、百分位數法、曲線擬合法、容許區間法等。現以95%正常值范圍為例,主要介紹以下三種。

1.正態分佈法:適用於正誠或近似正態分佈資料。

雙側界值:x±1.96s

單側上界:x+1.645s

單側下界:x-1.645s

2.對數正態分佈法:適用於對數正態分佈資料。

雙側界值:lg-1(xlgx±1.96slgx)

單側上界:lg-1(xlgx+1.645slgx)

單側下界:lg-1(xlgx-1.645slgx)

3.百分位數法:常用於偏態分佈資料。

雙側界值:P2.5和P97.5

單側上界:P95

單側下界:P5

例18.13 試估計表18-1中110名20歲健康男大學生身高的95%正常值范圍。

該指標計算雙側界值

x±1.96s=172.73±1.96×4.09

該指標的95%正常值范圍為 164.71~180.75(cm)

例18.14 某年某市調查瞭200例正常成十人血鉛含量(μg/100g)如下,試估計該市成十人血鉛含量95%正常值范圍單側上界。

34444455555555556666
66677777777777778888
88888889999999101010101010
1010101111111111121212121212121313131313
1313131313131314141414141414141414151515
1515151516161616161617171717171717171717
1717181818181819191919191920202020202020
2021212121212222222222222323232424242424
2425252626262626272728282929303031313131
3232323232323333363838394041414347505360

該資料為偏態分佈,經對數變換(即原始數據取對數)後,整理成頻數表,見表18-5。從頻數分佈看,近似正態分佈,計算對數形式的均數與標準差,得:

xlgx=Σflgx/Σf=230.0/200=1.15

其95%正常值范圍的單側上界為lg-1xlgx+1.645slgx)=lg-11。5942=39(μg/100g)

即該市正常成十人血鉛含量的95%正常值為39μg/100g以下。

例18.15 試用百分位數法估計例18.14資料的95%正常值的單側上界。

該資料不經對數轉換時為偏態分佈,也可用百分位數法估計。先整理成頻數表,見表18-6。

P95=L+i/f95(n×95%-ΣfL)=38+5/7(200×95%-189)=38.7(μg/100g)

表18-5 200名血鉛值對數變換後的頻數表及gx slgx計算表

對數組段頻數f組中值(lgX)flgXFlgX2
0.45~10.50.50.25
0.55~50.63.01.80
0.65~100.77.04.90
0.75~200.816.012.80
0.85~110.99.98.91
0.95~211.021.021.00
1.05~291.131.935.09
1.15~251.230.036.00
1.25~301.339.050.07
1.35~201.428.039.20
1.45~161.524.036.00
1.55~81.612.820.48
1.65~31.75.18.67
1.75~1.8411.81.83.24
合計200 230.00279.04

表18-6 200名血鉛值頻數表及P95計算表

組段頻數f累計頻數Σf累計頻率(%)
3~363618.0
8~397537.5
13~4712261.0
18~3015276.0
23~1817085.0
28~1618693.0
33~318994.5
38~719698.0
43~119798.5
48~119899.0
53~119999.5
58~621200100.0
《預防醫學》