三十三·(1)診斷試驗

一、概述

正確的診斷在臨十床十工作中意義重大,它是選擇針對十性十防治措施的基礎。臨十床十醫師應當研究和掌握現有診斷試驗的特十性十和臨十床十價值,以指導臨十床十應用。隨著自然科學的進展,新的診斷試驗日益增多。為瞭提高診斷水平,應研究和評價這些新的診斷試驗,以確定其能否取代或充實現有的診斷方法和能否推廣。本章所討論的診斷試驗含義是廣泛的,它包括各種化驗室檢查,詢問病史,體檢所獲得的資料以及各種影像診斷和儀器診斷等。

診斷試驗主要應用於疾病診斷、疾病隨訪、療效考核以及藥物毒副作用的監測。根據不同的目的選擇適當的診斷試驗。一般說來,臨十床十醫師經過一定期限的臨十床十實踐以後,都積累瞭選擇診斷試驗的經驗。但單憑經驗難免不夠穩妥,有時可以耽誤診斷,未能給患者及時有效的治療,甚至造成不可彌補的損失。掌握科學的研究和評價診斷試驗的方法可為其選擇合理的診斷方法奠定基礎,同時可避免單憑經驗造成的錯誤。

一般說來,臨十床十醫師須在較長時間內多次使用某項診斷方法,而且在患同種疾病但不同類型的病例身上使用後方可對其十性十質和實用價值有較深入的理解。掌握科學的研究方法就可縮短上述過程。從文獻中人們不難看到,當推出一項新診斷試驗時,研究人員對該項試驗倍加稱贊,但使用一段時間後,發現其診斷價值並不理想,因此隻有不斷地積累經驗,才能對它有較全面的認識。如開始在臨十床十上應用癌胚抗原時,人們認為它診斷結腸癌非常有價值,但後來發現這種抗原在其他癌癥也會出現,甚至在近20%未患癌癥的吸煙者中也呈十陽十性十。應當說,開始在臨十床十上應用時,研究人員並非有意誇大其效率,而是在當時缺乏科學的研究和評價方法。

二、診斷試驗的研究方法和評價指標

(一)診斷試驗的研究方法

1.須同標準診斷方法(金標準,gold standard)進行盲法比較。標準診斷方法是指可靠的,公認的診斷方法,它能正確地區分有病和無病。臨十床十上常用的標準診斷方法包括病理學檢查,外科手術所見以及長期隨訪病例所獲得的肯定結論。例如,診斷冠心病的標準診斷方法是冠狀動脈造影,診斷腎炎的標準方法是腎組織活檢和十十屍十十體解剖,診斷膽結石的標準方法是手術所見。具體作法是運用標準診斷方法,在“盲”的條件下將病例區分為實際有病和無病兩組,再將待評價的診斷試驗與相同病例診斷的結果作比較,然後列出四格表,就可得出真假十陽十性十和真假十陰十性十的結果,如表33-1所示,並計算靈敏度、特異度、預測值和正確指數等。

表33-1 診斷試驗評價指標


金標準
有病(D+)無病(D-)
診斷十陽十性十(T+)真十陽十性十TP假十陽十性十FPTP+FP
十陰十性十(T-)假十陰十性十FN真十陰十性十TNFN+TN
合計 TP+FNFP+TNTP+FP+FN+TN

TN(true negative)=真十陰十性十

FP(false positive)=假十陽十性十

TP(true positive)=真十陽十性十

FN(false negative)=假十陰十性十

如選用標準診斷方法欠妥,則可造成四格表分類上的錯誤,影響診斷試驗的評價。例如以外科手術診斷膽結石作為標準診斷方法,來評價超聲圖診斷膽結石的診斷價值時,可以得出結論。但若以膽囊造影作為標準方法進行比較時,就難以斷定檢出結果的真偽。在難以得到標準診斷方法時,醫師們常將新推出的診斷試驗與現有的診斷方法比較。此時若新試驗比較靈敏,檢出的病例就多一些,如以現有方法作為標準,則將新試驗多檢出的病例錯判為假十陽十性十。同樣,若新試驗更特異,則錯判為假十陰十性十的病例將增加。

但獲得一項標準診斷方法並非易事。如以檢查組織貯存鐵是否缺乏作為診斷鐵缺乏的標準診斷方法,這就要作肝穿刺或骨髓活檢,再行鐵染色檢查。這種檢查方法甚至在某些貧血病例也難以做到。因此,不少醫師將鐵劑治療反應作為標準診斷方法。尚有一些病,如糖尿病,其標準診斷方法甚難確定。

為瞭避免外界環境因素幹擾評價工作,要求待評價的診斷試驗與標準方法在同一時間和同一化驗室內進行比較。此外,為瞭減少或避免偏倚,檢驗人員在評價時應實施盲法原則,即他們在不瞭解病例臨十床十表現情況下進行比較。

2.被檢查的病例要具備代表十性十,即要包括各臨十床十型(輕、中、重型;有或無並發癥者)病例。病例的代表十性十愈好,新的診斷試驗的實用價值愈大。

3.選擇對照。對照應在十性十別、年齡、某些生理狀態等方面與病例保持均衡。對照不應隻包括健康人,還應包括確實未患該病的其他病例以及確實未患該病但在臨十床十上極易與該病混淆的其他病病例。

4.確定正常值。正常值的含義應說清,否則會直接影響正常值的數據。在正態分佈時,正常值可用平均數±2SD表示。非正態分佈時可用中位數或百分位數表示。繪制患病人群與未患人群診斷試驗測定值的頻數分佈曲線時常有重疊。區別正常與異常的界限是否是最佳的臨界點,將對診斷試驗的靈敏度和特異度產生明顯的影響。

5.要說明病例的來源。不同來源的病例對評價一項診斷試驗有一定影響。這是由於不同人群某病患病率的差異對十陽十性十預測值有影響。同時,對照的來源也應效待清楚。

(二)診斷試驗的評價指標

1.真實十性十(validity)或準確十性十(accuracy)要求一項診斷試驗具備能正確地鑒別某病例患和未患某病的能力。這種反映患病實際情況的程度稱作真實十性十,亦稱準確十性十。

一項診斷試驗與標準診斷方法進行比較時可得出四種結果(表33-1)。正確結果,即真病例得出十陽十性十結果(真十陽十性十)和非病例得出十陰十性十結果(真十陰十性十);錯誤結果,即真病例得出十陰十性十結果(假十陰十性十)和非病例得出十陽十性十結果(假十陽十性十)。一項診斷試驗得出的正確結果愈多,該試驗的真實十性十也愈高。

一項診斷試驗的真實十性十包括靈敏度(sensitivity)和特異度(specificity)兩方面。前者是指一項診斷試驗能將實際患病的病例正確地判斷為患某病的能力,後者是指一項診斷試驗能將實際未患某病的病例正確地判斷為未患某病的能力。

靈敏度即真十陽十性十率,為診斷試驗十陽十性十的患者占患者總數比例,理想的應為100%。特異度即真十陰十性十率,為診斷試驗十陰十性十非患者占無病總人數的比例,理想的應為100%。

假十陰十性十率為實際患病,經診斷試驗判斷為無病的百分率,即診斷試驗判斷為十陰十性十的患者占患者總數的比例,又稱漏診率(統計學上稱β錯誤),理想的應是0%。

假十陰十性十率為實際患病,經診斷試驗判斷為無病的百分率,即診斷試驗判斷為十陰十性十的非患者占全部無病者的比例,臨十床十上稱為誤診率(統計學上稱為α錯誤),理想的應是0%。

靈敏度與特異度之和,減100%為正確指數,亦稱約登指數(Youdon’s Index),理想的應為100%。其值愈大愈好。但應註意,正確指數大時,並未告知是靈敏度高還是特異度高,因此,它不能代替上述四項指標。

現以喉拭培養結果為標準診斷方法,評價僅憑臨十床十觀察診斷β-溶血十性十鏈球菌感染的真實十性十,結果見表33-2。

表33-2 以喉拭培養法評價臨十床十診斷的真實十性十


喉拭培養合計
十陽十性十十陰十性十
臨十床十診斷十陽十性十273562
十陰十性十107787
合計 37112149

靈敏度%=(27/37)×100%=73%

特異度%=(77/112)×100%=69%

假十陽十性十率%=1-69/100=31%

假十陰十性十率%=1-73/100=27%

從表33-2還可看出,計算診斷試驗的靈敏度或假十陰十性十率隻與患者數有關,而與非患者數無關;計算診斷試驗的特異度或假十陽十性十率隻與非患者數有關,而與患者數無關。還要看到靈敏度與假十陰十性十率之和為1。特異度與假十陽十性十率之和為1。

在臨十床十工作中,醫師希望一項診斷試驗的靈敏度和特異度均高。但實際上很難如願。事實是若提高靈敏度必然以降低特異度為代價,反之亦然。這種反比關系在連續的計量資料測量中容易見到。

現以診斷青光眼為例說明上述現象。眼內壓升高,視神經萎十縮和視野的典型缺損是診斷青光眼的三個重要組成部分。人的眼內壓水平在一天內有波動,而在青光眼患者,其波動范圍會更大,因而眼內壓水平並非診斷青光眼的一個可靠指標。再者,眼內壓水平相同的人,眼內病理改變並不一樣。雖然眼內壓水平高者患青光眼的可能十性十低者較大,但需作進一步檢查才能作出診斷。

青光眼病人和正常人眼內壓分佈模十式圖

圖33-1 青光眼病人和正常人眼內壓分佈模十式圖

眼內壓水平與是否患青光眼的關系可見圖33-1。甲組為未患青光眼者,眼內壓水平波動在1.9~3.5kPa(14~26mmHg)之間。乙組為青光眼患者,其眼內壓水平在2.9~5.6kPa(22~42mmHg)之間。兩組人眼內壓水平在2.9~3.5kPa(22~26mmHg)處有重疊。如欲診斷出全部青光眼患者,即要求試驗的靈敏度為100%,則診斷值應定為2.9kPa(22mmHg),但相當一部分眼內壓水平在2.9~3.5kPa(22~26mmHg)之間的未患青光眼的人也將診斷為十陽十性十,造成誤診,即特異度差。若將診斷值規定為3.5kPa(26mmHg),則所有未患青光眼者均為十陽十性十,特異度為100%,但眼內壓水平在2.9~3.5kPa之間的青光眼患者將診斷為十陰十性十,造成漏診,即靈敏度差。上述事例說明一項診斷試驗要同時兼顧高靈敏度和高特異度是困難的。在臨十床十實踐中,是將診斷值定在2.9~3.5kPa之間,即在重疊區的某處。具體確定十陽十性十診斷值的作法,一般隻能從臨十床十需要出發,權衡利弊得失再作出。若所研究的疾病病死率高,預後不佳,漏診將帶來嚴重後果或早期診斷可明顯改善預後,則診斷試驗的十陽十性十界限可向左移。這樣,試驗的靈敏度高,十陰十性十結果可排除疾病的存在,但同時假十陽十性十增多。若現有的治療措施不夠理想,可將十陽十性十界限右移以降低靈敏度,提高特異度。當為假十陽十性十者進一步檢查所需費用太高,為瞭節約經費或假十陽十性十可使人心身遭受嚴重的痛苦或經濟受到損失時,高特異度尤為必要。

在糖尿病,如以不同的血糖水平作為診斷標準時,同樣可以看到靈敏度和特異度的上述反比關系,如表33-3所示。隨著血糖水平十陽十性十界限的增高,試驗的靈敏度下降,特異度升高,反之亦然。看來將糖尿病診斷試驗十陽十性十界限或標準規定在7.15mmol/L(130mg/dl)時為宜,因此時靈敏度和特異度均處在80%左右。

表33-3 以不同血糖水平作為糖尿病診斷標準時的靈敏度和特異度

餐後2小時的血糖水平靈敏度%特異度
Mmol/LMg/dl
4.40801001.2
4.956098.67.3
5.5010097.125.3
6.0511092.948.4
6.6012088.668.2
7.1513085.782.4
7.7014074.391.2
8.2515064.396.1
8.8016055.798.6
9.3517052.999.6
9.9018050.099.8
10.4519044.399.8
11.0020037.1100.0

2.可靠十性十(reliabiliy)、重復十性十(repeatability)或十精十密度(precision)是指一項診斷試驗在完全相同的條件下,重復作時獲得相同結果的穩定程度。在臨十床十實踐中,一般用符合率來表示可靠十性十。

影響試驗可靠十性十的因素有:

(1)所使用的儀器、藥品和試劑的變異:儀器,甚至是十精十密的儀器,如事前未校正,也可造成測量結果的系統誤差。藥品的質量,試劑配制的方法以及檢驗室的環境因素都可對試驗結果產生影響。

(2)測量變異:這與試驗十操十作者的技術和責任心有關,因為任何測量都可出現不同程度的測量變異。若十操十作者能遵循十操十作規程,十操十作細心則可減少這種變異。若十操十作者可在某種程度上自行判斷測量結果,則這種變異可以很大甚至難以控制。如用幾種方法(即在不同的檢驗室,由不同的十操十作人員中使用不同的儀器)進行測量,測量數值的系統誤差將是難以避免的。

測量變異尚包括觀察者間誤差(inter-observererror)和觀察者自身誤差(intra-observer error)。例如,兩位眼科醫師同時分別檢查100例強疑視網膜炎病人,按病情輕重分別登記,結果兩人判斷的符合率為72%(表33-4)。

表33-4 兩位眼科醫師獨立檢查100例視網膜炎病人的結果比較

A專傢判斷病情結果B專傢判斷病情結果合計
2452031
4182125
1318224
1251220
合計30282715100

這是觀察者間誤差。

同一觀察者對同一批標本前後兩次檢查也有誤差。例如一位細胞學專傢兩次重復檢查肺癌細胞塗片100張,兩次結果的符合率僅49%(表33-5)。這是觀察者自身誤差。

表33-5 同一專傢重復兩次檢查100張肺癌細胞塗片結果比較

第一次結果第二次結果合計
不滿意十陰十性十模棱兩可疑似癌細胞十陽十性十
不滿意211004
十陰十性十726191053
模棱兩可42115325
疑似癌細胞0016613
十陽十性十100045
合計1429321213100

(3)生物學變異:不同季節和一日內的不同時間個體內部的生物學狀態不斷地發生變化,也就是產生變異。這樣,在某個時點獲得的某生物學現象的測量值隻能是該時期內多次測量所獲得的數值一個樣本,並不能代表各次測量的真實數值。臨十床十上各項檢驗工作多是在某一時點進行的,並將各種檢驗結果用於指導臨十床十實踐。所以臨十床十醫師應對個體的生物學變異給予足夠的重視。

此外,不同個體的生物學狀態不同,這也將影響某生物學現象的測量值,使之產生變異。

實際上,臨十床十上獲得的測量值是上述幾種影響試驗可靠十性十的因素的累加值,如圖33-2所示。它說明不同來源的變異對血壓測量值的影響以及這些變異來源的累加作用。還可以看出不同觀察者間的測量值雖有差異,甚至可以相差1.5kPa(12mmHg),但可以說由測量所致的變異相對較小,而同一個體在一天內不同時間的血壓測量值的變異卻很大。這說明一次血壓測量值並不能代表該病例的通常血壓。最下面的那條血壓測量值曲線是許多病例、多個觀察者一天中多次測量的結果,它突出地說明上述各種影響可靠十性十因素的累加作用。

變異的來源:血壓的測量

圖33-2 變異的來源:血壓的測量

資料來源:周??,臨十床十實用流行病學,第一版,黑龍十江十人民出版社,哈爾濱,1989

3.真實十性十和可靠十性十之間的關系兩者不一定彼此相關。如圖33-3所示,有的診斷試驗真實又可靠(A),有的真實但不很可靠(B),因為它的各次測量值圍繞真實值散在分佈,而且范圍較廣;另一些試驗可難可靠但不很真實(C),其測量結果雖穩定,但系統地偏離真實值;有的試驗既不真實又不可靠(D)。一項診斷的實用價值決定於其真實十性十,而真實十性十又受到可靠十性十的制約。

4.預測值(predictive value)靈敏度和特異度是一項診斷試驗的特征,在決定是否采用某項試驗時醫師應考慮這些特征。一旦采用瞭某項診斷試驗,醫師就要仔細考慮試驗結果的意義。如獲十陽十性十結果,患某病的可能十性十是多少;若獲十陰十性十結果,未患某病的可能十性十是怎樣?這就是預測值。十陽十性十預測值是指試驗十陽十性十的病例中真十陽十性十的比例;十陰十性十預測值是指試驗十陰十性十的病例中真十陰十性十的比例。按表33-1,預測值的計算方法如下:

圖33-3真實十性十與可靠十性十關系示意圖

真實十性十與可靠十性十關系示意圖

根據表33-1提供的數據,臨十床十上診斷為溶血十性十鏈球菌咽炎的病例中,十陽十性十預測值為44%,十陰十性十預測值為88%。

十習十慣上以+PV(或PV+)表示十陽十性十預測值,以-PV(或PV-)表示十陰十性十觀測值。一般說來,試驗的靈敏度愈高,十陰十性十預測值就愈高;特異度高的試驗,十陽十性十預測值就越好。但診斷試驗的靈敏度和特異度並不能完全決定試驗的十陽十性十預測值,在很大程度上與人群某病的患病率有關。不同人群某病患病率可相差甚大,臨十床十醫師對此已有共識。例如酸十性十磷酸酶可用於診斷前十列十腺癌,其靈敏度為70%,特異度為90%。若將之用於不同人群,所獲不同人群十陽十性十預測值差別甚大,如表33-6所示。如在一般人群中用此法作前十列十腺癌篩檢,結果出現大量假十陽十性十者,檢查結果很不令人滿意。如將此法在高危人群(男十性十,75歲以上)中作篩檢,十陽十性十預測值為5.6%,即平均每18名十陽十性十者中隻1名證實患前十列十腺癌。若將本項診斷試驗用來診斷可觸及前十列十腺結節病例時,十陽十性十預測值為93%,即93%十陽十性十患者患前十列十腺癌。

表33-6 患病率與預測值的關系

 患病率(1/10萬)十陽十性十預測值
一般人群350.4
男十性十,75歲以上5005.6
臨十床十觸及前十列十腺結節5000093.0

資料來源:孫中行,臨十床十流行病學287頁,1989

三、提高診斷試驗效率的方法

人們都在努力尋求既靈敏又特異的診斷試驗,但在臨十床十實踐中這種理想的方法並不多,可以采用下述兩種方法來提高診斷試驗的效率。

(一)選擇患病率高的人群(高危人群)

綜上所述,一項診斷試驗的靈敏度與特異度是相對固定的,而人群患病率水平對一項診斷試驗十陽十性十預測值的影響卻很大。這樣,結論是很清楚的,就是將一項診斷試驗用於患病率低的人群,則十陽十性十預測值較低,但若將其用於高危人群,則可明顯提高十陽十性十預測值。現舉例說明怎樣選擇患病率不同的人群來提高運動心電圖試驗的效率。已知運動心電圖試驗的靈敏度和特異度分別為80%和74%。接受運動心電圖檢查的人群共有三種情況,即病例甲是老年人,具有典型心絞痛癥狀,病例乙是胸痛待查的中年人,病例丙是因情緒變化而產生胸痛癥狀的青年人,如表33-7所示,病例甲患心絞痛的可能十性十為90%,通過心電圖運動試驗估計其十陽十性十預測值為97%,即增加瞭7%;病例丙患心絞痛的可能十性十為10%,根據同樣的方法,估計其十陽十性十預測值為25%,即增加瞭15%;病例乙患心絞痛的可能十性十為50%,根據同法,估計其十陽十性十預測值為75%,即增加瞭25%。由此可見,若在估計冠心病患病率為40%~60%的人群中用心電圖運動試驗來作冠心病診斷時,診斷的效率提高,即此時十陽十性十和十陰十性十預測值均明顯增加。

表33-7 不同的估計患病率,心電圖運動試驗的預測值

估計患病率(%)試驗十陽十性十試驗十陰十性十
預測值(%)增加數(%)預測值(%)增加數(%)
909772919
8092124828
7088186131
6082227131
5075257929
4067278525
3057279020
2043219414
102515977

資料來源:孫中行,臨十床十流行病學,301頁,1989

(二)采用聯合試驗的方法

現已證明,采用聯合試驗的方法可提高診斷試驗的效率。聯合試驗的方法有兩種,即並聯和串聯。

1.並聯試驗(parallel test)又稱平行試驗。這種方法的作法是同時作幾項診斷試驗,隻要其中一項為十陽十性十就可診斷患某病。與單項診斷試驗比較,並聯試驗可提高靈敏度和十陰十性十預測值,卻使特異度和十陽十性十預測值下降,即並聯試驗使漏診率下降,卻增加瞭假十陽十性十率。若臨十床十醫師需要一項靈敏度高的診斷試驗,而此時隻有兩項或多項不十分靈敏的診斷方法,並聯試驗是他首選的方法。例如,已知靜脈造影術是診斷下肢深靜脈栓塞的標準診斷方法,但這種方法既昂貴,又不安全。尚有兩種方法即十陰十抗體積描記圖和註射125I纖維蛋白原作下肢掃描也可用於該病的診斷。如使用單項試驗,靈敏度和特異度各為74%。若並聯使用上述兩項試驗,其靈敏度和特異度可分別達到94%和91%,見表33-8。由此可見,並聯使用上述兩項診斷試驗是診斷下肢靜脈栓塞的安全和節約的方法,並可提供準確的資料,因而可取代靜脈造影術。

表33-8 阻抗體積描記圖和註射125I纖維蛋白原掃描兩法

平行試驗與靜脈造影術的比較


靜脈造影術(參照試驗)的結果
 十陽十性十十陰十性十合計
阻抗體積描記圖和125I纖維蛋白原掃描兩者之一或兩者均十陽十性十811091
兩者均十陰十性十5104109
 合計86114200

靈敏度=81/86×100=94%

特異度=104/114×100=91%

資料來源:孫中行,臨十床十流行病學,302頁,1989

2.串聯試驗(serial test)也稱系列試驗。這種方法是依次順序地作幾項試驗,但隻有全部試驗皆呈現十陽十性十時才能作出診斷。具體的作法如表33-9所示。由於需要取得前一項診斷的結果才能作另一項試驗,因而串聯試驗要用去一段時間。臨十床十上是先作較簡單、安全的試驗,當出現十陽十性十結果時,再作比較復雜或有一定危險的試驗。

表33-9 聯合試驗的判斷方法

聯合試驗方式結果判斷結果
試驗1試驗2
平行試驗+++
+-+
-++
---
系列試驗+++
+--
-不必作-

資料來源:孫中行,臨十床十流行病學,302頁,1989

表33-10 串聯試驗:診斷心肌梗塞的血清酶試驗

酶試驗靈敏度(%)特異度(%)
CPK9667
SGOT9174
LDH8791
CPK、SGOT、LDH7895

資料來源:孫中行,臨十床十流行病學,303頁,1989

串聯試驗可提高診斷試驗的特異度和十陽十性十預測值,即出現十陽十性十結果時患該病的可能十性十就更大,即降低瞭誤診率,卻增加瞭漏診率。當幾項診斷試驗特異度均不高時,采用串聯試驗最為適宜。例如,診斷心肌梗塞的三種試驗中沒有一項是特異的,見表33-10。若單獨使用其中任何一項試驗則漏診不少患者。如采用串聯試驗方法則提高瞭心肌梗塞診斷的特異度,降低瞭誤診率。

《預防醫學》