Bài giảng Lâm sàng thống kê Phân phối chuẩn - Nguyễn Văn Tuấn

pdf 16 trang phuongnguyen 7091
Bạn đang xem tài liệu "Bài giảng Lâm sàng thống kê Phân phối chuẩn - Nguyễn Văn Tuấn", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdflam_sang_thong_ke_phan_phoi_chuan_nguyen_van_tuan.pdf

Nội dung text: Bài giảng Lâm sàng thống kê Phân phối chuẩn - Nguyễn Văn Tuấn

  1. Lâm sàng th ống kê Phân ph ối chu ẩn Nguy n V n Tu n Tun v a qua tôi nh n ưc m t câu h i r t c n b n, mà tôi th y c n ph i gi i thích rõ ràng, vì ây là c ơ s cho nh ng phân tích th ng kê. Khi ph trách m c này, tôi gi nh b n c ã bi t qua vài iu c n b n v th ng kê và xác su t, nh ưng có l gi nh ó không úng, vì theo câu h i c a b n c này, v n có nhi u ng ưi ch ưa h c qua, ho c ã h c qua mà không hi u. C ng gi ng nh ư tôi ngày x ưa, h c qua th ng kê mà không hi u vì nó quá tr u t ưng. Không dám th a th y gi i thích không rõ, nh ưng có l vì khi gi ng th y không c p n ng d ng nên h c ch h c ch ch ng bi t làm gì. “G i anh Tu n! Tôi là m t bác s già, nên không rành v th ng kê gì c , vì h i x a tôi không có h c th ng kê. Nhng bây gi làm nghiên c u tôi mi th y s quan tr ng c a nó. Tôi tìm sách t hc, nh ng c hoài v n không hi u! Trong khi s p “ u hàng” tình c tôi vào trang nhà ykhoanet và c c tt c nh ng bài gi ng c a anh. Ph i nói th t anh gi ng hay l m, quá rõ ràng, làm cho m t bác s già nh tôi mà c ng hi u c các khái ni m th ng kê, và tôi th y yêu cái môn h c này! Có l anh không bi t r ng anh ã giúp cho tôi r t nhi u. Xin cám ơn anh. Tôi r t mong c ti p lo t bài gi ng “lâm sàng th ng kê” c a anh. Nhân ây tôi mu n hi anh m t câu nh . Trong m y bài va qua, anh nh c n “phân ph i chu n” và con s 1,96 tính kho ng tin c y 95% rt nhi u l n. Vy xin h i anh, con s 1,96 này n t âu và phân ph i chu n là phân ph i gì? Xin cám ơn anh tr c. TV ” Xin thành th t cám ơn b n c TV v nh ng câu ch y khích l . Vi t ra mà có ng ưi c và theo dõi thì th t là quí l m. ó c ng là ng c ơ tôi vi t ti p. Nhân dp này, tôi mu n m ưn câu h i gi i thích v m t nh lu t phân ph i tr ct c a th ng kê h c: ó là phân ph i chu n. Thú th t v i các b n, ngày x ưa, m i l n nghe n hai ch “distribution” (phân ph i) là tôi ã th y lùng bùng trong u r i, vì không bi t nó có ngh a là gì. Cái kh c a mt sinh viên ngo i qu c nh ư tôi (t c là trình ti ng Anh lúc ó còn kém, nhúc nhác) gi a ng môn ng ưi b n x , tôi không dám h i th y, s b m ng là d t. Sau này, tôi mi nghi m ra r ng bi t ưc mình d t là m t iu c c kì có ích và c ng là m t h nh phúc. Cái d t c a tôi b t u t ch distribution, mà tôi th y ch ưa có sách giáo khoa nào gi i thích c th c , hay gi i thích theo ki u toán h c r t tr u t ưng. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 1
  2. c th hóa v n , b n c có th làm m t thí nghi m (hay t ưng t ưng m t thí nghi m) ơn gi n nh ư sau: ch n ng u nhiên 100 ng nghi p hay sinh viên, o chi u cao c a h . K t qu mà b n c s thu th p ưc có th nh ư sau: 176.1 176.0 160.6 158.4 165.3 158.0 155.3 164.2 157.2 159.0 167.7 155.6 165.1 170.0 167.4 166.4 162.3 167.1 154.0 159.3 164.5 171.5 151.9 166.0 166.9 162.0 152.5 147.6 163.6 163.5 172.2 165.8 172.4 162.0 149.6 159.9 157.0 154.6 162.3 171.2 171.1 162.0 158.6 164.4 176.6 159.5 149.9 164.0 162.2 162.0 167.3 156.1 162.5 158.4 156.8 167.8 168.7 164.6 170.6 165.2 168.9 166.2 155.3 157.9 167.4 171.8 170.2 178.7 171.7 171.5 164.0 171.7 162.7 155.8 161.4 163.4 148.3 160.9 156.1 165.6 157.9 166.8 157.2 158.8 162.7 157.1 165.9 162.7 176.7 172.1 157.0 160.8 165.2 161.8 163.8 164.2 174.7 158.2 162.3 168.9 Tr ưc m t “r ng” con s nh ư th , chúng ta ph i làm gì? Câu h i ó còn tùy thu c vào m c ích c a nghiên c u. Nh ưng ây, chúng ta mu n mô t chi u cao và huy t áp c a 100 i t ưng. Trong v n ch ươ ng, “mô t ” có ngh a là dùng t ng nói n nh ng khía c nh c a m t s ki n mà trong ti ng Anh nó tóm g n trong nh ng ch cái W: what (s ki n gì), when (x y ra âu), where (x y ra lúc nào), và khó h ơn chút là why (t i sao s ki n x y ra). Trong khoa h c, chúng ta c ng mô t s ki n v i nh ng khía c nh ó, nh ưng chúng ta s d ng c t ng và con s . Vì mô t b ng con s , chúng ta c n h i thêm nh ng câu h i nh ư “bao nhiêu” ( how many hay how much ) nh ư: chi u cao th p nh t và cao nh t là bao nhiêu, chi u cao trung bình bao nhiêu, dao ng cao th p bao nhiêu, v.v Vi hàng tr m con s nh ư th , r t khó c m nh n ưc v n . M t cách khác tt hơn là chúng ta s p x p s li u t th p nh t n cao nh t nh ư sau: 147.6 148.3 149.6 149.9 151.9 152.5 154.0 154.6 155.3 155.3 155.6 155.8 156.1 156.1 156.8 157.0 157.0 157.1 157.2 157.2 157.9 157.9 158.0 158.2 158.4 158.4 158.6 158.8 159.0 159.3 159.5 159.9 160.6 160.8 160.9 161.4 161.8 162.0 162.0 162.0 162.0 162.2 162.3 162.3 162.3 162.5 162.7 162.7 162.7 163.4 163.5 163.6 163.8 164.0 164.0 164.2 164.2 164.4 164.5 164.6 165.1 165.2 165.2 165.3 165.6 165.8 165.9 166.0 166.2 166.4 166.8 166.9 167.1 167.3 167.4 167.4 167.7 167.8 168.7 168.9 168.9 170.0 170.2 170.6 171.1 171.2 171.5 171.5 171.7 171.7 171.8 172.1 172.2 172.4 174.7 176.0 176.1 176.6 176.7 178.7 Cách s p x p này (ti ng Anh g i là sort ) cho chúng ta th y ng ưi có chi u cao th p nh t là 148.7 cm, và ng ưi cao nh t là 178.7 cm. Nh ưng n u nhìn k , chúng ta c ng chú ý r ng ph n l n các i t ưng có chi u cao kho ng 160 n 165 cm. n ây thì câu h i t ra là có bao nhiêu i t ưng v i m i chi u cao t 160 n 165 cm, và có bao nhiêu i t ưng có chi u cao th p h ơn hay cao h ơn hai giá tr ó? C Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 2
  3. nhiên, cách hay nh t là chúng ta m. Nh ưng v i máy tính, chúng ta có th yêu c u máy tính m và t t hơn n a là v bi u d ưi ây. Frequency distribution of height (1:n)/n Frequency 0 5 10 15 20 25 0.0 0.2 0.4 0.6 0.8 1.0 145 150 155 160 165 170 175 180 150 155 160 165 170 175 Height Height Bi ểu đồ 1 : (a) Mt phân ph i c a chi u cao, v i tr c tung là s i t ưng. (b) Bi u bên ph i là xác su t tích l y (cumulative probability) c a chi u cao. Trong Bi u trên (phía trái), tr c tung là s i t ưng và tr c hoành là chi u cao. Nh ư b n c có th th y, có 4 i t ưng v i chi u cao t 145 n 150 cm, và t 151 n 155 cm. T ươ ng t , ch có 4 i t ưng có chi u cao t 175 n 180 cm. úng nh ư cm nh n ban u, nh c a bi u là s i t ưng có chi u cao t 160 n 170 cm. Bi u bên ph i th hi n xác su t tích l y chi u cao. Nhìn qua bi u này, chúng ta có th nói r ng kho ng 30% i t ưng có chi u cao th p h ơn 160 cm, và kho ng 80% i t ưng có chi u cao th p h ơn hay b ng 170 cm. Nói cách khác, s i t ưng có chi u cao t 160 n 170 cm chi m kho ng 50% t ng s c m u. Do ó, nói n “phân ph i” là c p n t n s kh d (hay xác su t) c a các giá tr chi u cao. V hình d ng, chúng ta d dàng th y r ng s phân ph i chi u cao 100 i t ưng này gi ng nh ư m t hình chuông. Các phân ph i có hình d ng này ưc g i là “Normal distribution” (ch N c a normal vi t hoa), hay phân ph i bình th ưng . Nh ưng vì tính cách chu n hóa c a phân ph i này, nên tôi t m d ch là phân ph i chu n. cho có v khoa h c và “trí th c” m t chút (và làm cho nhi u ng ưi ph i b c tóc gãi u), gi i toán hc th nh tho ng thêm ch “lu t” thành “lu t phân ph i”! Phân ph i bình th ưng còn ưc g i là Gaussian distribution, b i vì ng ưi phát hi n ra lu t phân ph i này là nhà toán h c danh ti ng Carl F. Gauss (ng ưi c). Th t ra, Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 3
  4. ng ưi c p n lu t phân ph i này là nhà toán h c ng ưi Pháp De Moivre, nh ưng ông không phát tri n thêm. Trong cu n Theorie Analytique des Probabilites, Gauss phát tri n các c im c a lu t phân ph i chu n và ch ra r ng lu t phân ph i này phù h p v i các hi n t ưng t nhiên. Th t v y, h u h t các hi n t ưng sinh h c t nhiên (nh ư chi u cao, tr ng l ưng c ơ th , huy t áp, m t x ươ ng, v.v ) u có th mô t b ng lu t phân ph i bình th ưng m t cách chính xác. Chính vì th mà lu t phân ph i chu n ưc ng d ng cc kì r ng rãi trong khoa h c th c nghi m. Có th nói không ngoa r ng phân ph i chu n là n n t ng, là tr c t c a t t c các phân tích th ng kê. Không có lu t phân ph i này c ng có ngh a là không có khoa h c th ng kê hi n i. hi u rõ h ơn t m quan tr ng c a lu t phân ph i chu n, chúng ta c n ghi nh rng trong nghiên c u khoa h c th c nghi m, chúng ta không bi t các thông s c a m t qu n th , mà ch s vào các s li u t m t hay nhi u m u suy lu n cho m t qu n th . C th h ơn, ây chúng ta không bi t chi u cao trung bình c a toàn th ng ưi Vi t là bao nhiêu, chúng ta ch bi t chi u cao c a 100 i t ưng v a thu th p ưc, và chúng ta mu n s d ng các s li u này suy lu n cho toàn th ng ưi Vi t. Do ó, trong b t c phân tích th ng kê nào, chúng ta lúc nào nên nh và phân bi t gi a khái ni m qu n th (population) và m u (sample). Các ch s th ng kê ưc ưc tính t m u g i là c s ( estimates ), và các ch s th ng kê c a qu n th chúng ta g i là thông s (parameters ). Thông th ưng các ưc s ưc th hi n b ng kí hi u La Mã (nh ư m, s, t), còn các thông s ưc kí hi u b ng ch Hi L p t ươ ng ươ ng (nh ư µ, σ, τ ). I. Phân ph ối chu ẩn Quay tr l i v i v n c a chúng ta, m t trong nh ng câu h i mà có l chúng ta mu n bi t là: n u m t ng ưi àn ông ưc ch n ng u nhiên, xác su t mà ng ưi àn ông này có chi u cao b ng 160 cm là bao nhiêu. H i cách khác (và theo ngôn ng không toán hc), có bao nhiêu àn ông ng ưi Vi t Nam có chi u cao chính xác là 160 cm? Câu tr li có th d a vào s li u thu th p ưc. Chúng ta th y ch có m t ng ưi có chi u cao 159.9 cm (hay 160 cm), do ó xác su t là 1% (vì có m u chúng ta có là 100 ng ưi). Nh ưng vì chúng ta ch n m u ng u nhiên, cho nên con s này ch ưa ch c chính xác. N u chúng ta ng u nhiên ch n 100 ng ưi khác, có th có hai ng ưi có chi u cao 160 cm, và do ó xác su t là 2%. Th t ra, chúng ta c ng có th t m t câu h i chung nh ư sau: n u m t àn ông ưc ch n ng u nhiên, xác su t mà v àn ông này có chi u cao x cm là bao nhiêu? Hay, nói cách khác, có bao nhiêu ph n tr m àn ông Vi t Nam v i chi u cao x cm, trong ó x có th là b t c giá tr chi u cao nào. Trong tình hu ng b t nh c a ch n m u nh ư th, lu t phân ph i chu n cung c p cho chúng ta m t mô hình toán h c tr l i câu h i này. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 4
  5. Gi X là bi n s chi u cao, µ là chi u cao trung bình c a m t qu n th , và σ là lch chu n, câu h i trên có th phát bi u b ng công th c toán h c nh ư sau: P( X= x |µ , σ 2 ) = ? (Chú ý, P là vi t t t c a ch probability, t c xác su t; kí hi u “|” có ngh a là “given” hay “v i iu ki n”). Do ó, kí hi u trên có th c nh ư sau: xác su t mà X = x v i iu ki n chúng ta bi t ưc µ và σ là bao nhiêu). Câu tr l i mà Gauss ã có s n cho chúng ta là: 2 1 x − µ  2 ()  P() X= x |µ , σ = exp − 2 [1] σ2 π 2σ  Chú ý r ng công th c trên ôi khi c ng xu t hi n trong các sách giáo khoa v i mt hình th c khác: thay vì vi t P( X= x |µ , σ 2 ) , có tác gi vi t khó hi u h ơn là f(x) ! Tt nhiên, trong công th c trên π = 3.1416 Nh ư có th th y qua công th c [1] trên ây, lu t phân ph i chu n ưc hoàn toàn xác nh b i 2 thông s : trung bình µ và l ch chu n σ. Nói cách khác, n u chúng ta bi t ưc 2 thông s này, chúng ta có th ưc tính xác su t cho b t c chi u cao nào. (Do ó chúng ta c n ph i ch n m u (sample) nghiên c u nh ư th nào cho các ưc s c a mu nghiên c u là r t sát v i các thông s t ươ ng ươ ng c a qu n th . Ph n này ã ưc c p chi ti t trong bài ch n m u nghiên c u). Trong tr ưng h p c a chúng ta, ưc s cho µ và σ chính là s trung bình và l ch chu n c a m u. Các ưc s này là (các b n có th ki m tra): Trung bình: m = 163.3 cm l ch chu n: s = 6.6 cm Thay th các ưc s này cho cho µ và σ, chúng ta có th tr l i câu h i “có bao nhiêu àn ông ng ưi Vi t Nam có chi u cao chính xác là 160 cm”: 2 1 160− 163.3  ()  P() X =160 = exp − 2 = 0.0533 6.6× 2 × 3.1416 2×() 6.6  Theo áp s này, chúng ta có th oán r ng có kho ng 5.3% àn ông Vi t Nam có chi u cao chính xác là 160 cm. Tuy cách tính tho t u nhìn qua có v khác ph c t p, nh ưng vi ph n m m R, ch m t l nh ơn gi n dnorm(160, mean=163.3, sd=6.6) là chúng ta có ngay áp s chính xác! Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 5
  6. Tươ ng t , chúng ta có th ưc tính xác su t cho b t c chi u cao nào qua công th c [1]. B ng sau ây trình bày m t s xác su t cho chi u cao t th p n cao. Bảng 1. Xác su ất chi ều cao c ủa đàn ông Vi ệt Nam Chi ều cao Xác su ất Chi ều cao Xác su ất (cm) (tính b ằng (cm) (tính b ằng %) %) 140 0.0118 161 5.6885 141 0.0200 162 5.9285 142 0.0331 163 6.0383 143 0.0533 164 6.0107 144 0.0840 165 5.8474 145 0.1290 166 5.5594 146 0.1947 167 5.1656 147 0.2863 168 4.6908 148 0.4116 169 4.1630 149 0.5781 170 3.6107 150 0.7935 171 3.0606 151 1.0645 172 2.5354 152 1.3958 173 2.0527 153 1.7886 174 1.6242 154 2.2398 175 1.2559 155 2.7412 176 0.9491 156 3.2788 177 0.7010 157 3.8327 178 0.5060 158 4.3786 179 0.3570 159 4.8887 180 0.2461 160 5.3343 181 0.1658 Nu b n c ch u khó c ng t t c các xác su t này l i (th c ra không c n) thì t ng s s là g n bng 100%. Nói tóm l i, xác su t g n 100% là chi u cao c a àn ông Vi t Nam dao ng t 140 n 181 cm. Gi d nh ư n u m t àn ông có chi u cao 200 cm, câu h i t ra là chi u cao này có “b t bình th ưng” hay không. Theo s phân ph i chi u cao nh ư v a mô t (t c trung bình 163.3 cm và l ch chu n 6.6 cm), s àn ông Vi t Nam có chi u cao 200 cm ch 0.00000116 mà thôi. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 6
  7. Các xác su t trên ây c ng có th th hi n b ng m t bi u mà thu t ng ti ng Anh g i là probability density distribution (pdf) mà tôi t m d ch là phân ph i c a m t xác su t. Bi u này nh ư sau: Probability distribution of height in Vietnamese men Probability 0.00 0.01 0.02 0.03 0.04 0.05 0.06 140 150 160 170 180 190 Height Bi ểu đồ 2 . M t xác su t chi u cao àn ông Vi t Nam vi trung bình 163.3 cm và l ch chu n 6.6 cm. Bi u trên chính là lu t phân ph i chu n (theo công th c [1]). T t nhiên, t ng di n tích d ưi ưng bi u di n ph i b ng 1 (hay 100%). iu này có ngh a là n u chúng ta mu n ưc tính xác su t cho b t c kho ng chi u cao nào. Ví d n u chúng ta mu n bi t có bao nhiêu àn ông Vi t Nam có chi u th p h ơn 150 cm, chúng ta ch c n tính di n tích mà tr c hoành t 150 cm hay th p h ơn d ưi ưng bi u di n. Phát bi u theo ngôn ng toán h c câu h i này là: P(X < 150) = ? Hay nói chính xác h ơn n a: P( X <150 |µ = 163.3, σ == 6.6) ? Cách tính ơ n gi n nh t là chúng ta c ng các xác su t chi u t 140 n 149 (B ng 1 ( Bảng 1 ): 0.0118 + 0.0200 + 0.0331 + . + 0.5781 = 1.8%. Tuy nhiên, có m t cách tính nhanh h ơn và “tinh vi” h ơn là s d ng tích phân. Bn c nào còn nh tích phân thì câu tr l i cho câu h i này quá ơ n gi n: ch c n tính tích phân chi u cao t 0 (th p nh t) n 159 cm: 149 P()() X<150 = f x dx ∫0 Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 7
  8. 2 1 x −163.3  ()  trong ó, f() x =exp − 2 . K t qu t t nhiên là 0.018. Bn c 6.6 2 π 2() 6.6  không c n ph i làm các tính toán tích phân ph c t p, vì ph m m m R có m t l nh ơn gi n tính tích phân trên (tôi trình bày l nh này trong ph n chú thích phía cu i bài). Bi ểu đồ d ưới đây minh h ọa cho xác su ất này b ằng cách tô đậ m di ện tích d ưới đường bi ểu di ễn để b ạn đọ c có th ể hi ểu rõ h ơn: Probability distribution of height in Vietnamese men Probability P(X < 150) = 1.8% 0.00 0.01 0.02 0.03 0.04 0.05 0.06 140 150 160 170 180 190 Height Bi ểu đồ 3. Di n tích d ưi ưng bi u di n (màu xanh nh t) cho chi u cao <150 cm là xác su t P( X <150 |µ = 163.3, σ = 6.6 ) = 0.018 Tươ ng t , chúng ta có th ưc tính xác su t cho b t c kho ng chi u cao nào gi a a và b theo công th c tích phân trên ây. Ch ng h n nh ư xác su t àn ông Vi t Nam có chi u cao t 160 n 170 cm là: 170 P()()160≤ X ≤ 170 = f x dx ∫160 Hay m t cách chung h ơn: b Pa()()< X < b = fxdx [2] ∫a II. Phân ph ối chu ẩn hóa – standardized normal distribution Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 8
  9. Trong ph n trên, chúng ta quan tâm n vi c phân tích chi u cao b ng cách ng dng lu t phân ph i chu n. Tuy nhiên, nh ư c p trong ph n u, lu t phân ph i chu n có th ng d ng cho r t nhi u hi n t ưng t nhiên. Nh ưng các bi n khác nhau v ơn v o l ưng, nh ư chi u cao o b ng cm, nh ưng huy t áp o b ng mmHg, nên chúng ta khó mà so sánh hai bi n s này b i vì chúng có ơ n v o l ưng khác nhau, và có th l ch chu n c ng khác nhau. Ch ng h n nh ư n u m t i t ưng có chi u cao là 175 cm và huy t áp là 120 mmHg, làm sao chúng ta bi t các thông s cá nhân này cao hay th p. Do ó, chúng ta c n ph i có m t cách chu n hóa lu t phân ph i sao cho chúng ta có th so sánh các bi n s này mà không c n bi t n ơn v o l ưng. Mt trong nh ng cách chu n hóa ó là phân ph i chu n hóa, mà có l b n c tng th y âu ó trong sách giáo khoa ng ưi ta g i là standardized normal distrubution. Nh ư th y trong công th c [1], hai thông s trung bình và l ch chu n hoàn toàn xác nh lu t phân ph i chu n, cho nên, m t cách chu n hóa là hoán chuy n chi u cao (hay mt bi n s ) sao cho chúng c l p v i ơn v o l ưng. Cách hoán chuy n này có tên là z-transformation hay hoán chuy n z. Kt qu c a hoán chuy n là m t ch s z (thu t ng ti ng Anh là z-score ). Trong ví d v chi u cao, z là khác bi t gi a chi u cao m t cá nhân (kí hi u là x) và chi u cao trung bình c a qu n th chia cho l ch chu n. Nói cách khác: x − µ z = [3] σ Bi vì x, µ và σ trong công th c trên ây u có cùng ơ n v (cm), và cm chia cho cm thì không bi n m i hoàn toàn c l p v i ơn v o l ưng. Th t ra, ơn v c a z bây gi không còn là cm n a, mà là l ch chu n. Xem k công th c [3] trên chúng ta có th rút ra vài nh n xét nh ư sau: • Nu chi u cao c a m t cá nhân th p h ơn chi u cao trung bình c a dân s (t c là x µ, ch s z s là s d ươ ng. Ch ng h n nh ư n u chi u cao c a m t i tưng là 175 cm, thì z = 1.77. Nói cách khác, chi u cao c a i t ưng này cao hơn trung bình kho ng 1.8 l ch chu n. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 9
  10. Nh ư v y, thay vì mô t s phân ph i c a chi u cao b ng ơn v cm v i hàm s [1], chúng ta mô t b ng ơn v l ch chu n hay ch s z. Ch s z bây gi có s trung bình là µ = 0 và l ch chu n là σ = 1. Nu thay [3] vào [1], chúng ta có m t hàm s mi và ơ n gi n h ơn nh ư sau: 1 z2  f() z =exp  −  [4] 2π 2  Và hàm s tích l y [2] s tr thành: −0.5 z2 b b e Pazb()()<<=∫ fzdz = ∫ dz [5] a a 2π Bi u 4 d ưi ây minh h a cho phân ph i chi u cao tính b ng cm và b ng ch s z: Probability distribution of height in Vietnamese men Probability 0.00 0.01 0.02 0.03 0.04 0.05 0.06 140 150 160 170 180 190 Height Bi ểu đồ 4a . M t xác su t chi u cao àn ông Vi t Nam, mô t b ng cm. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 10
  11. Probability distribution of z height in Vietnamese men Probability P(-1.645 < z < 1.645) = 0.9 P(-1.96 < z < 1.96) = 0.95 P(-2.576 < z < 2.576) = 0.99 0.0 0.1 0.2 0.3 0.4 -4 -2 0 2 4 Z score Bi ểu đồ 4b . M t xác su t c a phân ph i chu n f(z) , v i trung bình 0 và l ch chu n 1. C nhiên, di n tích d ưi ưng bi u di n c a hàm s f(z) trong Bi u 4b ph i là 4 kho ng 1. Nói cách khác, P()()−<4 z < 4 = f z dz ; 1 . Ngoài ra, phân ph i chu n ∫−4 nh ư mô t qua Bi u 4b còn hàm ch a m t s thông tin có ích và thú v : • Xác su t mà z 1.96 là 0.025 (t c 2.5%). Nói cách khác, di n tích d ưi ưng bi u di n tính t z = -1.96 hay th p h ơn là 0.025. • Bi vì phân ph i chu n cân i (symmetric), chúng ta c ng có th nói (hay suy lu n) r ng xác su t mà z 1.96 c ng b ng 0.025. • Nh ư v y, xác su t mà z nm trong kho ng -1.96 và 1.96 là 1–0.025–0.025 = 0.95 (hay 95%). Nói cách khác, kho ng tin c y 95% c a z là -1.96 n 1.96. • Tươ ng t , chúng ta c ng có th phát bi u (và b n c có th t mình ki m ch ng) rng xác su t mà z nm trong kho ng -1.645 n 1.645 là 90%. Xác su t mà z nm trong kho ng -2.576 n 2.576 là 99%. Xác su t mà z nm trong kho ng - 3.09 n 3.09 là 99.9%. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 11
  12. n ây, chúng ta ã th y h ng s 1.96, 1.64 hay 3.0 xu t phát t âu! Các h ng s này ch ng có gì bí m t c : chúng là ch s z c a phân ph i chu n. Bng sau ây s cung c p m t s xác su t cho các ch s z thông d ng trong th ng kê h c và ng d ng trong y khoa: Bảng 2. Xác su ất các giá tr ị z z -3.090 -2.326 -1.96 -1.645 -1.282 0 1.282 1.96 2.326 3.090 P(Z z) 0.001 0.01 0.025 0.05 0.10 0.50 0.90 0.975 0.99 0.999 III. Kho ảng tin c ậy 95% Bây gi chúng ta s im qua vài ng d ng lu t phân ph i chu n trong y khoa. Vì có quá nhi u ng d ng, nên tôi ch t p trung vào nh ng v n liên quan n nh ng bài gi ng c a tôi, và m t v n mà chúng ta hay th y là ưc tính kho ng tin c y 95% (thu t ng ti ng Anh là 95% confidence interval hay có khi còn vi t là 95% confidence limit , th m chí 95% credible interval ). Trong nhi u nghiên c u y h c mang tính mô t , chúng ta th ưng mu n phát tri n mt các tham chi u ( reference range hay có khi g i không chính xác là normal range ). Ch ng h n nh ư phát tri n các giá tr tham chiu cho m t bi n s sinh hóa nh ư calcium trong máu, chúng ta có th ng u nhiên ch n m t s i t ưng và o n ng calcium trong máu, và sau ó tính kho ng tin c y 95%. Kho ng tin c y 95% này chính là các giá tr tham chi u. N u n ng calcium trong máu c a m t cá nhân n m ngoài kho ng tin cy 95% thì chúng ta có th (xin nh n m nh: “có th ”) phát bi u r ng n ng c a cá nhân này “b t bình th ưng”. ưc tính kho ng tin c y 95% (KTC95%), chúng ta chú ý m i liên h gi a x và x − µ z trong công th c [3]; vì z = , do ó: σ x=µ + z σ Nh ư c p trong ph n trên, 95% giá tr c a z nm trong kho ng -1.96 n +1.96, cho nên chúng ta c ng có th nói r ng 95% giá tr c a x nm trong kho ng µ−1.96 σ và µ+1.96 σ . Hay nói ng n g n h ơn, 95% các giá tr x nm trong kho ng: x =µ ± 1.96 σ [6] Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 12
  13. Quay l i v i ví d v chi u cao, chúng ta bi t r ng s trung bình là 163.3 cm và l ch chu n là 6.6 cm. Do ó, chúng ta có th suy lun r ng 95% àn ông Vi t Nam có chi u cao trong kho ng 163.3 ± 1.96×6.6 = 150.4 cm n 176.2 cm. Tt nhiên, chúng ta c ng có th ưc tính xác su t 99% chi u cao àn ông Vi t Nam n m trong kho ng 163.3 ± 3×6.6 = 143.5 cm n 183.1 cm. Do ó, n u m t àn ông có chi u cao th p h ơn 143.5 cm, chúng ta có th nói là “th p”, v i xác su t d ưi 0.5%! Tùy theo v n c th , nh ưng ph n l n các giá tr tham chi u trong y khoa u ly kho ng tin c y 95% làm chu n. Khi xác su t m t ch s th ng kê n m ngoài khong tin c y 95% ưc xem là “có ý ngh a th ng kê” (statistical significant). IV. K ết lu ận Qua bài này, hi v ng tôi ã gi i thích phân ph i chu n là gì, và h ng s 1.96 trong cách tính kho ng tin c y 95% xu t phát t âu. Phân ph i chu n óng m t vai trò thi t yu trong khoa h c th ng kê. H u h t t t c các suy lu n th ng kê u d a vào lu t phân ph i chu n phát tri n các ki m nh th ng kê (statistical tests). Ngay c các lu t phân ph i nh phân hay phân ph i Poisson (mà tôi s bàn n trong m t bài khác) c ng có th mô hình b ng lu t phân ph i chu n. Nh ư là m t qui lu t t nhiên, r t nhi u bi n s lâm sàng và khoa h c th c nghi m nói chung u tuân theo lu t phân ph i chu n. C ng có th có m t s bi n s sinh hóa không tuân theo lu t phân phi chu n, nh ưng có th hoán chuy n chúng tuân theo lu t phân ph i chu n. Do ó, các ph ươ ng pháp phân tích tham s (parametric methods) v n có th áp d ng cho các bi n lo i này. Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 13
  14. Các mã R s ử d ụng trong bài vi ết: # Nh p d li u v chi u cao và g i bin là ht # ngu n: mô ph ng ht <- c( 176.1, 176.0, 160.6, 158.4, 165.3, 158.0, 155.3, 164.2, 157.2, 159.0, 167.7, 155.6, 165.1, 170.0, 167.4, 166.4, 162.3, 167.1, 154.0, 159.3, 164.5, 171.5, 151.9, 166.0, 166.9, 162.0, 152.5, 147.6, 163.6, 163.5, 172.2, 165.8, 172.4, 162.0, 149.6, 159.9, 157.0, 154.6, 162.3, 171.2, 171.1, 162.0, 158.6, 164.4, 176.6, 159.5, 149.9, 164.0, 162.2, 162.0, 167.3, 156.1, 162.5, 158.4, 156.8, 167.8, 168.7, 164.6, 170.6, 165.2, 168.9, 166.2, 155.3, 157.9, 167.4, 171.8, 170.2, 178.7, 171.7, 171.5, 164.0, 171.7, 162.7, 155.8, 161.4, 163.4, 148.3, 160.9, 156.1, 165.6, 157.9, 166.8, 157.2, 158.8, 162.7, 157.1, 165.9, 162.7, 176.7, 172.1, 157.0, 160.8, 165.2, 161.8, 163.8, 164.2, 174.7, 158.2, 162.3, 168.9) # Sp x p s li u chi u cao t th p n cao sort(ht) # V bi u m t 1a hist(ht, breaks=10, xlab="Height", main="Frequency distribution of height") # V bi u m t 1b n <- length(ht) plot(sort(ht), (1:n)/n, type="s", ylim=c(0,1), xlab="Height" ) plot(density(ht), main="Plot of density distribution of height", xlab="Height") # Tìm s trung bình và l ch chu n c a chi u cao mean(ht) sd(ht) # c tính xác su t chi u cao = 160 cm v i trung bình=163.3 và sd=6.6 dnorm(160, mean=163.3, sd=6.6) # c tính xác su t cho b ng 1 height <- seq(140, 181, 1) dnorm(height, mean=163.3, sd=6.6)*100 # V bi u 2 Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 14
  15. height = z1) polygon(c(rev(t1$z), t1$z), c(rep(0, nrow(t1)), t1$ht), col="lightblue") Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 15
  16. t2 = z3) polygon(c(rev(t3$z), t3$z), c(rep(0, nrow(t3)), t3$ht), col="lightpink") t4 = z5) polygon(c(rev(t5$z), t5$z), c(rep(0, nrow(t5)), t5$ht), col="lavender") t6 <- subset(zht, z<= z6) polygon(c(rev(t6$z), t6$z), c(rep(0, nrow(t6)), t6$ht), col="lavender") lines(zht, lwd=2) arrows(-1.65,0.1,1.65,0.1, angle=30, length=0.1, code=3, lty=2) text(0,0.11, "P(-1.645 < z < 1.645) = 0.9", cex=0.8) arrows(-1.96,0.05,1.96,0.05, angle=30, length=0.1, code=3, lty=2) text(0,0.06, "P(-1.96 < z < 1.96) = 0.95", cex=0.8) arrows(-2.58,0.01,2.58,0.01, angle=30, length=0.1, code=3, lty=2) text(0,0.02, "P(-2.576 < z < 2.576) = 0.99", cex=0.8) # Cho bài t p : nh p s li u huy t áp c a 100 i t ưng # ngu n: nghiên c u b nh ái tháo ưng TPHCM 2007. bp <- c( 90, 130, 120, 130, 100, 150, 100, 120, 100, 110, 110, 170, 110, 110, 120, 110, 110, 120, 110, 85, 110, 120, 120, 120, 110, 150, 120, 120, 120, 110, 130, 150, 150, 110, 140, 140, 120, 110, 120, 110, 150, 110, 120, 120, 130, 110, 110, 120, 120, 140, 100, 130, 130, 130, 140, 100, 110, 110, 110, 120, 130, 110, 130, 120, 150, 100, 120, 100, 120, 140, 120, 100, 100, 110, 140, 125, 100, 140, 110, 120, 120, 120, 150, 120, 110, 120, 150, 100, 110, 120, 160, 110, 110, 120, 120, 150, 120, 130, 160, 90) Ch ươ ng trình hu ấn luy ện y khoa – YKHOA.NET Training – Nguy ễn V ăn Tu ấn 16