Bài giảng Xác suất thống kê - Phần 3, Chương V: Lý thuyết mẫu - Nguyễn Độc Lập

pdf 138 trang phuongnguyen 2360
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xác suất thống kê - Phần 3, Chương V: Lý thuyết mẫu - Nguyễn Độc Lập", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_xac_suat_thong_ke_phan_3_chuong_v_ly_thuyet_mau_ng.pdf

Nội dung text: Bài giảng Xác suất thống kê - Phần 3, Chương V: Lý thuyết mẫu - Nguyễn Độc Lập

  1. đại học y dƯợc thái nguyên Biờn soạn: Nguyễn Độc Lập Bộ mụn: Toỏn - Tin Biờn soạn: Nguyễn Độc Lập - Trường Đại học Y Dược – Đại học Thỏi Nguyờn
  2. Giới thiệu PHẦN II. XÁC SUẤT Chương I Chương II Chương III Chương IV PHẦN III. THỐNG Kấ Chương V Chương VI Chương VII Chương VIII MỤC LỤC Biờn soạn: Nguyễn Độc Lập - Trường Đại học Y Dược – Đại học Thỏi Nguyờn
  3. Biờn soạn: Nguyễn Độc Lập - Trường Đại học Y Dược – Đại học Thỏi Nguyờn
  4. Ch•ơng V Lý thuyết mẫu Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  5. 5.1. Tổng thể và mẫu Khi nghiên cứu các vấn đề kinh tế, xã hội, quân sự ta th•ờng khảo sát một hay nhiều dấu hiệu thể hiện bằng số l•ợng trên nhiều phần tử. Tập hợp các phần tử này do mục đích nghiên cứu quy định, tạo thành khách thể nghiên cứu. Trong thống kê gọi là tổng thể. Số phần tử trong tổng thể có thể hữu hạn hoặc vô hạn. Ta có một số ký hiệu sau: N: là số l•ợng phần tử của tổng thể và gọi là kích th•ớc của tổng thể.  là dấu hiệu đặc tr•ng cho tổng thể mà ta khảo sát. Các dấu hiệu này có thể định tính hoặc định l•ợng (Trong xã hội gọi là chỉ báo, trong kinh tế gọi là chỉ tiêu, trong vật lý gọi là đại l•ợng ) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  6. Chú ý: Ta không nghiên cứu trực tiếp tổng thể mà chỉ nghiên cứu dấu hiệu  nào đó của tổng thể. Vì thế, trong thực tế ph•ơng pháp nghiên cứu toàn bộ th•ờng chỉ đ•ợc áp dụng đối với các tập hợp có quy mô nhỏ, còn chủ yếu dùng ph•ơng pháp nghiên cứu không toàn bộ, đặc biệt là ph•ơng pháp nghiên cứu chọn mẫu. Nội dung của ph•ơng pháp là: từ tập hợp cần nghiên cứu chọn ra một số phần tử (gọi là mẫu), phân tích các phần tử này và dựa vào đó mà suy ra các kết luận về tổng thể cần nghiên cứu. Nếu mẫu đ•ợc chọn một cách ngẫu nhiên và xử lý bằng các ph•ơng pháp xác suất thì vừa thu đ•ợc các kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn đảm bảo độ chính xác cần thiết. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  7. 5.1.1. Khái niệm mẫu Muốn biết đ•ợc chính xác cơ cấu của tổng thể theo một dấu hiệu  , trung bình m, ph•ơng sai  ta phải điều tra toàn bộ N phần tử của tổng thể. Tuy vậy, sẽ gặp nhiều khó khăn nh•: Chi phí, nhân lực, thời gian, ph•ơng sai. Ví dụ: điều tra dân số Có tr•ờng hợp không thể chấp nhận điều tra đ•ợc toàn bộ. Ví dụ: Kiểm tra hàm l•ợng đ•ờng trong sữa phải đục toàn bộ các hộp sữa đã sản xuất Hoặc không thể xác định đ•ợc toàn bộ số N phần tử của tổng thể. Ví dụ: Điều tra xã hội học về số ng•ời phạm tội Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  8. 5.1.2. Các cách chọn mẫu Mẫu ngẫu nhiên: Đánh số các phần tử của tập hợp chính từ 1 đến N . Nếu muốn một mẫu có dụng l•ợng n(n N) thì sẽ dùng bảng số ngẫu nhiên hoặc bằng cách rút thăm cho đủ n số. Với cách này, các phần tử trong tập hợp chính đều có khả năng rơi vào mẫu nh• nhau. Chọn mẫu một cách cơ giới: Các phần tử trong tập hợp chính đ•ợc đ•a vào mẫu cách nhau mjột khoẳng xác định. Ví dụ: Trong một dây chuyền sản xuất sữa, cứ sau 30 phút lại lấy ra một hộp cho vào mẫu để kiểm tra. Chọn mẫu bằng cách phân lớp: Chia tập hợp chính thành một số lớp dựa theo một số tiêu chuẩn phụ nào đó sao cho các phần tử trong một lớp đồng đều hơn, sau đó mới lấy ngẫu nhiên từ mỗi lớp một số phần tử để đ•a vào mẫu. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  9. Chọn mẫu có lặp: Phần tử lấy ra từ tập hợp mẫu kích th•ớc n theo ph•ơng pháp đơn giản, ngẫu nhiên, có hoàn lại. Đối t•ợng nghiên cứu là dấu hiệu  đo đ•ợc chứ không phải là bản thân phần tử, do đó ta chỉ chú ý là các giá trị của dấu hiệu  trên phần tử. Định nghĩa: Cho đại l•ợng ngẫu nhiên X với quy luật phân phối xác suất F(X ) nào đó. Một mẫu ngẫu nhiên kích th•ớc n thành lập từ đại l•ợng ngẫu nhiên là đại l•ợng ngẫu nhiên độc lập, có cùng quy lật phân phối xác suất với đại l•ợng ngẫu nhiên . Ký hiệu là Wx (X 1 , X 2 , ,X n ) . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  10. 5.1.4. Phân bố thực nghiệm * Tr•ờng hợp ít số liệu: Nếu dung l•ợng mẫu nhỏ, ta trình bày mẫu d•ới dạng bảng: Giá trị xi x1 x2 xk Số lần lặp (mi) m1 m2 mk k Với mi n là dung l•ợng mẫu i 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  11. Tr•ờng hợp nhiều số liệu: Dùng khi các số l•ợng mẫu là giá trị của một đại l•ợng liên tục (ví dụ độ dài, trọng l•ợng ) Nếu gọi k là số lớp định chia, X Max là giá trị lớn nhất trong mẫu, X Min là giá trị nhỏ nhất trong mẫu thì độ dài mỗi lớp đ•ợc xác định: X X h Max Min k Do vậy lớp thứ nhất chứa số liệu từ X Min X Min h lớp thứ hai chứa số liệu từ X Min h X Min 2h lớp thứ chứa số liệu từ X Max h X Max Chú ý: Để tránh tr•ờng hợp số liệu có thể vừa rơi vào lớp này vừa rơi vào lớp bên cạnh, ta quy •ớc dùng nửa khoảng hoặc cho đầu mút là số thập phân thấp hơn các số liệu của mẫu (Sau khi đã làm tròn một cấp).
  12. Ví dụ: Nếu số liệu mẫu đã làm tròn đến đơn vị, độ dài mỗi lớp h là h đơn vị, là số lẻ thì sẽ lấy mút trái của lớp đầu là X ; Min 2 h mút phải lớp cuối cùng là X . Max 2 áp dụng: Trong một mẫu có dung l•ợng 100, với: X Min 103 ; X Max 157 Ta định chia mỗi lớp có độ dài h 3 . Khi đó: Lớp đầu tiên chữa số liệu trong khoảng h 3 X 103 101,5 104,5 Min 2 2 Lớp thứ hai chứa số liệu từ 104,5 107,5 Lớp cuối cùng chứa số liệu từ 155,5 158,5 Các số liệu của mẫu sau khi đã đ•ợc chia thành lớp, ta sẽ lấy trung bình của lớp đó làm số đại diện cho toàn lớp. Số số liệu xuất hiện trong mẫu là số lần lặp của số liệu trung bình của lớp. Khi đó ta có bảng phân bố thực nghiệm trình bày ở trên (5.1.4).
  13. 5.1.5. Đa giác tần suất Nếu mẫu cho d•ới dạng ở (5.1.4.) thì ta có biểu đồ hình gậy (Lấy trên mặt phẳng các điểm có tọa độ (xi ,mi ) rồi kẻ từ đó các đ•ờng thằng song song với OY cho tới khi gặp OX). Nối các điểm liên tiếp ra đ•ợc một đ•ờng gấp khúc gọi là đa giác tần suất. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  14. Ví dụ: xi 17 19 20 22 23 mi 1 2 4 2 1 5 4 4 3 2 2 2 1 1 1 0 17 19 20 22 23 xi Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  15. 5.1.6. Tổ chức đồ: Nếu số liệu đ•ợc chia thành lớp, thì mỗi lớp đ•ợc biểu diễn bằng một hình chữ nhật có đáy là độ dài của lớp đó đặt trên trục OX và chiều cao là tần suất (mi/n) của lớp đó. Ví dụ: Năng suất lúa gặt trên 200 ruộng thí nghiệm Năng suất Số thửa ruộng Tần suất (tạ/ha) 19-20 10 0,05 20-21 26 0,13 21-22 56 0,28 22-23 64 0,32 23-24 30 0,15 24-25 14 0,07 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  16. mi/n 0.35 0.32 0.3 0.28 0.25 0.2 0.15 0.15 0.13 0.1 0.07 0.05 0.05 0 19 20 21 22 23 24 25 xi Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  17. 5.2. Các đặc tr•ng của mẫu. (Hay các tham số mẫu) 5.2.1. Trung bình mẫu ngẫu nhiên (Kỳ vọng mẫu), ký hiệu: X Định nghĩa: Cho mẫu ngẫu nhiên kích th•ớc n đ•ợc xây dựng từ đại l•ợng ngẫu nhiên gốc X :Wx (X 1 , X 2 , , X n ). Trung bình (Kỳ vọng) của nó là một thống kê, ký hiệu và xác định bởi công thức: 1 1 n X (X 1 X 2 X n )  X i n n i 1 Nếu mẫu chỉ nhận các giá trị (X 1 , X 2 , ,X n ) với các tần số t•ơng ứng 1 k n1 ,n2 , ,nk ;(n1 n2 nk n) X ni X i n i 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  18. Ví dụ: Cho bảng số liệu sau: xi 35,6 35,9 36,1 36,2 36,6 ni 1 3 3 2 1 1.35,6 3.35,9 3.36,1 2.36,2 1.36,6 Khi đó: X 36,06 10 Tính chất: Nếu đại l•ợng ngẫu nhiên gốc X có kỳ vọng 2 E(X ) a ; ph•ơng sai D(X )  , thì thống kê X có: E(X ) a và  2 D(X ) . n Do vậy, bất kể phân bố gốc nh• thế nào, thống kê cũng có kỳ vọng bằng kỳ vọng của đại l•ợng ngẫu nhiên gốc X , còn ph•ơng sai của nó n lần nhỏ hơn ph•ơng sai của đại l•ợng ngẫu nhiên gốc . Do đó các giá trị có thể có của ổn định xung quanh kỳ vọng toán a hơn các giá trị có thể của X.
  19. 5.2.2. Ph•ơng sai của mẫu ngẫu nhiên Định nghĩa: Cho mẫu ngẫu nhiên kích th•ớc n đ•ợc xây dựng từ đại l•ợng ngẫu nhiên gốc X :Wx (X1 , X 2 , ,X n ) . Ph•ơng sai cảu nó là một thống kê, ký hiệu và xác định bởi công thức: n n 1 2 1 2 2 2 S n .(X X ) S  X i X ) hoặc:  i i . n i 1 n i 1 Trong ví dụ trên: 1 S 2 1.(35,6 36,06) 2 3.(35,9 35,06) 2 1.(36,6 36,06) 2  0,0624 . 10 Trong thực tế, để tiện cho việc tính toán ta sử dụng công thức sau: k 2 2 2 1 2 2 2 S ni .xi x S x (x) n i 1 Trong đó: X là trung bình của mẫu ngẫu nhiên Wx Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  20. * Tính chất của ph•ơng sai S2 2 Giả sử đại l•ợng ngẫu nhiên gốc X có E(X ) a và D(X )  n 1 Khi đó: E(S 2 )  2 n Trong thống kê toán, ngoài ph•ơng sai mẫu, còn dùng ph•ơng sai mẫu điều chỉnh S '2 . n '2 n 2 1 2 '2 1 2 S S (X i X ) ; hoặc S ni (X i X ) n 1 n 1 n 1 i 1 Nếu lấy căn bậc hai của ph•ơng sai mẫu S 2 và ph•ơng sai S '2 , ta có các thống kê t•ơng ứng gọi là độ lệch tiêu chuẩn mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh n n 2 1 2 ' 1 2 S S (X i X ) ; S (X i X ) . n i 1 n 1 i 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  21. 5.2.3. Tần suất mẫu ngẫu nhiên Giả sử ở một đám đông, nếu chỉ quan tâm đến hai dấu hiệu A và A , lại giả sử rằng xác suất xuất hiện A trong đám đông là p . Từ đám đông ta lấy mẫu kích th•ớc n : (X1 , X 2 , ,X n ) . Trong đó X i là số lần xuất hiện dấu hiệu A ở trong mẫu thứ i ; (i 1,n) . Nếu A xuất hiện thì Xi nhận giá trị 1, nếu A không xuất hiện thì Xi nhận giá trị 0. Gọi m là số xuất hiện A trong mẫu thì tần suất mẫu ngẫu m nhiên là một thống kê ký hiệu và xác định bởi công thức: f n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  22. 5.2.4. Ph•ơng pháp tính các giá trị của các thống kê thông dụng X ; S 2 Giả sử có mẫu ngẫu nhiên cụ thể: Wx (x1 , x2 , , xn ) cỡ n . a) Nếu tần số của các xi đều bằng 1 thì sử dụng cặp công 1 n thức: X  xi (I) n i 1 n n 2 2 1 2 1 2 1 S (xi X )  xi  xi n n i 1 n i 1 Chú ý: Trong thực tế để cho tiện, ta th•ờng sử dụng công thức: 2 n S 2 x (x)2 ; S '2 S 2 ; S S 2 ; S ' S '2 n 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  23. Ví dụ: Tính X ; S ; S' của một mẫu Wx = (6, 5, 1) Giải: Từ mẫu đã cho ta lập đ•ợc bảng sau: 2 X Xi - X (Xi - ) 6 (6 - 4)=2 4 5 1 1 1 -3 9 12 14 Ta có: X (1/ 3).12 4 n 3 14 S 2 (1/ 3).14 14 / 3 S '2 S 2 . 7 ; n 1 2 3 14 S 2,16 ; S = 7 2,65 3 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  24. b) Nếu đối với xi có tần số là ni (nói chung ni>1) thì cặp công thức (I) trở thành: 1 X  ni xi n i 2 1 1 1 2 2 2 S ni .(xi X ) ni .xi ni .xi (II) n n n 1 Ví dụ: Điều tra thu nhập bình quân trong 500 gia đình công nhân dệt nhận đ•ợc bảng: X: thu nhập (ngàn 100 120 150 180 220 >220 đồng) ni: (số gia đình) 50 75 275 60 40 0 Hãy tính trung bình X và ph•ơng sai S2 của thu nhập của 500 gia đình công nhân dệt đã cho ở bảng trên? Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  25. Giải: Từ số liệu đã cho, ta lập bảng tính toán sau: X(ngàn n n x n . x 2 đồng) i i. i i i 100 50 5.000 500.000 120 75 9.000 1.080.000 150 275 41.250 6.187.500 180 60 10.800 1.944.000 220 40 8.800 1.936.000 n 500 n x 74.850 2  i  i i ni xi 11.697.500 Từ công thức (II) ta có: 1 X 74.850 149,7 ; 500 1 S 2 .11.697.500 149,7 2 885 S 885 29,75 500 500 S '2 .885 886,8 S ' 886,8 29,78 . 499
  26. 5.3. Mẫu thu gọn. Ph•ơng pháp đổi biến Trong thực tế, khi các giá trị xi rất gần nhau và các tần số ni rất lớn thì việc sử dụng các công thức trên trở nên rất khó khăn. Ta th•ờng sử dụng mẫu thu gọn bằng cách chia nhóm sau đây: Giả sử đ•ợc một mẫu kích th•ớc n đã đ•ợc xác định cụ thể (x1 , x2 , ,xn ) , nó đ•ợc lấy ra từ đại l•ợng ngẫu nhiên X. Ta phân chia các số liệu ( số liệu): (x1 , x2 , ,xn ) thành k khoảng (k < n). Các khoảng có độ dài bằng nhau (= d). Điểm giữa mỗi khoảng là ti (i 1,2, ,k) . Tần số hay số liệu rơi vào các n ti t0 khoảng t•ơng ứng là n1 ,n2 , ,nk ,  ni n . Gọi hi . Trong i 1 d t t (i 1,2, ,k) đó 0 là một giá trị trong các i sao cho ứng với nó là khoảng tần số ni lớn nhất. 1 k Ta có: X  ni .ti (III) n i 1 k k k 1 d ti t0 d Khi đó (III) trở thành: X niti t0 ni t0 ni hi n i 1 n i 1 d n i 1
  27. Ví dụ: Đo chiều cao của 1948 thanh niên tuổi 17, ta đ•ợc 1948 số liệu (tính bằng cm). Ngay trong khi đo, ng•ời ta đã đặt các số liệu theo thứ tự tăng dần. ở đây chỉ cần nêu ra số liệu nhỏ nhất là 152 và số liệu lớn nhất là 175. Hãy tính số trung bình của mẫu trên? Giải: Thấy độ chênh lệch tối đa là: 175 - 152 = 23. Ta chia 1948 số liệu thành 8 khoảng (k = 8). Mỗi khoảng có độ dài là (d = 3). Căn cứ vào số liệu thu đ•ợc, ta tính toán nhờ việc lập bảng sau đây: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  28. Tần số ti t0 TT Phạm vi khoảng thuộc hi n h d i i khoảng (ni) 1 [152,155) 263 -2 -526 2 [155,158) 460 -1 -460 3 [158,161) 540 0 0 4 [161,164) 385 1 385 5 [164,167) 204 2 408 6 [167,170) 70 3 210 7 [170,173) 20 4 80 8 [173,176) 6 5 30 8 8 ni 1948 ni hi 127 i 1 i 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  29. Ta thấy [158,161) có tần số 540 là lớn nhất nên ta chọn t0 trong khoảng đó. 161 158 k 8, d 3 , t t 159,5 . Sau đó tính các số liệu vào 0 3 2 1 các cột 4 và 5 theo công thức hi (ti t0 ) ; (i 1, k ). Ví dụ: d 152 155 t 153,5 . i 2 153,5 159,5 h 2 n .h 263.( 2) 526 1 3 1 1 T•ơng tự, ta tính đ•ợc các số liệu còn lại và thể hiện ở bảng trên. Khi đó: d k 3 X t0 ni hi 159,5 .127 159,7(cm) n i 1 1948 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  30. Tính ph•ơng sai mẫu gần đúng bằng ph•ơng pháp chia khoảng Với cách thu gọn mẫu nh• đối với kỳ vọng, ta có công thức đối với ph•ơng sai mẫu sau: 2 k k 2 2 d 2 1 S  ni hi  ni hi n i 1 n i 1 Tức là để tính gần đúng S2 ta cũng làm cho các số liệu ở mẫu nhỏ lại, nguyên và ít đi. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  31. Ví dụ 2: Điều tra glucoza máu của 100 ng•ời bình th•ờng, thu đ•ợc 100 số liệu (đơn vị mg%). Trong khi đo đạc, các số liệu có đ•ợc đã xếp thành một dãy thống kê tăng dần từ 70, 126. Hãy tính X ; S2; S mẫu trên? Giải: Căn cứ vào số liệu đã có, độ lệch tối đa là: 126 - 70 = 56 Dự định chia các số liệu thành 13 khoảng (k = 13), độ dài mỗi khoảng d = 5. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  32. Nhận xét: Khoảng t7 có ni = 18 lớn nhất. Do đó chọn 100 95 t0 t7 97,5 2 ti t0 Ta tính dần các hi , trong khoảng 1, ta có: d 70 65 t1 67,5 2 67,5 97,5 2 2 h1 6. Suy ra: n h 6.1 6 ; h 36 ; n 36 . Với 5 1 1 1 1 t0 t7 97,5; k = 13; d = 5. áp dụng công thức: d 13 5 X t0 ni hi 97,5 .51 100,05(mg%) n i 1 100 2 13 13 2 2 2 d 2 1 5 1 2 S n h n h 489 .51 115,75  i i  i i n i 1 n i 1 100 100 Suy ra: S S 2 115,75 10,76(mg%). Ta có bảng sau đây và tính toán ở trên thể hiện trong bảng:
  33. Phạm vi Tần số ti t0 2 2 TT hi hi ni hi ni hi khoảng (ni) d 1 [65,70) 1 -6 36 -6 36 2 [70,75) 0 -5 25 0 0 3 [75,80) 2 -4 16 -8 32 4 [80,85) 5 -3 9 -15 45 5 [85,90) 8 -2 4 -16 32 6 [90,95) 16 -1 1 -16 16 7 [95,100) 18 0 0 0 0 8 [100,105) 17 1 1 17 17 9 [105,110) 16 2 4 32 64 10 [110,115) 9 3 9 27 81 11 [115.120) 5 4 16 20 80 12 [120,125) 2 5 25 10 50 13 [125,130) 1 6 36 6 36 13 13 13 n 100 n h 2 48  i  ni hi 51  i i
  34. Ví dụ: Để nghiên cứu trọng l•ợng trẻ sơ sinh trong một vùng, ng•ời ta cân thử 6000 cháu, thu đ•ợc số liệu sau đây: Trọng 2500- 2600- 2700- 2800- 2900- 3000- 3100- l•ợng 2600 2700 2800 2900 3000 3100 3200 Số 425 892 961 1533 1226 734 229 cháu Tính trọng l•ợng trung bình và ph•ơng sai trọng l•ợng trẻ sơ sinh ở vùng đó? Giải: Với số liệu đã cho ta có: d = 100, ti = 2850 100 X 2800 ( 639) 2839,35(gam) 6000 2 1 639 S 2 100 2 .14577 24181 6000 6000
  35. Việc tính toán trên đ•ợc thể hiện ở bảng sau đây: Trọng 2 ni ti hi nihi n h l•ợng (g) i i 2500 - 2600 425 2250 -3 -1275 3825 2600 - 2700 982 2650 -2 -1784 3568 2700 - 2800 961 2750 -1 -961 961 2800 - 2900 1533 2850 0 0 0 2900 - 3000 1226 2950 1 1226 1226 3000 - 3100 734 3050 2 1468 2936 3100 - 3200 229 3150 3 687 2061 Tổng 6000 - 639 14.577 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  36. Ch•ơng VI •ớc l•ợng các tham số của đại l•ợng ngẫu nhiên Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  37. Đặt vấn đề: Các tham số của đại l•ợng ngẫu nhiên cần nghiên cứu, ký hiệu:  nh• trung bình, ph•ơng sai, cơ cấu của tổng thể theo dấu hiệu  đ•ợc sử dụng rộng rãi trong phân tích kinh tế, xã hội Song các tham số này th•ờng ch•a biết, vậy ta phải •ớc l•ợng (xác định một cách gần đúng) nhờ ph•ơng pháp mẫu. Cho đại l•ợng ngẫu nhiên X, có thể đã biết hoặc ch•a biết quy luật phân phối xác suất dạng tổng quát, nh•ng ch•a biết tham số  nào đó của nó. Hãy •ớc l•ợng bằng ph•ơng pháp mẫu. Vì là một hằng số nên có thể dùng một số nào đó để •ớc l•ợng , •ớc l•ợng nh• vậy gọi là •ớc l•ợng điểm. (Nếu đ•a con số •ớc l•ợng lên trục số thì nó t•ơng đ•ơng với một điểm). Ngoài ra còn dùng ph•ơng pháp •ớc l•ợng bằng khoảng tin cậy, tức là chỉ ra một khoảng nào (g1, g2) nào đó có thể chứa đ•ợc . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  38. 6.1. Các ph•ơng pháp •ớc l•ợng điểm 6.1.1. Ph•ơng pháp hàm •ớc l•ợng Giả sử cần •ớc l•ợng tham số  của đại l•ợng ngẫu nhiên X, từ tổng thể (hay từ X) lấy một mẫu ngẫu nhiên kích th•ớc n: Wx = (X1, X2, , Xn), rồi chọn một thống kê G = f(X1, X2, , Xn) để thay thế cho . Gọi thống kê G là hàm •ớc l•ợng vì thực chất G là hàm của đại l•ợng ngẫu nhiên X1, X2, , Xn, trong đó các Xi ; i 1,n có cùng phân phối với X. Với mỗi cách chọn hàm f sẽ có t•ơng ứng một thống kê là đặc tr•ng của mẫu ngẫu nhiên với tham số cần •ớc l•ợng của đại l•ợng ngẫu nhiên (còn gọi là ph•ơng pháp mômen). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  39. Ví dụ: Để •ớc l•ợng kỳ vọng a của đại l•ợng ngẫu nhiên X, ta 1 n chọn G  X i X . n i 1 n 2 1 2 Chọn G  X i X S , (nếu để •ớc l•ợng ph•ơng sai) n i 1 Ta cần đ•a ra các tiêu chuẩn để đánh giá chất l•ợng của các thống kê G, từ đó lựa chọn đ•ợc một thống kê "xấp xỉ một cách tốt nhất" tham số cần •ớc l•ợng. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  40. 6.1.2. Các tiêu chuẩn lựa chọn hàm •ớc l•ợng Chất l•ợng của •ớc l•ợng không thể đánh giá qua một giá trị cụ thể của G. Vì nh• vậy chỉ có cách so sánh trực tiếp g và  mà lại ch•a biết. Hơn nữa, theo định nghĩa •ớc l•ợng bằng ph•ơng phápm hàm •ớc l•ợng, ta có thể có vô số cách chọn thống kê G làm hàm •ớc l•ợng cho . Sau đây là một số tiêu chuẩn để chọn hàm •ớc l•ợng: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  41. a) •ớc l•ợng không chệch: Thống kê G của mẫu đ•ợc gọi là •ớc l•ợng không chệch của tham số  của đại l•ợng ngẫu nhiên gốc X nếu: E(G)  . Ng•ợc lại, nếu E(G)  thì G gọi là •ớc l•ợng chệch của . Chú ý rằng: G là •ớc l•ợng không chệch của  không có nghĩa là mọi giá trị của G đều trùng khít với mà chỉ có nghĩa trung bình các giá trị của G bằng . Từng giá trị G có thể sai lệch rất lớn so với . Do đó: trung bình mẫu X , tần suất mẫu f , ph•ơng sai điều chỉnh mẫu S '2 theo thứ tự là •ớc l•ợng không chệch của kỳ vọng toán a , xác suất p , ph•ơng sai  2 của đại l•ợng ngẫu nhiên gốc X.
  42. b) •ớc l•ợng hiệu quả: Thống kê G đ•ợc gọi là •ớc l•ợng hiệu quả của tham số  của đại l•ợng ngẫu nhiên gốc X, nếu G là •ớc l•ợng không chệch của và ph•ơng sai của G (D(G)) không nhỏ hơn bất kỳ ph•ơng sai của một hàm •ớc l•ợng không chệch nào khác. Do đó, để xét G có phải là •ớc l•ợng hiệu quả của tham số hay không, ta cần tìm đ•ợc cận d•ới của ph•ơng sai hàm •ớc l•ợng. c) •ớc l•ợng vững: Thống kê G của mẫu đ•ợc gọi là •ớc l•ợng vững của tham số  của đại l•ợng ngẫu nhiên gốc X nếu G hội tụ theo xác suất đến khi n . Tức là:  0:lim P(G   ) 1 n Chú ý: Tr•ờng hợp G là •ớc l•ợng không chệch của  thì để tìm •ớc l•ợng vững, có thể dùng định lý sau: "nếu G là •ớc l•ợng không chệch của và lim D(G) 0 thì G là n •ớc l•ợng vững của ".
  43. 6.1.3. Kết luận về ph•ơng pháp hàm •ớc l•ợng * Vì trung bình mẫu X là •ớc l•ợng không chệch, hiệu quả và vững của trung bình tổng thể ( a) , do đó nếu ch•a biết a có thể dùng X để •ớc l•ợng nó. * Vì tần suất mẫu f là •ớc l•ợngkhông chệch, hiệu quả và vững của tần suất tổng thể ( p) , do đó nếu p ch•a biết có thể dùng để •ớc l•ợng nó. * Ph•ơng sai mẫu S 2 và ph•ơng sai mẫu điều chỉnh S 2 là •ớc l•ợng không chệch của ph•ơng sai tổng thể  2 , do đó nếu ch•a biết  2 có thể dùng hoặc S '2 để •ớc l•ợng nó. Chú ý rằng: ph•ơng sai mẫu và ph•ơng sai mẫu điều n chỉnh chỉ khác nhau rất ít bởi: S '2 S 2 , khi n đủ lớn thì n 1 n 1 rất nhanh. Trong thực tế, khi n 30 ta có thể lấy n 1 ph•ơng sai mẫu S 2 thay cho  2 .
  44. 6.2. Ph•ơng pháp •ớc l•ợng bằng khoảng tin cậy Ph•ơng pháp •ớc l•ợng điểm ở trên có nh•ợc điểm cơ bản là khi kích th•ớc mẫu nhỏ thì •ớc l•ợng điểm tìm đ•ợc có thể sai lệch nhiều so với tham số cần •ớc l•ợng, nghĩa là sai số của •ớc l•ợng rất lớn. Ngoài ra, không thể đánh giá khả năng mắc sai lầm khi •ớc l•ợng bằng bao nhiêu. Do vậy, khi cỡ mẫu nhỏ, ng•ời ta dùng ph•ơng pháp •ớc l•ợng bằng khoảng tin cậy. Nội dung của ph•ơng pháp •ớc l•ợng khoảng cho tham số  , là từ một thống kê G nào đó của mẫu, xây dựng một khoảng giá trị ngẫu nhiên (G1, G2) sao cho với một xác suất cho trứoc thì tham số  sẽ rơi vào (G1, G2) đó. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  45. 6.2.1. Định nghĩa khoảng tin cậy Khoảng (G1, G2) của thống kê G đ•ợc gọi là khoảng tin cậy của tham số  nếu với một xác suất bằng (1 ) cho tr•ớc, 0 1 thì điều kiện: P(G1  G2 ) 1 (I) đ•ợc thỏa mãn. Xác suất (1 ) đ•ợc gọi là độ tin cậy của •ớc l•ợng. Ta đã biết, do khá nhỏ nên: 1 khá lớn. (Thông th•ờng, trong thực tế th•ờng yêu cầu (1 )  0,95), nên theo nguyên lý xác suất lớn, biến cố (G1  G2 ) hầu nh• chắc chắn sẽ xảy ra trong một phép thử. Ta ký hiệu: I G2 G1 gọi là độ dài của khoảng tin cậy. (I có thể là hằng số, có thể là đại l•ợng ngẫu nhiên). Tiến hành một phép thử với mẫu ngẫu nhiên Wx (X 1 , X 2 , ,X n ) , ta thu đ•ợc một mẫu cụ thể wx (x1, x2 , ,xn ) . Do đó ta tính đ•ợc giá trị của G1 và G2 ứng với mẫu cụ thể này, kỳ hiệu là g1, g2. Khi đó có thể kết luận: qua mẫu cụ thể,với độ tin cậy 1 tham số  của đại l•ợng ngẫu nhiên gốc X sẽ nằm trong khoảng (g1,g2), tức là (g1  g2 ) .
  46. 6.2.2. •ớc l•ợng khoảng cho kỳ vọng toán (a) của đại l•ợng ngẫu nhiên X có phân phối chuẩn Giả sử đại l•ợng ngẫu nhiên X tuân theo quy luật phân phối chuẩn N(a, 2 ), với kỳ vọng E(X ) a ch•a biết. Cần •ớc l•ợng E(X )? Ta lập mẫu ngẫu nhiên Wx (X 1 , X 2 , ,X n ) và xét các tr•ờng hợp sau đây: 1) Đã biết ph•ơng sai D(X )  2 của đại l•ợng ngẫu nhiên gốc X (X a) trong tổng thể.Khi đó ta chọn lập thống kê: U n , trong  đó X là trung bình mẫu. Ta đã biết rằng U phân phối chuẩn hóa U: N(0,1). Với độ tin cậy (1 ) cho tr•ớc, ta tìm đ•ợc cặp số 1 ; 2 sao cho: 1 2 , (Với: 0 1; 0 1 1); 0 2 1) . Từ đó tìm đ•ợc: t 1 và t 2 để cho P(U t 1 ) 1 và P(U t 2 ) 2 và t 1 t 2 . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  47. (x a) Suy ra: P(t U t ) 1 P(t n t ) 1 1 2 1  2   Hay P X t 2 a X t 1 1 n n Biểu thức cuối cùng cho biết tham số a của đại l•ợng ngẫu nhiên sẽ nằm trong khoảng:   X t 2 ; X t 1 với độ tin cậy (1 ) (II) n n Nhận xét: (II) chỉ cho ta một khoảng tin cậy tổng quát của a. Với độ tin cậy (1 ) ta có vô số khoảng tin cậy t•ơng •úng vì có vô số cách chọn 1 , 2 dẫn đến vô số t 1 ; t 2 . Trong thực tế, biểu thức (II) chỉ đ•ợc sử dụng trong một số tr•ờng hợp đặc biệt sau: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  48. a) Khoảng tin cậy đối xứng: Nếu chọn , khi đó từ 1 2 2   (II) suy ra khoảng tin cậy của a là: X t ; X t (III) n 2 n 2 Trong đó t là giá trị thỏa mãn t 1 , hay thỏa mãn: 2 2 2 x u2 1 1  t , trong đó: (x) e 2 du (Hàm (x) gọi là hàm 2 2 0 2 Laplace).  Nếu đặt  t thì biểu thức (III) sẽ là: X ; X  và ta gọi n 2  là độ chính xác của •ớc l•ợng, hay sai số cho phép của •ớc l•ợng. Nó phản ánh mức độ sai lệch giữa số trung bình (a) của đại l•ợng ngẫu nhiên X so với trung bình mẫu X với độ tin cậy 1 . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  49. Ví dụ: Trọng l•ợng của một loại sản phẩm là đại l•ợng ngẫu nhiên phân phối theo quy luật chuẩn với độ lệch tiêu chuẩn là 1 gam. Cân thử 25 sản phẩm loại này ta có kết quả: Trọng l•ợng (g) 18 19 20 21 Số sản phẩm 3 5 15 2 Với độ tin cậy 1 0,95 , hãy tìm khoảng tin cậy đối xứng của trọng l•ợng trung bình của loại sản phẩm nói trên? Giải: Gọi X là "Trọng l•ợng sản phẩm". Theo giả thiết X : N(a,1) . Ta cần chỉ ra khoảng tin cậy đối xứng của a với độ tin cậy 1 0,95 . Khoảng tin cậy cần tìm có dạng: (X , X  ) . Trong đó X  là trung bình mẫu ngẫu nhiên kích th•ớc n 25 và  t . n 2 1 0,95 Ta thấy:  1; n 25;  t 0,475 t 1,96 (phụ lục 2 2 2 2 2) (Bảng Laplat).
  50. Chú ý: Nếu dùng bảng phân vị chuẩn thì: 1 0,95 1 0,975 2 Tra bảng phân vị chuẩn (phụ lục 3) ta cũng có U0,975 = 1,96 1 Suy ra:  .1,96 0,392 25 4 18.3 19.5 20.15 21.2 Từ mẫu đã cho, tính x  19,64 i 1 25 Vậy với độ tin cậy 0,95, khoảng tin cậy đối xứng của a (tức là trọng l•ợng trung bình) của sản phẩm trên là (19,64 - 0,392; 19,64 + 0,392). Hay: (19,248 < a < 20,032). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  51. Chú ý:* Không thể viết: P(19,248 < a < 20,032) = 0,95 vì độ tin cậy gắn với khoảng tin cậy ngẫu nhiên chứ không gắn với mẫu cụ thể, Mặt khác do a là hằng số nên nó chỉ có thể thuộc hoặc không thuộc khoảng: (19,248; 20,032). Tức là với một mẫu cụ thể thì biến cố (19,248 < a < 20,032) không phải là biến cố ngẫu nhiên. Nó sẽ là biến cố chắc chắn hoặc nó là biến cố không thể có.  * Trong công thức:  t , nếu tăng cỡ mẫu lên và giữ n 2 nguyên độ tin cậy 1 cho trứoc thì  (sai số cho phép) giảm đi, tức là độ chính xác của •ớc l•ợng tăng lên. Nếu tăng độ tin cậy 1 lên mà vẫn giữ nguyên cỡ mẫu n thì giá trị của phân vị chuẩn cũng tăng lên. Do đó  cũng tăng lên và làm cho độ chính xác giảm đi.
  52. * Xác định cỡ mẫu Nếu ấn định độ tin cậy (1 ) và sai số cho phép không v•ợt quá  0 cho tr•ớc thì kích th•ớc mẫu cần phải điều tra đ•ợc  2 .t 2 2 tính bởi công thức: n 2 1  0 Ví dụ: Trong ví dụ trên nếu yêu cầu độ chính xác của •ớc l•ợng chỉ là 0,1, giữ nguyên độ tin cậy 1 0,95 thì cỡ mẫu cần phải xác định là: 2 2  .t 2 2 2 1 .1,96 n 2 1 2 1 384 1 385  0 0,1 Tức là để sai số cho phép giảm từ 0,392 về 0,1 thì cỡ mẫu tăng từ 25 đến 385.
  53. b) Khoảng tin cậy bên phải: (•ớc l•ợng giá trị tối thiểu của a) Nếu lấy 1 0; 2 . Khi đó khoảng tin cậy của a là:  X t( ) a n c) Khoảng tin cậy bên trái (•ớc l•ợng giá trị tối đa của a) Nếu lấy 2 0; 1 . Khi đó khoảng tin cậy của a là:  a X t( ) n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  54. 2. Tr•ờng hợp ch•a biết ph•ơng sai D(X)= 2 (x a) a) Nếu cỡ mẫu n <30. Chọn thống kê: T n S ' Ta đã biết thống kê T tuân theo quy luật Student với (n -1) bậc tự do. Khi đó: Khoảng tin cậy của a với độ tin cậy (1 ) là: S ' S ' X t (n 1) ; X t (n 1) 1 2 1 1 n n Khoảng tin cậy bên phải của a (•ớc l•ợng giá trị tối thiểu) khi 1 0; 2 là: ' S (n 1) X t1 a n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  55. Khoảng tin cậy bên trái của a (•ớc l•ợng giá trị tối đa) khi ' S (n 1) 0; là: a X t1 2 1 n (n 1) (n 1) Trong đó t , t1 / 2 đ•ợc xác định từ bảng phân phối Student với (n -1) bậc tự do. Đặt I 2 và gọi là độ dài của khoảng tin cậy, nó có độ dài ngắn nhất khi khoảng tin cậy là đối xứng; ' S (n 1)  t còn gọi là độ chính xác của •ớc l•ợng. 1 n 2 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  56. Ví dụ: Theo dõi mức xăng hao phí (X) cho một loại ô tô đi từ A đến B thu đ•ợc bảng số liệu sau: Mức xăng 19,0 - 19,5 19,5 - 20,0 20,0 - 20,5 20,5 - 21,0 (X) Số lần đi 2 10 8 5 Với độ tin cậy 1 0,95 ; Hãy tìm khoảng tin cậy đối xứng của mức xăng hao phí trung bình, mức xăng hao phí trung bình tối thiểu, tối đa khi đi từ A đến B. Biết rằng X tuân theo quy luật phân phối chuẩn. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  57. Giải: Mức xăng hao phí trung bình chính là E(X ) a cần •ớc l•ợng trong phân phối chuẩn, tr•ờng hợp ph•ơng sai ch•a biết và cỡ mẫu n 25 30 . (n 1) 24 (n 1) 24 t t0,975 2,064 t t 1,711 Tra bảng Student 1 ; 0,5 2 Căn cứ vào số liệu đã cho, ta lập bảng để tính X và  ti t0 2 X(lít) t n hi n h ni hi i i d i i 19,0 - 19,5 19,25 2 -1 -2 2 19,5 - 20,0 19,75 10 0 0 0 20,0 - 20,5 20,25 8 1 8 8 20,5 - 21,5 20,75 5 2 10 20  25 16 30 Ta thấy khoảng 2 có ni = 10 lớn nhất, chọn t0 = 19,75, d = 0,5. d 4 0,5 Khi đó: X t0  ni hi 19,75 .16 20,07 n i 1 25 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  58. 2 4 4 2 d 2 1 0,25 1 25 S 2 n h n h 30 .16 2 0,1976 S '2 .0,1976 0,2058  i i  i i n i 1 n i 1 25 25 24 ' Vậy: S 0,2058 0,4536 .Vậy với độ tin cậy 1 0,95 qua mẫu nói trên, mức xăng hao phí trung bình là: 0,4536 0,4536 20,07 2,064. a 20,07 2,064. (19,283,a 20,26) 25 25 T•ơng tự, mức xăng hao phí tối đa sẽ là: S '2 0,45 (n 1) a X t 20,07 1,711 ( a 20,05) n 25 T•ơng tự, mức xăng hao phí tối thiểu sẽ là: '2 (n 1) S 0,45 (X t a ) (20,07 1,711 a ) (19,92 a ) n 25 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  59. Ví dụ 2: Qua một mẫu điều tra về Urê máu của 10 ng•ời, ng•ời ta thu đ•ợc kết quả sau: Đơn vị (cg/1): 24; 40; 30; 19; 48; 32; 35; 21; 18; 40. Hãy •ớc l•ợng chỉ ra khoảng tin cậy đối xứng của số trung bình về Urê máu của đám đông với mức ý nghĩa 5% , và 1% . Giả thiết Urê máu có phân phối chuẩn. Giải: Gọi X là Urê máu ng•ời. Theo giả thiết X; N(a, 2 ) , trong đó a và  2 đều ch•a biết cần phải •ớc l•ợng dựa trên một mẫu có kích th•ớc n 30 . n 1 9 n 1 9 Tra bảng Student t / 2 t0,975 2,265 và t / 2 t0,95 3,25 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  60. Từ mẫu đã cho ta tính đ•ợc: 1 10 1 X  X i .(24 40 19 18 40) 30,70 10 i 1 10 10 '2 1 2 ' S (X i X ) 103,3 S 103,3 9 i 1 áp dụng công thức tìm khoảng tin cậy đối xứng: ' ' S (n 1) S (n 1) X t1 ; X t1 / 2 . Khi đó khoảng tin cậy cần tìm n / 2 n của a với mức ý nghĩa 0,05 hay với độ tin cậy 0,95% là: 103,3 103,3 30,70 .2,262;30,70 .2,262 (23,4;37,95) 10 10 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  61. Khi đó khoảng tin cậy cần tìm của a mức ý nghĩa 0,01 hayvới độ tin cậy 0,99% là: 103,3 103,3 30,70 .3,25;30,70 .3,25 (20,3;41,1) 10 10 Nếu giả thiết X : N(a, 2 ) mà cả a và  2 đều ch•a biết. Bài toán đặt ra là phải tìm kích th•ớc (cỡ) mẫu tối thiểu cho một cuộc điều tra về kỳ vọng a. Với độ tin cậy (1 ) đa đ•ợc đặt ra và sai số  cho phép không v•ợt quá số  0 cho tr•ớc, khi đó S '2 cỡ mẫu tối thiểu đ•ợc tính bởi công thức: 2 . N 2 t .n 1 1  0 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  62. Ví dụ: Phỏng vấn 5 gia đình có 6 nguời về chi phí hàng tháng cho nhu cầu điện thoại, ng•ời ta thu đ•ợc số liệu sau: 150, 180, 200, 250, 300 (đơn vị ngàn đồng). Vậy phải phỏng vấn thêm bao nhiêu gia đình cùng loại để với độ tin cậy 95% thì sai số của việc •ớc l•ợng chi phí trung bình hàng tháng cho nhu cầu trên không v•ợt quá 30 ngàn đồng. Giả sử chi phí cho nhu cầu trên là đại l•ợng ngẫu nhiên có phân phối chuẩn. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  63. 1 5 1 Giải: n 5; X  X i (150 180 200 250 300) 216 n i 1 5 55 '2 1 2 1 2 2 2 S (X i X ) (150 216) (180 216) (300 216)  3530 n 1 i 1 4 Sai số cho phép của •ớc l•ợng đ•ợc ấn định 30  0 30 4 Tra bảng Fishir-Student ta có: t0,975 2,776 Theo công thức: '2 S 3530 2 N t 2 1 N (2,776) 1 [30,18] 1 31 2 .n 1 30 2  0 Nh• vậy phải phỏng vấn thêm 26 gia đình nữa. (Vì đã hỏi 5 gia đình) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  64. b) Nếu cỡ mẫu n 30 . Nh• ta đã biết, phân phối Student xấp xỉ phân phối chuẩn khi n khá lớn, trong thực tế áp dụng cỡ (x a) mẫu . Chọn thống kê: U n S ' Thống kê U xấp xỉ phân phối chuẩn hóa khi n đủ lớn ( ). Khi đó: Khoảng tin cậy của a với độ tin cậy (1 ) là: S ' S ' X U ; X U 1 2 1 1 n n Khoảng tin cậy đối xứng của a khi là: 1 2 2 S ' S ' X U1 / 2 ; X U1 / 2 n n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  65. Khoảng tin cậy bên phải của a (•ớc l•ợng giá trị tối thiểu) S ' X U a khi 1 0 ; 2 là: 1 n Khoảng tin cậy bên trái của a (•ớc l•ợng giá trị tối đa) khi S ' 0; là: a X U1 2 1 n Trong đó U ,U1 / 2 đ•ợc xác định từ bảng giá trị của hàm Laplatce. Đặt I 2 và gọi là độ dài của khoảng tin cậy, nó có độ dài S ' ngắn nhất khi khoảng tin cậy là đối xứng; ( U còn gọi là 1 n 2 độ chính xác của •ớc l•ợng). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  66. Ví dụ: Để •ớc l•ợng năng suất trung bình của giống lúa A tại một vùng, ng•ời ta gặt ngẫu nhiên 100 thửa ruộng ở vùng đó và thu đ•ợc bảng số liệu sau: Năng suất 40 - 42 - 44 - 46 - 48 - 50 - (tạ/ha) 42 44 46 48 50 52 Số thửa (ni) 7 13 25 35 15 5 Biết năng suất lúa tuân theo quy luật phân phối chuẩn. 1) Hãy •ớc l•ợng năng suất trung bình của giống lúa đó trong vùng đang xét bằng khoảng tin cậy đối xứng với độ tin cậy 0,95. 2) Cũng với độ tin cậy 0,95, hãy •ớc l•ợng năng suất trung bình tối thiểu của giống lúa A tại vùng đó. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  67. Giải: Gọi X là năng suất giống lúa A tại vùng đang xét. X : N(a, 2 ) . Cả a và  2 đều ch•a biết, ta cần •ớc l•ợng khoảng cho kỳ vọng (a) bằng khoảng tin cậy đối xứng đối với mẫu có kích th•ớc lớn (n 100) S ' S ' áp dụng công thức: X U1 / 2 ; X U1 / 2 n n Tra bảng hàm Laplatce ta có: U1 / 2 U 0,975 1,96 . Với số liệu đã cho, ta lập bảng tính toán sau để tính X ; S ' Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  68. ti t0 2 2 X(tạ/ha) n hi n h hi ni hi i 2 i i 40 - 42 7 -3 -21 9 63 42 - 44 13 -2 -26 4 52 44 - 46 25 -1 -25 1 25 46 - 48 35 0 0 0 0 48 - 50 15 1 15 1 15 50 - 52 5 2 10 4 20  n = 100 -47 175 Khoảng (46 - 48) có tần số ni = 35 lớn nhất. Do đó ta chọn t0 = 47; d = 2. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  69. 2 6 2 X t0 ni hi 47 ( 47) 46,06 100 i 1 100 2 6 6 2 2 d 1 4 1 2 S  ni hi  ni hi 175 ( 47) 6,1164 n i 1 n i 1 100 100 n 100 S '2 S 2 6,1164 6,178 S ' S '2 6,178 2,48 n 1 99 1) Vậy khoảng tin cậy đối xứng của năng suất trung bình giống lúa A với độ tin cậy 0,95 là: 2,48 2,48 46,06 .1,96 a 46,06 .1,96 (45,58 a 46,55) (tạ/ha) 100 100 2) Ta có năng suất tối thiểu với độ tin cậy 0,95 tính bởi: S ' X U1 a . n 2,48 Tra bảngU 0,95 1,645 46,06 .1,645 a (45,64 a ) (tạ/h). 100
  70. 6.2.3. •ớc l•ợng khoảng cho kỳ vọng a của đại l•ợng ngẫu nhiên X khi ch•a biết rõ quy luật phân phối, dựa vào mẫu lớn. Giả sử từ một tổng thể, dấu hiệu cần nghiên cứu nào đó đ•ợc coi nh• đại l•ợng ngẫu nhiên X phân phối theo một quy luật khác với quy luật chuẩn. X có kỳ vọng toán là a mà ta cần •ớc l•ợng. Từ X có mẫu ngẫu nhiên có kích th•ớc n đủ lớn W = (X1, X2, , Xn). Dựa vào định lý Lindenbreg-Lewy: "Nếu các đại l•ợng ngẫu nhiên X1, X2, , Xn độc lập, có cùng kỳ vọng a và ph•ơng sai  2 thì các đại l•ợng ngẫu nhiên: (x a) (x a) T n và T n sẽ có phân phối chuẩn hóa N(0,1) 1  2 S ' khi n “đủ lớn". Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  71. Dựa vào định lý trên, để •ớc l•ợng a của X ta có thể chọn thống kê: (x a) T n (Nếu đã biết ph•ơng sai  2 của X) 1  (x a) T n (Nếu ch•a biết ph•ơng sai  2 của X) 2 S ' Ta đã biết, nếu kích th•ớc n đủ lớn, cả hai thống kê trên đều có phân phối xấp xỉ chuẩn hóa N(0,1). Do đó, cách •ớc l•ợng a bằng khoảng tin cậy vẫn tiến hành nh• ta đã biết. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  72. Ví dụ: Kiểm tra 100 sản phẩm của một nhà máy, thấy trọng l•ợng bình quân là 20kg và S = 1,5kg. a) Nếu cho rằng trọng l•ợng bình quân đã thu đ•ợc sai khác với trọng l•ợng bình quân thật sự không quá 0,3 kg thì độ tin cậy của •ớc l•ợng phải bằng bao nhiêu? b) Từ mẫu sơ bộ đã có, hỏi phải kiểm tra một mẫu là bao nhiêu sản phẩm để kết quả bình quân thu đ•ợc sai khác với trọng l•ợng bình quân thực sự không quá 0,3 kg với độ tin cậy 0,9973. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  73. Giải: a) Gọi X là trọng l•ợng của loại sản phẩm. Trọng l•ợng bình quân thực sự chính là kỳ vọng a của X. Với n = 100 thì thống (x a) kê T n đ•ợc coi là có phân phối chuẩn hóa N(0,1). Ta S ' có khoảng tin cậy đối xứng của a với độ tin cậy (1 ) là: S ' S ' X U / 2 ; X U / 2 n n Theo đầu bài, sai số cho phép của •ớc l•ợng là  0,3. Suy ra: S ' 0,3. 100 0,3 U / 2 U / 2 2. n 1,5 1 Vì (U / 2 ) 1 2(U / 2 ) 2(2). 2 = 2.0,47725=0,9545. Đây chính là độ tin cậy cần tìm. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  74. b) Với ý định chọn mẫu lớn (n 100). Sử dụng công thức: '2 S 2 N 2 U / 2 1. Ta có:  0 ' S S 1,5; 0 0,3;U / 2 là số sao cho: 1 0,9773 (U ) (U ) U 3 / 2 2 / 2 2 / 2 '2 2 S 2 (1,5) (Nhờ tra bảng Laplatce). Khi đó: 2 U / 2 2 .9 225 .  0 (0,3) Vậy cần kiểm tra một mẫu ít nhất là 225 sản phẩm để bình quân thu đ•ợc (20kg) khác với bình quân thật sự của sản phẩm không quá 0,3 kg, với độ tin cậy 0,9973. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  75. 6.2.4. •ớc l•ợng khoảng cho tỷ lệ hay xác suất ( f p) n Khi n đủ lớn, đại l•ợng thống kê T xấp xỉ phân f (1 f ) phối của đại l•ợng ngẫu nhiên có phân phối chuẩn hóa 1 n N(0,1). Trong đó: f  X i X , f là tỷ lệ mang đặc tính A n i 1 p(1 p) trong mẫu ngẫu nhiên đ•ợc lấy ra. E( f ) p và D( f ) . n Khi đó khoảng tin cậy đối xứng của p với độ tin cậy(1 ) là: f (1 f ) f (1 f ) f U ; f U . / 2 / 2 n n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  76. f (1 f ) Đặt:  U , khi đó khoảng tin cậy đối xứng của p n / 2 với độ tin cậy (1 ) là: Khoảng tin cậy bên phải (•ớc l•ợng giá trị tối thiểu) của p: f (1 f f U p n Khoảng tin cậy bên trái (•ớc l•ợng giá trị tối đa) của p: f (1 f ) p f U n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  77. Chú ý: Khi áp dụng các công thức trên, để kết quả đ•ợc chính xác ta cần có n lớn, f không quá nhỏ hoặc quá lớn. Thực tế, ta áp dụng khi: n 100;0,1 f 0,9;nf 10;n(1 f ) 10. (*) Kích th•ớc của mẫu cần phải điều tra đảm bảo cho việc •ớc l•ợng xác suất p có độ tin cậy (1 ) và sai số cho phép  không v•ợt quá  0 là: f (1 f ) 2 N1 2 U / 2 1  0 (Dùng khi đã có mẫu định h•ớng và f là tần suất hay tỷ lệ của mẫu đó). 1 Với: U thỏa mãn (U ) 1 hay (U ) / 2 / 2 2 / 2 2 1 2 N2 2 U / 2 1 4 0 (Dùng khi ch•a có hoặc không có mẫu định h•ớng và f là tần suất hay tỷ lệ của mẫu đó)
  78. Ví dụ 1: Kiểm tra ngẫu nhiên 400 sản phẩm do một máy sản xuất thấy có 20 phế phẩm. Với độ tin cậy 0,95, hãy •ớc l•ợng tỷ lệ phế phẩm tối đa của máy đó. Giải: Gọi p là tỷ lệ phế phẩm của máy đó và gọi f là tỷ lệ phế phẩm của máy đó ở mẫu có kích th•ớc n = 400. ứng với độ tin cậy 1 0,95 thì khoảng tin cậy bên trái (•ớc l•ợng giá trị f (1 f ) p f U tối đa) của p là: n Ta có 0,05 U 1,645; f 20 / 400 0,05 . Vậy tỷ lệ phế phẩm p tối đa của máy cần •ớc l•ợng là: 0,05.0,95 p 0,05 .1,645 p 0,0679 400 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  79. Ví dụ 2: Cần phải chọn một mẫu kích th•ớc bằng bao nhiêu để với độ tin cậy 0,95 thì tỷ lệ hạt giống không đạt tiêu chuẩn của mẫu đó khác với tỷ lệ thật của toàn bộ hạt giống không v•ợt quá 0,05. Giải: Tr•ờng hợp này ta ch•a có mẫu cụ thể (mẫu định h•ớng);  0 0,05 Độ tin cậy ấn định 1 0,95 U / 2 1,96 . Kích th•ớc của mẫu cần phải điều tra thỏa mãn đầu bài là: 1 2 1 2 N2 2 U / 2 1 N 2 (1,96) 1 384,16 1 385 4 0 4.(0,05) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  80. Ví dụ 3: Điều tra tình hình mắc bệnh b•ớu cổ ở một vùng dân c• trên một mẫu gồm 500 ng•ời (nữ, tuổi từ 30 đến 50), thấy có 60 ng•ời mắc bệnh. Nếu cho rằng đối với dân (là nữ, tuổi từ 30 đến 50) ở vùng đó, độ sai khác giữa tỷ lệ không bị mắc bệnh thực tế với tỷ lệ thu đ•ợc ở mẫu không v•ợt quá 3% thì độ tin cậy của •ớc l•ợng phải là bao nhiêu? Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  81. Giải: Gọi p là tỷ lệ không bị mắc bệnh b•ớu cổ của dân c• vùng đang xét. Ta cần •ớc l•ợng khoảng cho p. 60 Tỷ lệ mắc bệnh ở mẫu là (1 f ) 0,12 . Suy ra tỷ lệ không 500 mắc bệnh ở mẫu là: f 0,88. Vì n 500; 0,1 f 0,9; nf 10 ; n(1 f ) 10. (Thỏa mãn chú ý (*)). Theo giả thiết, sai số cho phép là  0,03. f (1 f ) . n 0,03. 500 0,67 Từ:  U / 2 U / 2 2,06 n f (1 f ) 0,88.0,12 0,325 Tra bảng (U / 2 ) (2,06) 0,483 Độ tin cậy (1 ) 2.(2,06) 0,96. Kết luận: Dựa vào cuộc điều tra đã tiến hành thì với độ tin cậy 0,96, khoảng tin cậy đối xứng của p là: (0,88 - 0,03 < p < 0,88 + 0,03). Hay: (0,85 < p < 0,91). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  82. Ví dụ 4: Để •ớc l•ợng cá trong hồ, ng•ời ta đánh lên 2000 con, đánh dấu chúng, rồi thả xuống. Sau một thời gian, để số cá đã đánh dấu phân tán t•ơng đối đồng đều trong hồ, ng•ời ta lại đánh lên một mẫu n = 400 con thì thấy có 80 con bị đánh dấu. Với độ tin cậy 0,90, hãy •ớc l•ợng số cá hiện có trong hồ? Giải: Gọi số cá trong hồ cần •ớc l•ợng là N. Tỷ lệ cá bị đánh 2000 dấu trong hồ là p . Trong mẫu 400 con cá, có 80 con bị N 80 đánh dấu. Do đó tỷ lệ f (cá bị đánh dấu ở mẫu) là: f 0,20 . 400 Ta chú ý rằng n = 400; 0,1 10; n.(1 - f) > 10. Vậy chú ý (*) đ•ợc thỏa mãn Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  83. Với độ tin cậy đã ấn định: 1 0,9 (U / 2 ) 0,45 U / 2 U 0,975 1,645 . Khoảng tin cậy đối xứng của p ứng với độ tin cậy 0,90 là: f (1 f ) f (1 f ) f U p f U . Khi đó: / 2 / 2 n n 0,2.0,8 0,2.0,8 0,2 .1,645 p 0,2 .1,645 (0,167 p 0,233). 400 400 2000 Từ: p , suy ra: (8.583 < N < 11.976). N Vậy với độ tin cậy 0,90, số cá trong hồ có khoảng tử 8.583 đến 11.976Bài giảng XSTKcon. – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  84. Ch•ơng VII Kiểm định giả thiết thống kê Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  85. Đặt vấn đề: Giả sử ta có hai giả thiết (hai khả năng) về một vấn đề nào đó. Ví dụ: so sánh tham ẩn  của một phân phối nào đó (có thể là kỳ vọng, ph•ơng sai, xác suất ). Muốn vậy, ta th•ờng khảo sát các mẫu và nhận thấy có sự sai khác nh• trọng l•ợng trung bình giữa các mẫu thu đ•ợc, chiều cao của giữa các nhóm thanh niên. Nếu sự sai khác đó nhỏ thì có thể coi là sự ngẫu nhiên. Ng•ợc lại, nếu sự sai khác đó đủ lớn thì không thể cho là ngẫu nhiên đ•ợc mà có sự sai khác thật sự giữa các đám đông (tổng thể). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  86. Vấn đề đặt ra là: ta phải lựa chọn một trong hai giả thiết để khả năng đúng cao hơn, khả năng sai thấp hơn. Ta có định nghĩa sau: Định nghĩa: Bất kỳ giả thiết nào nói về các tham số, dạng quy luật phân phối hoặc tính độc lập của các đại l•ợng ngẫu nhiên đều đ•ợc coi là giả thiết thống kê.Việc tìm ra kết luận về tính thừa nhận đ•ợc hay không thừa nhận đ•ợc của giả thiết đ•ợc gọi là kiểm định. Giả thiết cần kiểm định gọi là giả thiết không và ký hiệu là H0 (viết tắt của Hypothesis) Giả thiết đối lập với H0 gọi là đối thiết và ký hiệu là H1 (có sách viết H, H ). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  87. Nếu giả sử cần nghiên cứu tham số  nào đó của đại l•ợng ngẫu nhiên và có cơ sở nào đó để nêu giả thiết   0 . Khi đó cặp giả thiết và đối thiết sẽ là cặp: H 0 : 0 ; H1 :  0 hoặc H 0 : 0 ; H1 :  0 hoặc H 0 : 0 ; H1 :  0 Để giải quyết bài toán trên, thông tin duy nhất mà chúng ta có là một mẫu ngẫu nhiên. Kiểm định một giả thiết là căn cứ vào mẫu thu đ•ợc để quyết định nên bác bỏ hay chấp nhận giả thiết đó. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  88. 7.1. Quy tắc kiểm định giả thiết Muốn kiểm định một giả thiết liên quan đến quy luật của đại l•ợng ngẫu nhiên X. Ta lập mẫu ngẫu nhiên kích th•ớc n : Wx (x1 , x2 , ,xn ). Dựa trên mẫu đó, chọn lập thống kê G(X , f (x1 , x2 , ,xn ,) . Với giả thiết H0 đã nêu, thống kê G có một phân phối xác suất nhất định và có thể tính toán đ•ợc. Thống kê G gọi là tiêu chuẩn kiểm định Khi đó với xác suất cho tr•ớc ( gọi là mức ý nghĩa của kiểm định, với l•u ý rằng th•ờng rất nhỏ), ta sẽ tìm đ•ợc G1 và G2 sao cho: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  89. P(G1 G2) = /2 Với G đ•ợc tính theo mẫu trên có thể xảy ra: 1) Nếu G (G1, G2) ta chấp nhận H0 2) Nếu G (G1, G2), tức là hoặc (G > G2) hoặc (G < G1) ta bác bỏ H0 (Điều này có nghĩa là: với một sự kiện có xác suất (nhỏ) đã xảy ra trong một lần quan sát mẫu. Theo nguyên lý xác suất nhỏ ta bác bỏ H0) Chú ý: Với cùng mức ý nghĩa , đối với một tiêu chuẩn kiểm định G có thể có vô số miền bác bỏ Wx Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  90. 7.2. Các sai lầm mắc phải khi kiểm định Khi kiểm định giả thiết H0 với đối thiết H1 ta có thể phạm sai lầm: Sai lầm loại I: Giả thiết H0 đúng mà ta lại bác bỏ nó. Xác suất mắc phải sai lầm này đúng bằng . Sai lầm loại này do mẫu có cỡ quá nhỏ, hoặc do cách lấy mẫu Sai lầm loại II: Giả thiết H0 là sai mà ta lại chấp nhận nó. ý muốn của ta là phải chọn G sao cho cực tiểu cả hai khả năng phạm sai lầm. Tuy nhiên khi cỡ mẫu n cố định thì ý muốn trên không thể thực hiện đ•ợc. Trong thực hành, ta cố gắng tìm quy tắc kiểm định sao cho xác suất để phạm sai lầm loại II là nhỏ nhất. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  91. Tóm lại: Trong việc kiểm định H0 ta dẫn đến một trong hai quyết định sau: i) Bác bỏ H0 ii) Không có lý do để bác bỏ H0 và ta tạm giữ nó để nghiên cứu tiếp. Bác bỏ một giả thiết chỉ có nghĩa là chấp nhận một giả thiết khác chứ không có nghĩa là giả thiết bị bác bỏ là sai. Chấp nhận một giả thiết có nghĩa là không chấp nhận các giả thiết khác chứ không có nghĩa là giả thiết đ•ợc chấp nhận là đúng. Do vậy kiểm định một giả thiết chỉ là quy tắc hành động chứ không phải là chứng minh tính lôgic một mệnh đề. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  92. 7.3. Kiểm định giả thiết về kỳ vọng toán (giá trị trung bình) của đại l•ợng ngẫu nhiên có phân phối chuẩn. Giả sử đại l•ợng ngẫu nhiên X tuân theo quy luật phân phối chuẩn N(a, 2 ) . (Nếu X không chuẩn thì lấy mẫu có kích th•ớc n 30 ). Trong đó E(X) = a ch•a biết, nh•ng có cơ sở nào đó để đ•a ra giả thiết H0: E(X) = a = a0, cần phải kiểm định giả thiết này với các đối thiết: H1 : a a0 H1 : a a0 ; hoặc H1 : a a0 , cho tr•ớc. Ta xét các tr•ờng hợp sau đây: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  93. 7.3.1. Đã biết ph•ơng sai D(X )  2 . Ta có quy tắc thực hành sau đây: Để kiểm định H 0 : a a0 ; H1 : a a0 , ta tiến hành lấy mẫu Wx (x1 , x2 , ,xn ) 1 n 1 n X n x + Tính trung bình mẫu X  xi ;  i i n i 1 n i 1 X a + Tính số U n . Tra bảng chuẩn với mức ý nghĩa ,  (U ) 1 , ta tìm đ•ợc U . (Thông th•ờng: / 2 2 / 2 0,05 U / 2 1,96 ; 0,01 U / 2 2,58) ; + So sánh giữa U và : U U / 2 * Nếu U U / 2 Ta bác bỏ H0 U U / 2 * Nếu U U / 2 U / 2 U U / 2 Ta chấp nhận H0
  94. Ví dụ 1: Từ một đám đông nào đó có phân phối chuẩn với  5,2 Lấy một mẫu cỡ n =100, ta tính đ•ợc X 27,26 Hãy kiểm định giả thiết H0: a = 26; H1: a 26 ở mức ý nghĩa 0,05 Giải: n = 100, X 27,26 , 0,05 , tra bảng có U / 2 U 0,975 X a0 27,26 26 12,6  5,2; a 26. Ta tính U n 100 2,42 0 5,2 5,2 So sánh ta thấy U 2,42 U / 2 1,96. Vậy ta bác bỏ H0. Ta hiểu là: Kỳ vọng a của đám đông khác 26 một cách có ý nghĩa ở mức 0,05. Nhận xét: Vẫn với giả thiết của bài toán trên, nếu lấy mức ý nghĩa 0,01 (Tức là để giảm bớt sai lầm loại I). Khi đó tra bảng ta có U / 2 U 0,995 2,576 2,58. (Phụ lục 3).
  95. L•u ý: Ta có thể tra bảng phụ lục 2 (vẫn có cùng một kết quả nh• sau): 1 0,99 Từ 0,01 0,4950 (U / 2 ) U / 2 2,58. 2 2 Do vậy U 2,42 U / 2 2,58 Ta phải tạm giữ H0, nh•ng khi đó khả năng mắc sai lầm loại II tăng lên (H0 là sai mà ta lại công nhận). Muốn có kết luận tốt hơn ta phải tiếp tục làm thí nghiệm. Chú ý: Nếu ta xét H0: a = a0; H1: a > a0 hoặc: H0 ; a = a0 ; H1: a < a0. Khi đó miền tiêu chuẩn t•ơng ứng sẽ là: X a  G (x1, x2 , ,xn ) : n U  (1)   X a  hoặc: G (x1, x2 , ,xn ) : n U (2)   Trong đó:(U ) 1 ; ( U ) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  96. Ví dụ 2: Một v•ờn cây giống có chiều cao trung bình ch•a xác định. Theo thỏa thuận giữa ng•ời chủ v•ờn là Lâm tr•ờng trồng cây thì chỉ khi nào chiều cao của cây đạt trên 1 mét mới đem trồng để đảm bảo tỷ lệ sống cao. Ng•ời ta điều tra ngẫu nhiên 50 cây trong v•ờn và tính đ•ợc chiều cao trung bình X 1,1m . Với mức ý nghĩa 0,05, hỏi v•ờn cây giống đó đã đ•a ra trồng đ•ợc ch•a? Cho biết sự biến động về chiều cao của loại cây giống nói trên trong giai đoạn v•ờn •ơm ở trong những điều kiện t•ơng tự là  0,1. Giải: H0: a = 1,0; H1: a >1,0; 0,05 . theo chú ý (1) ở trên: X 1,0 1,1 1,0 Ta có: U U 1,645; U 50 7,1 7,1 0,95 0,1 0,1 Rõ ràng U 1,71 U 1,65 nên ta bác bỏ H0 và chấp nhận đối thiết H1 : a 1,0 Nghĩa là số cây giống đã có thể đem ra trồng đ•ợc rồi. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  97. 7.3.2. Tr•ờng hợp ch•a biết D(X). Chia làm hai tr•ờng hợp: Nếu cỡ mẫu n < 30 Từ mẫu ngẫu nhiên Wx (x1 , x2 , ,xn ), chọn thống kê: X a ) T 0 n làm tiêu chuẩn kiểm định S ' Nếu H1 đúng, tức là a = a0 thì thống kê T trở thành: X a ) (X a) T 0 n n . Ta đã biết rằng T có phân phối S ' S ' Student với (n 1) bậc tự do. Khi đó miền bác bỏ đ•ợc xây dựng phụ thuộc vào đối thiết H1 nh• sau: (n 1) 1) H : a a0 ; H1 : a a0 W T :T t  (n 1) 2) H1 : a a0 W T :T t  (n 1) 3) H : a a0 ; H1 : a a0 W T :T t / 2  (n 1) (n 1) Trong đó t , t / 2 có đ•ợc nhờ tra bảng (n 1) bậc tự do. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  98. Ta có quy tắc thực hành sau đây: + Lập mẫu cỡ Wx (x1 , x2 , ,xn ) n + Tính trung bình mẫu X  xi i 1 n 2 (xi x) + Tính ph•ơng sai mẫu: S '2 i 1 n 1 X a0 + Xét thống kê U n (Tra bảng Student tìm số t với S ' / 2 n 1 bậc tự do) + So sánh: Nếu T t / 2 , H0 bị bác bỏ ở mức . Nếu T t / 2 , tạm thời giữ H0 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  99. áp dụng: Để nghiên cứu ảnh h•ởng của tia xạ lên động vật, ng•ời ta cân 11 con chuột tr•ớc và sau khi tia xạ thấy đột sụt cân nh• sau (gam): 3,2; 1,2; 0,5; 1,8; 1,0; 3,4; 0,9; 1,0; 0,5; 1,6; 5,2. Với mức ý nghĩa 0,01; Hỏi độ sụt cân đó là do ngẫu nhiên hay do bị nhiễm xạ? Giải: Ta giả thiết sự sụt cân của chuột là đại l•ợng ngẫu nhiên có phân phối chuẩn. Ta kiểm định giả thiết: H0 - a = 0 (Không sụt cân do nhiễm xạ) Đối thiết: H1 : a 0 (Sụt cân do nhiễm xạ). 11 X  i 3,2 1,2 5,2 Ta có X i 1 1,845 1,85. n 11 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  100. Tính 11 (x x) 2  i (3,2 1,85) 2 (1,2 1,85) 2 (5,2 1,85) 2 21,934 S '2 i 1 2,1934 n 1 10 10 Suy ra: S ' S 2 2,1934 1,481 1,85 0 Tính: T 11 4,14 . Tra bảng phân phối Student với 1,481 10 mức ý nghĩa 0,01, ta có t / 2 3,169 . So sánh 10 T 4,14 t / 2 3,169 . Suy ra giả thiết H 0 : a 0 bị bác bỏ ở mức 0,01. Nói cách khác: chuột bị nhiễm xạ đã sụt cân. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  101. Nếu cỡ mẫu n 30 : Ta biết rằng, khi n đủ lớn (thông th•ờng với: n 30 ) khi đó phân phối Student xấp xỉ phân phối chuẩn. Do vậy đối với tr•ờng hợp này (ch•a biết ph•ơng sai, ) ta chọn: (x a ) U 0 n làm tiêu chuẩn kiểm định. S ' Khi đó miền bác bỏ đ•ợc xây dựng phụ thuộc vào đối thiết H1 nh• sau: 1) H : a a0 ; H1 : a a0 W U :U U  2) H : a a0 ; H1 : a a0 W U :U U  3) H1 : a a0 W U : U U / 2  Trong đó: U ,U / 2 có đ•ợc nhờ tra bảng Laplatce. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  102. Ví dụ: Trọng l•ợng trung bình của một loại sản phẩm là 6 kg. Qua thực tế sản xuất, tiến hành kiểm tra ngẫu nhiên ta thu đ•ợc số liệu sau: Trọng 1 2 3 4 5 6 7 8 9 10 11 l•ợng (g) Số sản 4 6 7 17 17 23 15 12 9 8 3 phẩm (ni) Hãy kết luận về tình hình sản xuất với mức ý nghĩa 5%. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  103. Giải: n = 121 > 30. H 0 : a 6 ; H1 : a 6 (x a ) Chọn thống kê: U 0 n làm tiêu chuẩn kiểm S ' định. Khi đó miền bác bỏ đ•ợc xây dựng phụ thuộc vào đối thiết H1 nh• sau: H : a a0 ; H1 : a a0 W U : U U / 2  Tra bảng Laplatce U / 2 U 0,975 1,96 . Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  104. 2 xi ni nixi ni xi 1 4 4 4 2 6 12 24 3 7 21 63 4 17 68 272 5 17 85 425 6 23 138 828 7 15 105 735 8 12 96 768 9 9 81 729 10 8 80 800 11 3 33 363  n = 121  723 5011 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  105. Căn cứ vào số liệu đã cho ta lập bảng tính toán trên 1 723 Khi đó X ni xi 5,975; n 121 2 5011 S 2 X (X ) 2 (5,975) 2 5,712 121 121 S '2 .5,712 5,7596 S ' 5,7596 2,4 120 (5,975 6) Do đó: U 121 0,1146 U Vậy ta chấp nhận H . 2,4 / 2 0 Điều đó có nghĩa là tình hình sản xuất vẫn bình th•ờng. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  106. 7.4. Kiểm định giả thiết về xác suất hoặc tỷ lệ Giả sử (x1 , x2 , ,xn ) là mẫu ngẫu nhiên tuân theo quy luật phân phối "Không- một" Ta đã biết, E(X) p và D(X ) p.q . Với p ch•a biết, nh•ng có cơ sở để nêu giả thiết: H 0 : p p0 với đối thiết H1 : p p0 ; hoặc (H1 : p p0 ; H1 : p p0 ) . Với cách lý luận nh• trên, ta nhận đ•ợc các miền tiêu chuẩn t•ơng ứng với mức ý nghĩa nh• sau:  f p0 p p0 ; p p0 G n U / 2  hoặc: p0 (1 p0 )   f p0 p p0 G n U  hoặc: p0 (1 p0 )   f p0 m p p0 G n U / 2  . Trong đó f X là n p0 (1 p0 )  f p tần suất mẫu. Sau đó xem xét: U 0 n để kết luận. p0 (1 p0 ) Nếu U G thì bác bỏ H0. Nếu U G thì ch•a có cơ sở để bác bỏ H0. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  107. Ví dụ: Một kho hạt giống có tỷ lệ nảy mầm xác định là 0,90. Ngẫu nhiên có một thiết bị bảo quản bị hỏng làm thay đổi điều kiện bên trong kho. Với độ tin cậy 0,05 , hỏi tỷ lệ nảy mầm của kho hạt giống đó có còn giữ nguyên nh• tr•ớc hay không? Giải: Để có thông tin mới về tỷ lệ nảy mầm của kho hạt giống, giả sử ng•ời ta đã làm thí nghiệm với 200 hạt thấy có 140 hạt nảy mầm. Khi đó bài toán kiểm định sẽ là: H 0 : p p0 0,9; H1 : p p0 . Tra bảng Lalatce ta có: ( U 0,05 1,64). 140  0,9 f p0 200 p p0 ; p p0 G n U  U 200 9,5 . p0 (1 p0 )  0,9.0,1 Ta thấy: -9,5 < - 1,64 vậy bác bỏ H0, chấp nhận H1, (Tỷ lệ nảy mầm trong kho đã giảm). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  108. Ch•ơng VIII Lý thuyết t•ơng quan và hồi quy Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  109. Khi nghiên cứu sự phụ thuộc giữa hai đại l•ợng ngẫu nhiên, trong đó mỗi đại l•ợng ngẫu nhiên chịu một sự phân tán ngẫu nhiên nào đó (Sự tản mát không kiểm tra đ•ợc), ta dùng ph•ơng pháp phân tích t•ơng quan. Với ph•ơng pháp này, ta không những phát hiện đ•ợc mối quan hệ phụ thuộc giữa chúng mà còn "l•ợng hóa" đ•ợc mối quan hệ này. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  110. 8.1. Hệ số t•ơng quan mẫu Trong phần cơ sở xác suất, ta đã biết hệ số t•ơng quan giữa hai biến ngẫu nhiên X và Y. E(X.Y) E(X ).E(Y) p E(X 2 ) (EX)2 E(Y 2 ) (EY)2 Đó là số đo mức độ phụ thuộc tuyến tính giữa hai biến ngẫu nhiên X và Y. Tuy nhiên khi ch•a biết phân phối của (X, Y) thì hệ số t•ợng quan lý thuyết p cũng ch•a tìm đ•ợc. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  111. Giả sử ta có mẫu ngẫu nhiên cỡ n về vectơ ngẫu nhiên này. Khi đó hệ số t•ơng quan mẫu ký hiệu r đ•ợc tính bởi công thức: 1 k mi xi y j x.y n i 1 x.y x.y r (I) k 2 k 2 S .S 1 2 1 2 ( x) ( y) mi xi x m j y j y n 1 n j 1 1 k 1 k Trong đó: x ni xi ; y mi yi n i 1 n i 1 k k k k 2 1 2 2 2 1 2 2 1 S x mi xi (x) ; S y  m j y j (y) ; x.y mij xi .y j n i 1 n j 1 n i 1 j 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  112. Chú ý: Khi tính hệ số t•ơng quan giữa X và Y nếu dùng phép xi x0 yi y0 đổi biến để thu gọn số liệu: ui ; vi h k (Trong đó x0 xi có tần số ni lớn nhất; y0 y j có tần số m j lớn nhất) Khi đó hệ số t•ơng quan mẫu không thay đổi và đ•ợc tính bởi công thức: n n m u m v k  i i  j j 1 j 1 m u v i 1  i i j n i 1 n n u.v u.v ru.v rxy (II) n 2 n 2 S .S u v m u m v 1 k  i i 1 n  j j m u 2 i 1 m v 2 i 1 n  i i n n  j j n i 1 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  113. 8.2. Tính chất của hệ số t•ơng quan mẫu i) r 1 ii) Nếu X và Y là độc lập thì r = 0. iii) Nếu r = 0 thì giữa X và Y không có sự phụ thuộc t•ơng quan tuyến tính. (Chú ý rằng, khi đó có thể chúng có liên hệ phi tuyến hoặc hàm số). iv) Nếu r = 1 thì giữa X và Y có mối liên hệ hàm tuyến tính. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  114. 8.3 ý nghĩa của hệ số t•ơng quan Hệ số t•ơng quan của hai biến X và Y cho ta một chỉ số đánh giá mối quan hệ tuyến tính giữa X và Y. Nó là một hệ số có giá trị tuyệt đối nằm giữa 0 và 1. Nếu hệ số t•ơng quan khá gần 0 thì có thể coi giữa X và Y không có t•ơng quan tuyến tính. Nếu hệ số t•ơng quan khá gần 1 thì quan hệ giữa X và Y xấp xỉ bởi hệ thức Y = aX + b. Trong thống kê, ng•ời ta quy •ớc rằng: Khi r 0,3 thì X và Y có sự phụ thuộc t•ơng quan tuyến tính. Khi r > 0,7 (r < - 0,7) thì giữa X và Y có sự phụ thuộc t•ơng quan tuyến tính thuận (nghịch) mạnh. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  115. 8.4. Cách tính hệ số t•ơng quan. Ví dụ 1) Tr•ờng hợp số liệu cho d•ới dạng sau: X 1 2 3 4 5 6 7 8 9 10 Y 2 6 7 4 8 5 13 10 14 9 Khi đó ta lập bảng tính toán rồi áp dụng công thức: 1 k m x y x.y n  i i j x.y x.y r i 1 . Khi đó ta có: k k S( x) .S( y) 1 2 2 1 2 2  mi xi x  m j y j y n 1 n j 1 508 55 78 . 10 10 10 790 r 0,76 2 2 385 55 740 78 825. 1316 10 10 10 10 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  116. 2 2 xi yi xi y i xi.yi 1 2 1 4 2 2 6 4 36 12 3 7 9 49 21 4 4 16 16 16 5 8 25 64 40 6 5 36 25 30 7 13 49 169 91 8 10 64 100 80 9 14 81 196 126 10 9 100 81 90  55 78 385 740 508 Kết luận: Vì r = 0,76 > 0,7, do đó giữa X và Y cho bởi mẫu trên có sự phụ thuộc t•ơng quan tuyến tính thuận mạnh. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  117. Ví dụ 2: Tr•ờng hợp số liệu điều tra cho d•ới dạng: Xi 23,0 24,0 24,5 24,5 25,5 25,5 26,0 26,0 26,0 26,5 2,5 27,0 27,0 28,0 Yi 0,48 0,50 0,49 0,50 0,51 0,52 0,49 0,51 0,53 0,53 0,52 0,54 0,51 0,53 ni 2 4 3 2 1 1 2 1 2 1 1 2 1 3 Khi đó ta phải dùng ph•ơng pháp thu gọn số liệu bằng cách đổi biến đã biết: Chọn x0 = 26,0; y0 = 0,50; hx = 0,50; ky = 0,01 x 26,0 y 0,50 Với ph•ơng pháp đổi biến: u i ; v i . i 0,50 i 0,01 Các số liệu biến đổi và tính toán đ•ợc ghi tiếp vào bảng sau đây: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  118. n u 2 n v 2 xi yi ni ui niu i i vi nivi i i niuivi 23,0 0,48 2 -6 -12 72 -2 -4 8 24 24,0 0,50 4 -4 -16 64 0 0 0 0 24,5 0,49 3 -3 -9 27 -1 -1 1 9 24,5 0,50 2 -3 -6 18 0 0 0 0 25,5 0,51 1 -2 -2 4 1 1 1 -2 25,5 0,52 1 -1 -1 1 2 2 4 -2 26,0 0,49 2 0 0 0 -1 -2 2 0 26,0 0,51 1 0 0 0 1 1 1 0 26,0 0,53 2 0 0 0 3 6 18 0 26,5 0,50 1 1 1 1 0 0 0 0 26,5 0,52 1 1 1 1 2 2 4 2 27,0 0,54 2 2 4 8 4 8 32 16 27,0 0,51 1 2 2 4 2 2 4 4 28,0 0,53 3 4 12 48 3 9 27 36  26 -26 248 22 104 87
  119. áp dụng công thức: n n m u m j v j 1 k  i i  i 1 j 1 miui v j n i 1 n n u.v u.v ru.v rxy n 2 n 2 S .S u v k miui n m j v j 1 2 i 1 1 2 i 1 miui m j v j n i 1 n n n 87 26 22 . r 26 26 26 0,792 2 2 1 26 1 22 248 . 104 26 26 26 26 Kết luận: Với mẫu đã cho, giữa X và Y có sự phụ thuộc t•ơng quan tuyến tính thuận mạnh.
  120. Ví dụ 3: Nếu số liệu điều tra d•ới dạng bảng hai lối vào sau đây thì ta có thể thực hiện các phép tính ngay trên bảng: xi m y 2 mjyj j j  1 2 3 4 mj yj 7 1 28 1 7 49 28 6 1 18 1 6 36 18 5 1 10 2 30 3 15 75 40 4 2 16 2 8 32 16 3 3 9 3 9 27 9 n = m 3 3 3 1 45 219 i 10 mixi 3 6 9 4 22 2 mi xi 3 12 27 16 58 9 26 48 28 111 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  121. Các số ghi ở góc bên phải của mỗi ô là tích của xiyj với số lần lặp. Tổng các số đó trong mỗi cột hoặc mỗi hàng đ•ợc ghi ở hàng và cột cuối cùng. Theo bảng trên, ta có: mi xi 22 ; m x2 58 m y 45 ; m y2 219 ; m x y 111  i i ;  i i  j j  ij i j 1 k m x y x.y  i i j x.y x.y Vậy: r n i 1 k 2 2 1 2 1 2 S( x) .S( y) mi xi x m j y j y n 1 n 111 22 45 . 12 10 10 10 0,95 2 2 22 45 12,58 58 10. 219 10 10 Vậy hệ số t•ơng quan của mẫu trên là r = 0,95. (t•ơng quan tuyến tính thuận mạnh).
  122. 8.5. Đ•ờng hồi quy tuyến tính thực nghiệm Giả sử có bảng phân phối hai chiều của cặp biến ngẫu nhiên (X, Y). Biểu diễn các điểm (xi, yj) trên mặt phẳng tọa độ đ•ợc một tập hợp các điểm gọi là tr•ờng t•ơng quan. Ta có biểu diễn mô phỏng sau đây: Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  123. 8.6. Hàm hồi quy Cho cặp đại l•ợng ngẫu nhiên (X, Y). Xét kỳ vọng có điều kiện E(Y/X=x). Nó cho ta trung bình của Y khi X lấy giá trị x. Do đó, kỳ vọng có điều kiện này phụ thuộc vào giá trị của X, nó có thể coi là một hàm của x và đó đ•ợc gọi là hàm hồi quy của Y đối với X. T•ơng tự hàm hồi quy của X đối với Y E(X/Y=y). Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  124. Nếu đồ thị của hàm hồi quy là đ•ờng thẳng thì ta nói đó là hàm hồi quy tuyến tính. Để vẽ đ•ờng hồi quy tuyến tính thực nghiệm của Y đối với X ta nối các điểm x , y . Trong đó y là trung bình các giá trị của y trong i xi xi mẫu ứng với giá trị X = xi. Đ•ờng hồi quy thực nghiệm của X đối với Y vẽ bằng cách nối các điểm y j ; x y j . Trong đó x y j là trung bình các giá trị của X ứng với Y = yj. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  125. 8. 7. Ph•ơng trình đ•ờng hồi quy tuyến tính Khi các điểm của đ•ờng hồi quy thực nghiệm xấp xỉ thẳng hàng thì có thể coi là hồi quy tuyến tính và có biểu diễn bởi phuơng trình Y = aX + b. Tìm a và b ph•ơng pháp “bình phương bé nhất”, tức là giải hệ: 2 a xi b xi  xi .yi (*) a xi n.b  yi Trong đó xi là các giá trị của X (i 1,n) yi là các giá trị trung bình của Y khi X lấy giá trị xi Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  126. Ví dụ: Sự t•ơng quan giữa trọng l•ợng X (tính theo kg) và chiều dài lồng ngực Y (cm) của 300 con bò cho bởi bảng sau: 225 275 325 375 425 475 525 575 mj X / y j 195 1 1 575 185 1 9 15 2 27 508 175 4 25 35 21 9 1 95 430 165 3 40 44 24 8 119 273 155 1 17 17 17 1 53 325 145 2 1 1 4 263 135 1 1 225 mi 4 21 62 86 61 38 24 4 300 y / x 145 156 160 166 170 175 182 185 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  127. Ta lập bảng tính toán sau đây: 2 xi yi xi xiyi 225 145 50625 32625 275 156 75625 42900 325 160 105625 52000 375 166 140625 62250 425 170 180625 72250 475 175 225625 83125 525 182 275625 95550 575 185 330625 106375 3200 1339 1385000 547075 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  128. Từ đó ta có hệ ph•ơng trình: 1.385.000.a + 3200b = 547.075 3200.a + 8b = 1339 Giải ra tìm đ•ợc a = 0,11; b = 123 Vậy ph•ơng trình hồi quy tuyến tính của lồng ngực trung bình Y với trọng l•ợng X của đàn bò là: Y 0,11X 123 . Hệ số a trong (*) gọi là hệ số hồi quy của Y theo X. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  129. 8.8. Tìm ph•ơng trình hồi quy tuyến tính dựa vào hệ số t•ơng quan mẫu 8.8.1. Tìm ph•ơng trình hồi quy tuyến tính của Y theo X S ( y) Ta sử dụng công thức: y y r. .(x x) S ( x) 8.8.2. Tìm ph•ơng trình hồi quy tuyến tính của X theo Y S(x) Ta sử dụng công thức: x x r. .(y y) S( y) Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  130. Ví dụ: Theo dõi sự phụ thuộc giữa mức suy giảm hàm l•ợng đ•ờng trong mía X(%) và thời gian chờ chế biến (t) ta thu đ•ợc kết quả sau đây: X 30 30 35 35 40 40 40 45 45 45 50 50 t 2 4 4 6 4 6 8 6 8 10 8 10 m 1 1 3 1 1 2 2 2 3 1 1 2 Hãy tìm hệ số t•ơng quan mẫu giữa X và t. Viết ph•ơng trình hồi quy của X theo t và ph•ơng trình tuyến tính của t theo X? Cho nhận xét? Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  131. Giải: Căn cứ vào số liệu đã cho, dùng phép đổi biến để thu gọn số liệu: Chọn x0 = 40; t0 = 6; hk = 5; kt = 2. xi x0 xi 40 ti t0 ti 6 ui ; vi hx 5 kt 2 áp dụng công thức: n n m u m j v j 1 k  i i  i 1 j 1 miui v j n i 1 n n u.v u.v ru.v rxy n 2 n 2 S .S u v k miui n m j v j 1 2 i 1 1 2 i 1 miui m j v j n i 1 n n n Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  132. Các b•ớc tính toán đ•ợc thể hiện trong bảng d•ới đây: m u 2 2 xi ti mi ui vi miui i i mivi mi vi miuivi 30 2 1 -2 -2 -2 4 -2 4 4 30 4 1 -2 -1 -2 4 -1 1 2 35 4 3 -1 -1 -3 3 -3 3 3 35 6 1 -1 0 -1 1 0 0 0 40 4 1 0 -1 0 0 -1 1 0 40 6 2 0 0 0 0 0 0 0 40 8 2 0 1 0 0 2 2 0 45 6 2 1 0 2 2 0 0 0 45 8 3 1 1 3 3 3 3 3 45 10 1 1 2 1 1 2 4 2 50 8 1 2 1 2 4 1 1 2 50 10 2 2 2 4 8 4 8 8  20 4 30 5 27 24 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  133. 24 4 5 . 23 Khi đó: r 20 20 20 0,8398 2 2 1 4 1 5 27,42 .30 .27 20 20 20 20 Nhận xét: Với bài toán trên ta có thể giải bằng ph•ơng pháp xây dựng bảng hai lối vào nh• sau: (Tính tiện lợi dành cho độc giả nhận xét) t 30 35 40 45 50 x 2 1 4 1 3 1 6 1 2 2 8 2 3 1 10 1 2
  134. Dùng ph•ơng pháp đổi biến ta có: 2 m u v u v -3 -2 -1 0 1 mi mivj mjvj  ij i j 1 -3 1 -3 9 9 9 3 1 1 -2 5 -10 20 18 6 12 2 2 2 1 -1 5 -5 5 4 2 2 0 2 3 1 6 0 0 0 0 0 0 0 1 2 1 3 3 3 2 0 2 mj 2 4 5 6 3 mj uj -6 -8 -5 0 3 2 mjuj 36 16 5 0 3  mij ui v j 15 14 4 0 2 33 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  135. Chú ý: Để viết ph•ơng trình hồi quy tuyến tính của Y theo X (hoặc X theo Y) khi đã tính đ•ợc hệ số t•ơng quan mẫu, ta sử dụng công thức: S( y) Ph•ơng trình hồi quy của y theo x: y y r. .(x x) ; S(x) (Hoặc ph•ơng trình hồi quy của x theo y: S(x) (x x r. .(y y) ) S( y) Nếu đã dùng phép đổi biến thì phải quay lại biến ban đầu bằng cặp công thức: x x0 hx .u S(x) hx .S(u) S k .S y y0 k y .v ( y) y (v)
  136. 4 1 1 Với ví dụ trên ta có: x x 40 5. 41 20 5 5 5 1 1 v t 6 2. 6,5 20 4 4 2 2 2 S(u) miui n.(u) 30 20.(0,2) 29,2 5,4 S(x) 5.5,4 27 2 2 2 S(v) mi vi n.(v) 27 20.(0,25) 25,27 5,07 S(t) 2.5,07 10,14 Vậy ph•ơng trình hồi quy của x theo t là: S 27 x x r. (x) .(t t) x 41 0,8398. (t 6,5) S( y) 10,14 x 41 0,8398.2,66(t 6,5) 2,234t 26,48 Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn
  137. Vậy ph•ơng trình hồi quy của t theo x là: S( t ) t t r. .(x x) S (x ) (Coi nh• bài tập áp dụng). Nhận xét: vì r = 0,8398 > 0,7 do đó X và t có sự phụ thuộc tuyến tính mạnh. Nghĩa là nếu để càng lâu sau khi thu hoạch mới chế biến thì hàm l•ợng đ•ờng càng giảm. Bài giảng XSTK – Biờn soạn: Nguyễn Độc Lập – Đại học Y Dược Thỏi Nguyờn