Bài giảng phần Thống kê

pdf 103 trang phuongnguyen 4920
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng phần Thống kê", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_phan_thong_ke.pdf

Nội dung text: Bài giảng phần Thống kê

  1. Chương THỐNG KÊ § Thống kê là gì? Tại sao phải thống kê? Vai trò quan trọng của các đặc trưng của một BNN (?) Thí dụ. Một hộp chứa 3 bi trắng và 1 bi đen. Trò chơi đặt ra: Người tham gia chơi sẽ bốc ngẫu nhiên một viên bi. Sẽ nhận được 2 đô la nếu bốc được bi trắng, sẽ phải trả 3 đô la nếu bốc phải bi đen. Biết rằng xác suất bốc được của mỗi viên bi là như nhau. Có nên tham gia trò chơi?
  2. Thí dụ. Một công ty chăn nuôi lợn lấy thịt, mỗi lứa nuôi khoảng 500 ngàn con. a) Dựa vào tiêu chí nào để đưa ra quyết định thu hoạch? b) Nếu biết trọng lượng của các con lợn đang tuân theo 2 quy luật chuẩn N (43, 4,7 ) thì đã thu hoạch được chưa?
  3. Thí dụ. Một sư đoàn có kế hoạch may quân phục cho khoảng 1 triệu tân binh. a) Dựa vào tiêu chí nào để đưa ra các kích cỡ quân phục phù hợp? b) Nếu biết các chỉ số về kích thước của các tân binh 2 tuân theo quy luật chuẩn N (1, 7; 0, 31 ) và dự kiến đưa ra 3 kích cỡ quân phục thì nên đưa ra các kích cỡ như thế nào cho phù hợp? Thí dụ. Có hai giống lúa. Nên dựa vào tham số nào để so sánh năng suất của hai giống lúa? Làm thế nào để tính các tham số đó?
  4. Kết luận: Trong nhiều tình huống, để đưa ra quyết định, đánh giá hay giải quyết một vấn đề nào đó Æ ta dựa vào các tham số μσ, ,p Lưu ý rằng khi xét BNN nào đó, thì mỗi tham số là duy nhất. Æ thống kê để có các thông tin về các tham số.
  5. § Cơ sở lý thuyết mẫu Các khái niệm cơ bản a) Mẫu ngẫu nhiên Thí dụ. Gọi X là số chấm thu được khi tung một con xúc xắc, X là biến ngẫu nhiên tuân theo quy luật X 1 2 3 4 5 6 P 1/6 1/6 1/6 1/6 1/6 1/6 Nếu tung con xúc xắc 3 lần và gọi Xi= 1, 3 là số chấm xuất i ( ) hiện ở lần thứ i thì ta có 3 biến ngẫu nhiên độc lập tạo nên mẫu ngẫu nhiên kích thước n = 3. W = (X1, X2, X3) Xi tuân theo quy luật nào? EXi = ? và DXi = ? Mẫu ngẫu nhiên kích thước n là tập hợp n biến ngẫu nhiên độc lập X1, X2, , Xn được thành lập từ biến ngẫu nhiên X.
  6. Giả sử X1 nhận giá trị x1; X2 nhận giá trị x2; , Xn nhận giá trị xn. Tập hợp n giá trị x1, x2, , xn tạo thành một mẫu cụ thể, ký hiệu w = (x1, x2, , xn)
  7. § Các phương pháp mô tả số liệu mẫu a) Bảng phân bố thực nghiệm Bảng phân bố thực nghiệm của dấu hiệu điều tra X: X x1 x2 xk Tổng Tần số n1 n2 nk ∑ni = n Tần suất f1 f2 fk ∑fi = 1 n trong đó f = i i n Nhận xét. (i) Nếu tách riêng từng đại lượng thì ta được bảng phân bố tần số thực nghiệm và bảng phân bố tần suất thực nghiệm. k k (ii) nn= f = 1 ∑ i và ∑ i i=1 i=1
  8. Thí dụ. Điều tra điểm thi tốt nghiệp môn toán của một thành phố, người ta điều tra ngẫu nhiên 400 em học sinh (n = 400). X (điểm bài thi) Tần số Tần suất 0 6 6/400 = 0,015 1 15 0,0375 2 43 0,1075 3 53 0,1325 4 85 0,2125 5 72 0,18 6 55 0,1375 7 33 0,0825 8 18 0,045 9 10 0,025 10 10 0,025 Tổng 400 1
  9. b) Bảng phân bố ghép lớp trong một số trường hợp giá trị điều tra khá gần nhau, cỡ mẫu n lớn Æ chia khoảng, sao cho mỗi giá trị điều tra thuộc và chỉ một khoảng.
  10. Thí dụ. Chiều cao (dm) của 400 cây được trình bày thành bảng phân bố ghép lớp Khoảng Tần số Tần suất Độ rộng khoảng 4,5 – 9,5 18 0,045 5 9,5 – 11,5 58 0,145 2 11,5 – 13,5 62 0,155 2 13,5 – 16,5 72 0,18 3 16,5 – 19,5 57 0,1425 3 19,5 – 22,5 42 0,105 3 22,5 – 26,5 36 0,09 4 26,5 – 36,5 10 0,025 10 Tổng 400 1
  11. c) Tần số tích lũy và tần suất tích lũy n Fx*()== f i ∑∑i n xxii<< xx gọi là hàm phân bố thực nghiệm của mẫu (hàm tần số tích lũy) Nhận xét. * (i) Fx( ) xác định tần suất của biến cố {}Xx< (?) * (ii) Khi cỡ mẫu đủ lớn thì Fx( ) và Fx( ) sai khác nhau không đáng kể. (?)
  12. § Biểu diễn bằng biểu đồ, tổ chức đồ Giả sử ta có bảng phân bố thực nghiệm X 31 34 35 36 38 40 42 44 Tần số 10 20 30 15 10 10 5 20 Tần suất 1/12 2/12 3/12 1/8 1/12 1/12 1/24 1/6
  13. 30 25 20 15 tần số 10 5 0 31 34 35 36 38 40 42 44
  14. 35 30 25 20 tần số 15 10 5 0 31 34 35 36 38 40 42 44
  15. Đối với bảng ghép lớp, ta dùng tổ chức đồ (histogram) để biểu diễn và lưu ý rằng hai trường hợp sau đây cách lấy chiều cao các cột là khác nhau. (i) Độ rộng các khoảng bằng nhau (ii) Độ rộng các khoảng không bằng nhau.
  16. Thí dụ. Doanh thu 51 cửa hàng của một công ty năm 1996 (đơn vị là triệu đồng vn) 120 195 121 129 114 95 88 109 147 118 148 128 71 93 67 62 57 103 135 97 166 83 114 66 156 88 64 49 101 79 120 75 113 155 48 104 112 79 87 88 141 55 123 152 60 83 144 84 95 90 27 a) lập bảng ghép lớp, sử dụng 8 khoảng với độ rộng 22 b) vẽ tổ chức đồ tần suất
  17. Khoảng Tần số Tần suất 26,5-48,5 2 0,04 48,5-70,5 8 0,16 70,5-92,5 12 0,24 92,5-114,5 12 0,26 114,5-136,5 8 0,16 136,5-158,5 7 0,14 158,5-180,5 1 0,02 180,5-202,5 1 0,02 Tổng 51 1
  18. 0.3 0.25 0.2 0.15 0.1 0.05 0 26.5-48.5 48.5-70.5 70.5-92.5 92.5-114.5 114.5-136.5 136.5-158.5 158.5-180.5 tầ n su 180.5-202.5 ấ t
  19. Trong trường hợp độ rộng các khoảng không bằng nhau, ta dựng các hình chữ nhật đó có diện tích đúng bằng tần số tương ứng (bằng tần suất nếu là biểu đồ tần suất) nghĩa là trên các khoảng thứ i có độ rộng li ta dựng hình chữ nhật có chiều cao rfii yyii==( nếu là biểu đồ tần suất) llii
  20. Thí dụ. Chiều cao (dm) của 400 cây được trình bày thành bảng phân bố ghép lớp Khoảng Tần số Tần suất Độ rộng khoảng 4,5 – 9,5 18 0,045 5 9,5 – 11,5 58 0,145 2 11,5 – 13,5 62 0,155 2 13,5 – 16,5 72 0,18 3 16,5 – 19,5 57 0,1425 3 19,5 – 22,5 42 0,105 3 22,5 – 26,5 36 0,09 4 26,5 – 36,5 10 0,025 10 Tổng 400 1
  21. r = i Khoảng ri li yi li 4,5 – 9,5 18 5 3,6 9,5 – 11,5 58 2 29 11,5 – 13,5 62 2 31 13,5 – 16,5 72 3 24 16,5 – 19,5 57 3 19 19,5 – 22,5 42 3 14 22,5 – 26,5 36 4 9 26,5 – 36,5 10 10 5,5 Tổng 400 1
  22. § Thống kê Khi nghiên cứu một dấu hiệu nào đó mà ta gọi là BNN X, một việc làm rất tự nhiên là rút ra một mẫu ngẫu nhiên (XX12, , , Xn ) để quan sát. Các BNN Xi mặc dù là cùng quy luật với X nhưng vì quy luật của X chưa biết nên các BNN Xi cũng vậy. Tuy nhiên, nếu tổng hợp các biến ngẫu nhiên này thì sẽ bộc lộ những thông tin về BNN X . Việc tổng hợp mẫu WXXX= ( 12, , , n ) được thực hiện dưới dạng một hàm nào đó của các giá trị X1, X2 , , Xn , nó được gọi là thống kê, và kí hiệu là G. Bản chất của G cũng là một BNN, tuân theo một quy luật nào đó và cũng có các tham số đặc trưng như EG(),() DG . Khi mẫu ngẫu nhiên nhận một giá trị cụ thể wxxx= ( 12, , , n ) thì thống kê G cũng nhận một giá trị cụ thể.
  23. § Một số thống kê đặc trưng của mẫu ngẫu nhiên Các thống kê đặc trưng của mẫu ngẫu nhiên chia thành ba loại. (*) Đặc trưng cho biết xu hướng trung tâm của mẫu: cho biết các số liệu của mẫu tập trung xung quanh những con số nào. Đó là các đặc trưng như trung bình mẫu, trung vị, và mode. ( ) đặc trưng cho biết mức độ phân tán của các số liệu, mức độ biến động: biên độ, độ lệch trung bình, độ lệch tiêu chuẩn và phương sai. ( ) các thống kê đặc trưng dạng phân phối.
  24. a) Trung bình mẫu. Giả sử từ BNN gốc X trong tổng thể lập mẫu ngẫu nhiên kích thước n: WXXX= ( 12, , , n ) Trung bình mẫu là một thống kê, kí hiệu là X 1 n XX= ∑ i n i=1
  25. Nhận xét. (i) Khi mẫu ngẫu nhiên nhận một giá trị cụ thể wxxx= ( 12, , , n ) thì trung bình mẫu cũng nhận giá trị cụ thể 1 n xx= bằng ∑ i n i=1 (ii) Nếu BNN gốc có kỳ vọng toán EX( ) = μ và phương sai 2 DX( ) = σ thì σ2 EX( ) = μ và DX( ) = (?) n (iii) Các giá trị có thể của X ổn định quanh kỳ vọng toán μ hơn các giá trị có thể của X. (?) (iv) Độ lệch chuẩn của X thường dùng để phản ánh sai số ước lượng nên thường gọi là sai số chuẩn (Standard error) Se của trung bình mẫu .
  26. σ2 Se( X ) = n (v) Nếu trong mẫu có m giá trị x1 < x2 < < xm và giá trị xi có tần số ri thì n rx ∑ ii x = i=1 n r ∑ i i=1
  27. Thí dụ. Tính chiều cao trung bình của 400 cây Khoảng Tần số Tần suấtTrung điểm 4,5 – 9,5 18 0,045 7 9,5 – 11,5 58 0,145 10,5 11,5 – 13,5 62 0,155 12,5 13,5 – 16,5 72 0,18 15 16,5 – 19,5 57 0,1425 18 19,5 – 22,5 42 0,105 21 22,5 – 26,5 36 0,09 24,5 26,5 – 36,5 10 0,025 31,5 Tổng 400 1
  28. b) trung vị (Xd ) trung vị được kí hiệu là Xd (một số tài liệu kí hiệu là m-median) (i) Các giá trị của mẫu là phân biệt và được sắp xếp x1 < x2 < < xn thì trung vị được tính như sau (tùy vào tính chẵn lẻ của cỡ mẫu) nếu n lẻ: Xd = xn+1; và 2 1 ⎛⎞ ⎜ ⎟ nếu n chẵn: Xxxdnn=+⎜ ⎟ 2 ⎜ +1⎟ ⎝⎠22 (ii) trong trường hợp xi có tần số ri, gọi k là chỉ số bé nhất để n rr+++≥ r . Khi đó Xd = xk 12 k 2 (iii) Nếu các số liệu mẫu được ghép lớp theo phân phối tần số thì giá trị trung vị có thể tính gần đúng bằng công thức:
  29. ⎛⎞ n ⎟ ⎜ −S⎟ ⎝⎠⎜2 ⎟ XL≈+ h (?) d n Xd trong đó L là giới hạn dưới của lớp chứa trung vị n là kích thước mẫu S là tổng tần số các lớp đứng trước lớp chứa trung vị n là tần số của lớp chứa trung vị Xd h là độ dài của lớp chứa trung vị
  30. Thí dụ. Cho bảng phân bố tần số của X X 0 1 2 3 4 5 6 7 8 9 10 11 r 6 15 43 53 85 72 55 33 18 10 7 3 i (kích thước mẫu n = 400). Hãy tính trung bình mẫu và trung vị Ta thấy giá trị của mẫu bé hơn hay bằng 3 là 6 + 15 + 43 +53 = 117 200. do đó m = 4
  31. Thí dụ. Tìm khoảng trung vị và số trung vị của mẫu được cho bởi phân phối thực nghiệm trong bảng sau Đoạn giá trị chiều dài h = 5 Tần số ni Tần số tích lũy wi 5 – 10 4 4 10 – 15 6 10 15 – 20 16 26 20 – 25 36 62 25 – 30 24 86 30 – 35 10 96 35 – 40 4 100 Tổng số n = 100
  32. Nhận xét. Trung vị, cũng như trung bình mẫu, phản ánh xu hướng trung tâm của phân phối mẫu song nó có đặc điểm không san bằng các chênh lệch giữa các giá trị của mẫu do đó thường được dùng để bổ sung hoặc thay thế trung bình mẫu khi không có đủ số liệu để tính.
  33. c) Mode (X0 ) Nếu bảng cho dưới dạng bảng tần số thì mode là giá trị có tần số cực đại. Đối với trường hợp cho bởi bảng tần số ghép lớp, khoảng mode là khoảng có chiều cao của hình chữ nhật lớn nhất; (?) và mode được tính gần đúng theo công thức ⎛⎞ d ⎟ XL≈+⎜ 1 ⎟ h 0 ⎜ ⎟ ⎝⎠dd12+ trong đó, L là giới hạn dưới của lớp chứa mốt d1 là hiệu số giữa tần số của lớp chứa mode và tần số của lớp đứng trước; d2 là hiệu số giữa tần số của lớp chứa mode và tần số của lớp đứng sau; h là độ dài của lớp chứa mode
  34. Thí dụ. Với bảng số liệu sau đây hãy tìm giá trị mode. Đoạn giá trị chiều dài h = 5 Tổng các tần số tương ứng ni 5 – 10 4 10 – 15 6 15 – 20 16 20 – 25 36 25 – 30 24 30 – 35 10 35 – 40 4
  35. Thí dụ. ghi lại kết quả của việc bán 200 đôi dày Giá bán Tần số ri Độ cao yi 30-40 12 1,2 40-50 37 3,7 50-55 22 4,4 55-60 35 7 60-65 37 7,4 65-70 16 3,2 70-80 10 1 80-90 21 2,1 90-100 20 0,5 Tổng 200 Hãy tính khoảng mode, khoảng trung vị, số trung vị và giá trị trung bình của doanh số
  36. Nhận xét. Cũng như trung vị, mode là đại lượng không san bằng chênh lệch giữa các giá trị của mẫu, do đó nó bổ sung hoặc thay thế trung bình mẫu khi việc tính trung bình mẫu gặp khó khăn.
  37. Các tham số đặc trưng cho độ phân tán của các giá trị của mẫu c) Biên độ (R) Sai lệch giữa giá trị lớn nhất và giá trị bé nhất của mẫu: biên độ. RX=−max X min d) Khoảng tứ phân vị Trong phân tích kinh tế xã hội nhiều khi phải tính đến thứ bậc của các đơn vị nghĩa là chia các đơn vị của số liệu mẫu trong bảng phân phối thành các phần bằng nhau.
  38. e) Tổng bình phương các sai lệch và độ lệch bình phương trung bình Cho mẫu ngẫu nhiên được xây dựng từ một BNN gốc X WXXX= (12 , , ,n ) Lúc đó tổng bình phương sai lệch giữa các giá trị của mẫu và trung bình mẫu được kí hiệu là SS n SS=−() X X 2 ∑ i i=1 Giá trị SS thường được dùng trong phân tích phương sai Chia SS cho kích thước mẫu ta được độ lệch bình phương trung bình, ký hiệu là MS n ()XX− 2 ∑ i MS = i=1 n Ta thường tính toán theo công thức
  39. 1 k MS=− n X22 X ∑ ii n i=1 f) Phương sai mẫu Phương sai mẫu, ký hiệu là S2 được xác định bằng công thức 11nn⎛⎞ SXXXnX2222=−=−⎟() ⎜ ⎟ ∑∑ii⎜ ⎟ nn−−11ii==11⎝⎠⎜ ⎟ Nếu ta lấy căn bậc hai của phương sai mẫu, ta thu được thống kê gọi là độ lệch chuẩn mẫu, ký hiệu là S. Như vậy 11nn⎛⎞ SXXXnX=−=−()222⎜ ⎟ ∑∑ii⎜ ⎟ nn−−11ii==11⎝⎠⎜ ⎟
  40. Thí dụ. Tính trung bình, phương sai mẫu và độ lệch tiêu chuẩn Khoảng Tần số Tần suấtTrung điểm 4,5 – 9,5 18 0,045 7 9,5 – 11,5 58 0,145 10,5 11,5 – 13,5 62 0,155 12,5 13,5 – 16,5 72 0,18 15 16,5 – 19,5 57 0,1425 18 19,5 – 22,5 42 0,105 21 22,5 – 26,5 36 0,09 24,5 26,5 – 36,5 10 0,025 31,5 Tổng 400 1
  41. Chương ƯỚC LƯỢNG CÁC THAM SỐ CỦA BIẾN NGẪU NHIÊN Giả sử cần nghiên cứu dấu hiệu X trong tổng thể; mà rõ ràng hơn là nghiên cứu các tham số đặc trưng của X như kỳ vọng EX, phương sai DX, Tất nhiên ở đây ta phải biết được dạng phân phối của BNN X (nghĩa là biết X tuân theo một quy luật nào đó ví dụ như X tuân theo quy luật chuẩn N(μ,σ2) mà μ,σ chưa xác định; hay biết X tuân theo quy luật nhị thức B(n,p) mà p chưa xác định )
  42. § Phương pháp ước lượng điểm - Phương pháp này chủ trương lấy một giá trị của mẫu ngẫu nhiên để thay thế cho tham số θ chưa biết. - Mỗi tham số chưa biết θ có thể ước lượng bằng nhiều điểm khác nhau của mẫu ngẫu nhiên. Do đó, cũng cần có những tiêu chuẩn để lựa chọn được những ước lượng hiệu quả, hợp lí. Ở đây, trình bày khái niệm ước lượng không chệch, ước lượng hiệu quả. Ví dụ như cần ước lượng kỳ vọng EX của BNN X, ta có thể - ước lượng (xấp xỉ) EX bởi trung bình mẫu ngẫu nhiên cỡ n: XX+++ X EX = 12 n n - hoặc ước lượng EX bởi trung vị của một mẫu ngẫu nhiên cỡ n
  43. - hoặc v v
  44. Một vấn đề đặt ra là nên chọn ước lượng nào cho hiệu quả nhất?? a) Ước lượng không chệch Thống kê θˆ của mẫu được gọi là ước lượng không chệch của tham số θ của BNN nếu E()θθˆ = . Như vậy: - Trung bình mẫu X là ước lượng không chệch của kỳ vọng m của BNN gốc (?) - Phương sai S2 là ước lượng không chệch của phương sai σ2 của BNN gốc (?) - Tần số mẫu f là ước lượng không chệch của xác suất p của BNN gốc. (?)
  45. b) Ước lượng hiệu quả Mỗi tham số có thể có nhiều ước lượng không chệch. Một câu hỏi đặt ra là nên chọn ước lượng nào trong số đó? Thống kê của mẫu được gọi là ước lượng hiệu quả nhất của tham số θ của BNN gốc X nếu nó là ước lượng không chệch và có phương sai nhỏ nhất so với mọi ước lượng không chệch khác được xây dựng trên cùng mẫu đó. Thí dụ. Từ một mẫu ngẫu nhiên kích thước n = 2 ta xét hai ước lượng sau đây của trung bình tổng thể m 1 XXX=+() 2 12 và 12 XXX' =+ 3312 a) Xét xem X và X' có phải là ước lượng không chệch của m hay không. b) Ước lượng nào hiệu quả hơn
  46. § Phương pháp ước lượng bằng khoảng tin cậy - Phương pháp này chủ trương xây dựng khoảng mà tham số θ có khả năng sẽ thuộc vào. - Để làm được điều này cần dựa vào quy luật của một BNN G nào đó (hay ta còn gọi là thống kê G) có quan hệ mật thiết với tham số cần ước lượng. Định nghĩa. Khoảng (,GG12 ) của thống kê G được gọi là khoảng tin cậy của tham số θ nếu với xác suất bằng (1 - α) cho trước thỏa mãn điều kiện PG()112<<θα G =− Xác suất (1 - α) được gọi là độ tin cậy của ước lượng, còn I=G2 – G1 được gọi là độ dài khoảng tin cậy.
  47. § Giá trị tới hạn mức α của phân phối chuẩn tắc - Nêu khái niệm giá trị tới hạn mức α của phân phối chuẩn tắc N(0,1); ký hiệu là uα . - Hình ảnh trực quan của uα và α trên đồ thị của phân phối chuẩn tắc N(0,1). Định nghĩa giá trị tới hạn mức α của phân phối chuẩn tắc N(0,1) Giá trị uα được gọi là giá trị tới hạn mức α của phân phối chuẩn tắc N(0,1) nếu thỏa mãn Φ=−()uα 1α (quan sát trên hình vẽ thì đây là diện tích của hình phẳng nằm bên trái đường thẳng α xu= α , diện tích hình phẳng tô đen có bằng ).
  48. Nếu U tuân theo quy luật phân phối chuẩn tắc thì những phát biểu sau đây là tương đương: • PU{}()1<=Φ=− uαα u α • Hình phẳng bị chắn nắm phía trái đường thẳng U = uα có diện tích bằng 1 - α. • Hình phẳng bị chắn nắm phía phải đường thẳng U = uα (tô màu đen) có diện tích bằng α. • P{{}1−<−∞<Uu <αα} = PUu = α (1) • PuU{{}1−−−uUαα<<+∞=} P < = α (2)
  49. • Pu{−uUαα/2<< /2}1 =−α (3) 1 - α thường nhận các giá trị 90%, 95%, 98% và 99%; khi đó: • Các giá trị uα tương ứng tìm được bằng cách tra bảng là 1,28; 1,64; 2,05 và 2,33 (ta có thể tra bảng 2 u x 1 α − Φ=()uedx2 =− 1α hoặc bảng α ∫ 2π −∞ 2 u x 1 α − Φ=()uedx2 =− 0,5 α). 0 α ∫ 2π 0 • Các giá trị uα/2 tương ứng tìm được bằng cách tra bảng là 1,64; 1,96; 2,33 và 2,57 (ta có thể tra bảng 2 u x 1 α/2 − α Φ=()uedx2 =− 1 hoặc bảng α/2 ∫ 2π −∞ 2 2 u x 11α/2 − − α Φ=()uedx2 =). 0/2α ∫ 2π 0 2
  50. § Ước lượng khoảng cho tham số kỳ vọng μ - Vấn đề đặt ra ở đây là ước lượng khoảng cho kỳ vọng toán μ của một dấu hiệu điều tra nào đó, ví dụ như cần biết trung bình thu nhập trung bình của người dân trong thành phố HCM nằm trong khoảng nào; năng suất trung bình của các ruộng lúa ở miền Tây Nam bộ nằm trong khoảng nào . - Trong mục này cũng cho ta biết khái niệm khoảng ước lượng đối xứng, khoảng ước lượng một phía, độ tin cậy, độ chính xác của ước lượng. - Ta cũng cần nắm rõ các điều kiện cần để có thể ước lượng được tham số kỳ vọng toán μ.
  51. Để có thể thực hiện được phương pháp ước lượng khoảng ta cần nắm được các vấn đề sau: • Dấu hiệu X ta đang đi nghiên cứu phải tuân theo một quy luật nào đó. Từ nay về sau ta quy ước dấu hiệu điều tra tuân theo quy luật chuẩn, nghĩa là XN~)(,μσ2 , trong đó μ là chưa biết, còn σ có thể đã biết hoặc chưa biết. • Để ước lượng được μ, ta cần lấy thông tin từ mẫu, và thông tin được thể hiện bởi đại lượng X , lí do là vì X và X đều có chung tham số kỳ vọng toán; thêm nữa là X nhận các giá trị xung quanh μ với mức độ tập trung cao hơn hơn là đại lượng X. • Hai đầu mút của khoảng ước lượng được phụ thuộc vào mẫu cụ thể mà ta rút ra.
  52. n X ∑ i • X = i=1 cũng tuân theo quy luật chuẩn với hai tham n σ2 số là EX()= μ và DX()= n
  53. Việc ước lượng khoảng của kỳ vọng toán μ phụ thuộc vào các trường hợp: a) D(X) = σ2 đã biết; b) chưa biết σ2 nhưng cỡ mẫu đủ lớn thì thay σ2 bằng ước lượng không chệch của nó là phương sai mẫu s2; c) chưa biết σ và cỡ mẫu bé. a) Đã biết σ2 của BNN gốc trong tổng thể ta lựa chọn thống kê X − μ G ==U . σ / n Khi đó UN~ (0, 1) (tuân theo quy luật phân phối chuẩn tắc). Do đó, ta dễ dàng tính được xác suất để U nhận giá trị trong một khoảng nào đó.
  54. Từ tính chất của phân phối chuẩn tắc, ta có P{{}1−<−∞<Uu <αα} = PUu = α (1) PuU{{}1−−−uUαα<<+∞=} P < = α (2) Pu{−uUαα/2<< /2}1 =−α (3) Ta nói xác suất để BNN U nhận giá trị trong khoảng (-∞ , uα); (-uα , +∞); (-uα/2 , uα/2) là 1 - α. Biến đổi công thức (3), ta có
  55. ⎧⎫ ⎪⎪σσ PX⎨⎬−<+=− uαα/2μα< X u /2 1 ⎪⎪⎩ nn⎭ Æ khoảng tin cậy của μ với độ tin cậy 1 - α là ⎛⎞σσ ⎜Xu−+, Xu ⎟ ⎜ αα/2 /2 ⎟ ⎝⎠⎜ nn⎟ α trong đó uα/2 là giá trị tới hạn mức /2 của phân phối chuẩn tắc N(0 , 1). Với mỗi mẫu cụ thể thì X sẽ nhận giá trị cụ thể, và ta được một khoảng ước lượng tương ứng. Với khoảng ước lượng được, không có nghĩa là tham số μ sẽ chắc chắn nằm trong khoảng đó, tham số μ nằm trong khoảng tìm được với xác suất là 1-α. σ ε = uα/2 được gọi là độ chính xác của ước lượng n
  56. Thí dụ. Trọng lượng của một loại sản phẩm là biến ngẫu nhiên phân phối theo quy luật chuẩn với độ lệch chuẩn là 1 gam. Cân thử 25 sản phẩm loại này ta thu được kết quả sau. Trọng lượng (gam) 18 19 20 21 Số SP tương ứng 3 5 15 2 Với độ tin cậy 0,95 hãy tìm khoảng tin cậy của trọng lượng trung bình của loại sản phẩm nói trên. Nếu yêu cầu độ chính xác của ước lượng chỉ là 0,1, và giữ nguyên độ tin cậy 1-α =0,95 thì phải điều tra một mẫu kích thước bằng bao nhiêu?
  57. Giải. Gọi X là "trọng lượng sản phẩm", theo giả thiết X tuân theo phân phối chuẩn với σ=1. Ta cần ước lượng trọng lượng trung bình của sản phẩm μ. Lấy từ tổng thể một mẫu ngẫu nhiên kích thước n = 25, gọi Xi là trọng lượng của sản phẩm thứ i (i = 1, 2, , 25) ta có 1 25 X = X ∑ i 25 i=1 Với độ tin cậy 1 - α = 0,95 thì α/2 = 0,025. Tra bảng ta có μ uuα/2 ==0,025 1, 96 . Vậy khoảng đối xứng của là ⎛⎞ ⎜ 11⎟ ⎜XX−+=−+1,96; 1,96⎟ () XX 0,392; 0,392 ⎝⎠⎜ 25 25 ⎟ Kết quả thu được cho biết 95% số mẫu kích thước n = 25 sẽ chứa đựng tham số μ trong khoảng (XX−+0, 392; 0, 392). Từ bảng số liệu tìm được trung bình mẫu cụ thể
  58. 3.18++ 5.19 15.20 + 2.21 x ==19,64 25 Vậy với độ tin cậy 0,95 qua mẫu cụ thể này, khoảng tin cậy đối xứng của μ là (19,64−+ 0,392;19,64 0,392) hay . Chú ý là không thể viết P (19,248<=μ < 20,032) 0,95 (??)
  59. b) Chưa biết σ Æ tùy vào cỡ mẫu n (*) nếu cỡ mẫu n ≥ 30: trong trường hợp độ lệch chuẩn của dấu hiệu điều tra X chưa biết nhưng cỡ mẫu lấy ra đủ lớn (n ≥ 30) thì ta có thể xấp xỉ σ2 bởi ước lượng không chệch của nó là phương sai mẫu s2. Khi đó, khoảng tin cậy của tham số μ là ⎛⎞ss ⎜Xu−+, Xu ⎟ ⎜ αα/2 /2 ⎟ ⎝⎠⎜ nn⎟ với s là phương sai mẫu tính theo công thức ⎛⎞2 ⎜ ⎛⎞n ⎟ ⎜ ⎜ x ⎟ ⎟ ⎜ ⎜∑ i ⎟ ⎛⎞nn2 ⎜ ⎜ ⎟ ⎟ 11⎜ 2 ⎝⎠i=1 ⎟ sxxx=−=−⎜ ⎟ ⎜ ⎟ ⎜∑∑()ii⎟ ⎜ ⎟ nnn−−11⎜⎝⎠ii==11⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝⎠⎜ ⎟
  60. ( ) nếu cỡ mẫu n < 30: nếu phương sai σ2 chưa biết, nhưng cỡ X − μ mẫu bé thì khi đó thống kê ta sử dụng U = có phân phối sn/ Student (đồ thị tương tự như phân phối chuẩn tắc). Khoảng tin cậy là ⎛⎞nn−−11ss ⎜Xt−+() , Xt() ⎟ ⎜ αα/2 /2 ⎟ ⎝⎠⎜ nn⎟ (1n− ) α Trong đó giá trị tα/2 là giá trị tới hạn mức /2, với n-1 bậc tự do của phân phối xác suất Student.
  61. Thí dụ. Để xác định kích thước trung bình của chi tiết do một máy sản xuất người ta lấy ngẫu nhiên 200 chi tiết để đo kích thước và thu được bảng số liệu sau. Với độ tin cậy 95% hãy ước lượng bằng khoảng tin cậy đối xứng kích thước trung bình của chi tiết do máy đó sản xuất. Giả thiết rằng kích thước chi tiết là biến ngẫu nhiên phân phối chuẩn. Kích thước chi tiết (cm) Số chi tiết tương ứng 54,795-54,805 6 54,805-54,815 14 54,815-54,825 33 54,825-54,835 47 54,835-54,845 45 54,845-54,855 33 54,855-54,865 15 54,865-54,875 7 n=200 Kq: (54,83298 < μ< 54,83752)
  62. Thí dụ. Để xác định trọng lượng trung bình của các bao bột trong kho, người ta đem cân ngẫu nhiên 15 bao của kho đó và tìm được xkg= 39,8 ; s2 = 0,144. Hãy tìm khoảng tin cậy của trọng lượng trung bình của các bao bột trong kho với yêu cầu độ tin cậy của việc ước lượng là 99%. Giả thiết rằng trọng lượng đóng bao của các bao bột là biến ngẫu nhiên tuân theo phân phối chuẩn. Kq: (19,248<μ<20,032)
  63. Thí dụ. Phỏng vấn 5 gia đình có 3 người về chi phí hàng tháng cho nhu yếu phẩm thu được các số liệu sau: 150 ngàn đồng, 180 ngàn, 200 ngàn, 250 ngàn, 300 ngàn. Vậy phải phỏng vấn bao nhiêu gia đình cùng loại để độ tin cậy 95% sai số của việc ước lượng chi phí trung bình hàng tháng cho nhu yếu phẩm không vượt quá 30 ngàn đồng. Giả thiết chi phí hàng tháng cho nhu yếu phẩm là biến ngẫu nhiên phân phối chuẩn.
  64. § Ước lượng xác suất p của BNN phân phối theo quy luật không- một - Trong thực tế có nhiều BNN tuân theo quy luật không-một. Ví dụ khi điều tra số gia đình có con trai; ta kí hiệu Xi là kết quả khi điều tra nhà thứ i thì Xi nhận giá trị 0 hoặc 1; giá trị 0 biểu thị gia đình đó không có con trai và giá trị 1 biểu thị gia đình đó có con trai. Hoặc khi điều tra tỉ lệ người dân có ủng hộ một nghị quyết mới của nhà cầm quyền hay không; ta kí hiệu Xi là kết quả khi điều tra người dân thứ i thì Xi nhận giá trị 0 hoặc 1. - Vấn đề được đặt ra là: ước lượng tỉ lệ gia đình có con trai; ước lượng tỉ lệ người dân đồng tình với nghị quyết mới; ước lượng số cá trong hồ; ước lượng số con hổ trong một khu rừng Cho một tổng thể kích thước N, mỗi cá thể (phần tử) thuộc tổng thể mang hoặc không mang dấu hiệu X (hay X chỉ nhận giá trị 1 hoặc 0). Giả sử trong tổng thể có M cá thể mang dấu
  65. hiệu nghiên cứu. Ở đây ta chưa biêt N, M và cần ước lượng tỷ M lệ cá thể mang dấu hiệu X trong tổng thể là . Lấy ra một N ngẫu nhiên gồm n cá thể, kí hiệu Xi là giá trị của cá thể thứ i, Xi nhận giá trị 0 hoặc 1. Xác suất để Xi nhận giá trị 1 đúng bằng tỉ lệ cá thể mang dấu hiệu X trong tổng thể. X 0 1 P1-p p Trong đó, p chính là tỉ lệ cá thể mang dấu hiệu X trong tổng thể (p là đối tượng chưa biết, và cần ước lượng). Trong mẫu lấy ra WXXX= ( 12, , , n ) thì tần suất xuất hiện dấu hiệu X trong mẫu là XX+++ X f = 12 n n
  66. là một BNN và Ef = p và Df=− p(1 p ) / n Với n≥ 100 thì Df=− p(1 p )/ n ≈− f (1 f )/ n và thống fp− kê G = có phân phối chuẩn tắc N(0,1). ffn(1− ) / Như vậy, với độ tin cậy (1-α) khoảng tin cậy đối xứng của p có dạng ⎛⎞ ⎜ ff(1−− ) ff (1 ) ⎟ ⎜fu−+; fu ⎟ ⎜ αα/2 /2 ⎟ ⎝⎠⎜ nn⎟ khoảng tin cậy bên phải của p là ⎛⎞ ⎜ ff(1− ) ⎟ ⎜fu−+; ∞⎟ ⎜ α ⎟ ⎝⎠⎜ n ⎟ khoảng tin cậy bên trái của p là
  67. ⎛⎞ ⎜ ff(1− ) ⎟ ⎜−+∞; fu ⎟ ⎜ α ⎟ ⎝⎠⎜ n ⎟
  68. Thí dụ. Kiểm tra ngẫu nhiên 400 sản phẩm do một máy sản xuất thấy có 20 phế phẩm. Với độ tin cậy 0,95 hãy ước lượng tỉ lệ phế phẩm tối đa của máy đó. Giải. Gọi p là tỷ lệ phế phẩm của máy đó. Đâ là bài toán ước lượng tham số p bằng khoảng tin cậy bên trái.
  69. Thí dụ. Một vùng có 2000 hộ gia đình. Để điều tra nhu cầu tiêu dùng một loại hàng hóa tại vùng đó người ta nghiên cứu ngẫu nhiên 100 gia đình và thấy có 60 gia đình có nhu cầu về loại hàng hóa trên. Với độ tin cậy 0,95 hãy ước lượng bằng khoảng tin cậy đối xứng số gia đình trong vùng có nhu cầu về loại hàng hóa đó.
  70. Chương 4 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ TRUNG BÌNH a) Phương sai σ2 đã biết X − μ test thống kê là T = σ / n Bài toán 1. H0: μ = μ0 và đối thiết H1: μ ≠ μ0 có miền bác bỏ là |T| > Uα/2 Bài toán 2. H0: μ = μ0 và đối thiết H1: μ > μ0 có miền bác bỏ T > Uα Bài toán 3. H0: μ = μ0 và đối thiết H1: μ < μ0 có miền bác bỏ T < - Uα
  71. Thí dụ. Trong năm trước trọng lượng trung bình trước khi xuất chuồng của bò ở một trại chăn nuôi là 380 kg. Năm nay người ta áp dụng thử một chế độ nuôi mới với hy vọng là bò sẽ tăng trọng nhanh hơn. Sau thời gian áp dụng thử người ta lấy ngẫu nhiên 50 con bò trước khi xuất chuồng đem cân và tính trọng lượng trung bình của chúng là 390 kg. Vậy với mức ý nghĩa α = 0,01 có thể cho rằng trọng lượng trung bình của bò trước khi xuất chuồng đã tăng lên hay không? Giả thiết trọng lượng của bò là biến ngẫu nhiên phân phối chuẩn với độ lệch chuẩn là 35,2kg.
  72. Giải. Gọi X là trọng lượng của bò trước khi xuất chuồng. Cặp giả thuyết thống kê có dạng: H0: μ = 380 và H1: μ > 380 Test thống kê là X − 380 T = 35,2 / 50 α == Với = 0,01 ta có UUα 0,01 2,33 nên miền bác bỏ là ()2,33;+∞ Từ mẫu thì có 390− 380 T ==2,01 qs 35,2 / 50 Kl: với mức ý nghĩa α = 0,01, ta chưa có cơ sở để bác bỏ H0.
  73. b) Phương sai σ2 chưa biết X − μ Test thống kê là T = 0 sn/ a) H0: μ = μ0; H1: μ > μ0 n−1 Khi đó miền bác bỏ là Tt> α μμ= n−1 khi đó miền bác bỏ là Ttα /2 Thí dụ. Trọng lượng đóng bao của các bao gạo trong kho là biến ngẫu nhiên theo phân phối chuẩn với trọng lượng trung
  74. bình theo quy định là 50 kg. Nghi ngờ bị đóng thiếu, người ta đem cân ngẫu nhiên 25 bao và thu được các số liệu sau Trọng lượng bao (kg) Số bao tương ứng 48,0 – 48,5 2 48,5 – 49,0 5 49,0 – 9,5 10 49,5 – 50,0 6 50,0 – 50,5 2 n = 25 Với ý nghĩa α = 0,001 hãy kết luận điều nghi ngờ nói trên.
  75. Giải: Cặp giả thuyết thống kê: μμ=< H01:50;:50H Test được chọn X − 50 T = s /25 trong đó X và s là trung bình và độ lệch chuẩn của mẫu =− thay số vào ta được Tqs 6,887 −=−=−(1)n− 24 ta có ttα 0,01 2,402 nên miền bác bỏ là ()−∞, − 2,402
  76. BÀI TOÁN SO SÁNH HAI GIÁ TRỊ TRUNG BÌNH 2 2 Giả sử X ~ N(μ1, σ1 ) và Y ~ N(μ2, σ2 ) và ta muốn so sánh μ1 và μ2 dựa trên hai mẫu quan sát của X và Y. 2 2 a) Phương sai σ1 và σ2 đã biết Bài toán 1 [hai phía]. H0: μ1 = μ2 với đối thiết H1: μ1 ≠ μ2 x − y Test thống kê là T = và σσ22 12+ nm miền bác bỏ là |T| > Uα/2
  77. Bài toán 2 [một phía] H0: μ1 = μ2 và đối thiết H1: μ1 > μ2 Test x − y thống kê là T = và miền bác bỏ σσ22 12+ nm là T > Uα. Bài toán 3 [một phía] H0: μ1 = μ2 và đối thiết H1: μ1 < μ2 Test x − y thống kê là T = và miền bác bỏ σσ22 12+ nm là T < - Uα.
  78. Thí dụ. Tại một xí nghiệp người ta xây dựng hai phương án gia công cùng một loại chi tiết. Để đánh giá xem chi phí trung bình về nguyên liệu theo hai phương án ấy có khác nhau hay không người ta tiến hành sản xuất thử và thu được các kết quả sau: Phương án 1: 2,5 3,2 3,5 3,8 3,5 Phương án 2: 2,0 2,7 2,5 2,9 2,3 2,6 Với mức ý nghĩa α = 0,05, hãy kết luận vấn đề trên biết rằng chi phí nguyên liệu theo cả hai phương án gia công đều là các σσ22== biến ngẫu nhiên phân phối chuẩn với 120,16.
  79. Giải. Bài toán kiểm định H0: μ1 = μ2 và H1: μ1 ≠ μ2 σ 2 σ 2 khi đã biết 1 và 2 XX− test được chọn T = 12 0,16+ 0,16 56 α == Do = 0,05 Æ uuα /2 0,025 1, 96 . Vậy miền bác bỏ là ()−∞,1,96 − và ()1, 96; +∞ Từ hai mẫu ta tính được 2,53,23,53,83,5++++ x ==3,3 1 5 2,0+++++ 2,7 2,5 2,9 2,3 2,6 x ==2,5 2 6 Ta có giá trị quan sát của test là
  80. − = 3,3 2,5 Tqs 0,16+ 0,16 56
  81. 2 2 b) Phương sai σ1 và σ2 chưa biết và mẫu lớn (n ≥ 30, m ≥ 30) 2 2 c) Phương sai σ1 và σ2 chưa biết và mẫu bé (n < 30 hoặc m < 30) giả sử s2 là giá trị chung của hai phương sai và được ước lượng bởi nm ()−+22() − ∑∑xxii yy s2 ==ii==11 nm+−2 ()(nsms−+−1122 ) = 12 nm+−2 x − y test thống kê được chọn là T = 11 s + nm
  82. Thí dụ. Một nghiên cứu được thực hiện đối với 20 người ở một phường và 19 người ở một phường khác trong thành phố để xem thu nhập trung bình hàng năm (tính bằng triệu đồng) của dân cư hai phường đó có thực sự khác nhau hay không. Các số liệu mẫu thu được như sau: n1 = 20 n2 = 19 = = x1 18,27 x1 16,78 2 = 2 = s1 8,74 s2 6,58 Vậy với mức ý nghĩa 0,05 có thể cho rằng thu nhập trung bình của dân cư ở hai phường đó khác nhau hay không? Giả thiết thu nhập hàng năm của dân cư hai phường cùng phân phối chuẩn với phương sai như nhau.
  83. Giải. cặp giả thuyết H0: μ1 = μ2; và H1: μ1 ≠ μ2 Test thống kê được chọn là X − X T = 12 11 s + nn12 ()()+− α nn12237=≈ Với = 0,05 Æ ttα /2 0,025 2,021 Vậy miền bác bỏ là T > 2,021 Từ mẫu cụ thể ta tính được 19.8,74+ 18.6,58 s ==2,773 20+− 19 2 18,27− 16,78 Do đó T ==1, 677 Æ chưa có cơ sở bác bỏ H0. qs 11 2,773 + 20 19
  84. d) Khoảng tin cậy cho hiệu số μ1 - μ2 2 2 trong trường hợp σ1 và σ2 đã biết thì khoảng tin cậy với độ tin cậy β cho μ1 - μ2 là σσ22 12 ()xy−± Uα + /2 nm 2 2 trong trường hợp mẫu nhỏ (n, m < 30), phương sai σ1 và σ2 chưa biết nhưng bằng nhau thì ĐLNN ()()xy−−μμ − T = 12 có phân bố Student với n + 11 s + nm m -2 bậc tự do.
  85. e) Trường hợp hai mẫu điều tra phụ thuộc theo từng cặp ở các trường hợp trước ta luôn giả thiết rằng các mẫu điều tra là độc lập từ các tổng thể khác nhau. Trong thực tế có nhiều trường hợp hai mẫu điều tra được rút ra từ một tổng thể Æ không còn độc lập Æ ở phần này ta xét việc kiểm định khi hai mẫu điều tra cùng kích thước n, trong đó các giá trị của mẫu phụ thuộc tương ứng theo từng cặp. Giả sử có hai tổng thể, trong đó có các ĐLNN X1 và X2 cùng phân phối chuẩn với các phương sai chưa biết. Từ hai tổng thể rút ra hai mẫu ngẫu nhiên = () WXXX111121, , , n = () WXXX221222, , , n Ta thiết lập ĐLNN D Di = X1i – X2i với i = 1, 2,
  86. Ta xác định trung bình mẫu và phương sai mẫu n = 1 DD∑ i n i=1 n 1 2 SDD2 =−() D − ∑ i n 1 i=1 Test thống kê được sử dụng là Dn T = có phân bố Student với n – 1 bậc tự do SD μμ=> a) HH01:0;:0D D μμ=< b) HH01:0;:0D D μμ=≠ c) HH01:0;:0D D
  87. Thí dụ. Theo dõi doanh số bán của một công ty (tính bằng triệu đồng) trong 15 ngày đầu tháng 3 và 15 ngày đầu tháng 5 thu được kết quả sau Ngày Tháng 3 Tháng 5 d1 1 7,6 7,3 0,3 2 10,2 9,1 1,1 3 9,5 8,4 1,1 4 1,3 1,5 -0,2 5 3,0 2,7 0,3 6 6,3 5,0 0,5 7 5,3 4,9 0,4 8 6,2 5,3 0,9 9 2,2 2,0 0,2 10 4,8 4,2 0,6 11 11,3 11,0 0,3 12 12,1 11,0 1,1 13 6,9 6,1 0,8 14 7,6 6,7 0,0 15 8,4 7,5 0,9
  88. Nếu giả thiết doanh số hàng ngày phân phối chuẩn thì với mức ý nghĩa α = 0,05 có thể nói rằng doanh số bán trung bình hàng ngày trong tháng 5 có giảm sút so với tháng 3 hay không? Giải. Gọi X1 và X2 tương ứng là doanh số bán hàng ngày trong tháng 3 và tháng 5. Theo giả thiết X1 và X2 có phân phối chuẩn. Vậy doanh thu trung bình là μ1 và μ2. Ta kiểm định cặp giả thuyết H0: μ1 - μ2 = 0; H1: μ1 - μ2 > 0 Test thống kê là Dn T = sD α ()n−114== () Với = 0,05 thì ttα 0,05 1, 761 Vậy miền bác bỏ là (1,761; + ∞) Từ số liệu mẫu ta tìm được n ==1 Dd∑ i 0,61 n i=1
  89. 2 ⎡ ⎛⎞n ⎤ d ⎢⎥n ⎜⎟∑ i 1 = sd22=−=⎢⎥⎝⎠i 1 0,156 Di− ∑ nn1⎢⎥i=1 ⎢⎥ ⎣⎢⎥⎦ = sD 0,394 0,61. 5 Suy ra T ==6 nên bác bỏ H0. Æ doanh số trung bình qs 0,394 hàng ngày của tháng 5 thực sự giảm sút so với tháng 3
  90. KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ CỦA XÁC SUẤT Giả sử trong tổng thể nghiên cứu biến ngẫu nhiên gốc X phân phối không – một với tham số là p. Nếu chưa biết p nhưng có cơ sở giả thiết rằng giá trị của nó bằng p0, ta đưa ra giả thuyết thống kê H0: p = p0 nếu n và p thỏa mãn điều kiện − pp− 1 1− pp n > 5 và < 0,3 n ()fp− Test thống kê được chọn: T = 0 ()− ppn001/ Bài toán 1. H0: p = p0, và đối thiết H1: p ≠ p0
  91. Miền bác bỏ là |T| > Uα/2 Bài toán 2. H0: p = p0, và đối thiết H1: p > p0 Có miền bác bỏ là T > Uα/2 Bài toán 3. H0: p = p0, và đối thiết H1: p < p0 Có miền bác bỏ là T < Uα/2
  92. Thí dụ. Tỷ lệ khách hàng tiêu dung một loại sản phẩm ở địa phương A là 60%. Sau một chiến dịch quảng cáo người ta muốn đánh giá xem chiến dịch quảng cáo này có thực sự mang lại hiệu quả hay không. để làm điều đó người ta đã phỏng vấn ngẫu nhiên 400 khách hàng thì thấy có 250 người tiêu dùng loại sản phẩm nói trên. Với mức ý nghĩa 0,05 hãy kết luận về hiệu quả của chiến dịch đó. Giải. Gọi p là tỷ lệ khách hàng tiêu dùng loại sản phẩm đó ở địa phương A. Cặp giả thuyết thống kê có dạng H0: p = 0,6; H1: p > 0,6 0,6− 0,4 0,4 0,6 Vì n > 5 và =<0,02 0,3 400 ()fp− nên ta dùng test T = 0 ()− ppn001/
  93. với α = 0,05 Æ Uα = U 0,05 = 1,645 vậy miền bác bỏ là (1,645; +∞) 250 ()0,625− 0,6 400 với f ==0,625 ta có T ==1, 02 400 qs 0,6.0,4 Æ chưa có cơ sở bác bỏ H0 Æ chưa thể nói chiến dịch quảng cáo là hiệu quả.
  94. Thí dụ. Một báo cáo nói rằng 18% gia đình ở thành phố A có máy tính cá nhân ở nhà. Để kiểm tra, người ta chọn ngẫu nhiên 80 gia đình trong thành phố có trẻ em đang đi học và thấy có 22 gia đình có máy tính. Với mức ý nghĩa α = 0,02 hãy kiểm định xem liệu trong các gia đình có trẻ em đang đi học, tỉ lệ gia đình có máy tính có cao hơn tỉ lệ chung hay không?
  95. KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ CỦA NHIỀU XÁC SUẤT Cần kiểm định H0: P(B1) = p1, P(B2) = p2, . P(Bk) = pk Tiến hành phép thử ℘ n lần độc lập. Giả sử có ni lần xảy ra biến cố Bi (i = 1, 2, ,k) Biến cố B1 B2 Bk Tổng Tần số N n n n quan sát 1 2 k = Các số nnpˆii gọi là tần số lí thuyết. Nếu giả thiết H0 đúng thì nnˆii
  96. Test thống kê 2 k ()nn− ˆ T = ∑ ii i=1 nˆi 2 2 Miền bác bỏ là T > χα , với χα là phân vị mức α của phân bố χ2. Thí dụ. Quan sát 250 ngày nghỉ ốm của công nhân trong một xí nghiệp lớn ta thu được số liệu Thứ Thứ Thứ Thứ Tổng Ngày Thứ tư hai ba năm sáu số Số CN 57 39 37 54 63 250 nghỉ Với mức ý nghĩa α = 5%, nhận định xem các ngày nghỉ ốm của công nhân trong xí nghiệp đó có phân bố đều trong tuần không
  97. Giả thiết H0: các ngày nghỉ ốm phân bố đều Thứ Thứ Thứ Thứ Ngày Thứ tư Tổng hai ba năm sáu Tần số 50 50 50 50 50 250 LT Test thống kê (57−−− 50)222 (39 50) (37 50) T =+++ 50 50 50 (54−− 50)22 (63 50) ++=10,48 50 50 Tra bảng χ 2 với 5 – 1 = 4 bậc tự do và tìm được χ 2 = 0,05 9,488 2 Vì T > χα nên ta bác bỏ H0 và kết luận có những ngày - xác suất nghỉ ốm cao hơn những ngày khác.
  98. Thí dụ. Lưu truyền có một loại thức ăn A làm tăng khả năng sinh con trai. Để kiểm tra quan niệm này người ta cho một nhóm phụ nữ dung thức ăn A rồi xem xét 80 trường hợp có 3 con trong thời gian dùng loại thức ăn A đó. Kết quả được cho bởi bảng Số bé 3 2 1 0 Tổng số trai Số phụ 14 36 24 6 80 nữ Giải: Giả thiết H0 là: loại thức ăn A không có tác dụng đến giới tính của bào thai”. Nếu giả thiết H0 đúng thì số bé trai trong gia đình có 3 con là ĐLNN có quy luật nhị thức với tham số n = 3 và p = ½. Giả sử Bk là biến cố: “trong 3 đứa trẻ có k đứa là trai” 1 3 ()= k ⎛⎞→ PBk C3 ⎜⎟ P(B0) = 1/8; P(B1) = 3/8; P(B2) = ⎝⎠2 3/8; P(B3) = 1/8.
  99. Các tần số lí thuyết là Số trẻ 3 2 1 0 Tổng số em trai Số gia 10 30 30 10 80 đình Test thống kê (14−− 10)22 (36 30) T =++ 10 30 (24−− 30)22 (6 10) ++=1, 3 30 10
  100. χ2 χ 2 = Tra bảng với 4 – 1 = 3 bậc tự do tìm được 0,05 7,815 Vì T chưa cho phép khẳng định loại thức ăn A có ảnh hưởng tới việc hình thành giới tính.
  101. KHOẢNG TIN CẬY VÀ KIỂM ĐỊNH GIẢ THIẾT VỀ PHƯƠNG SAI Nếu XN~(,)μ σ 2 thì ĐLNN ()ns−1 2 T = σ 2 Có phân bố χ 2 với n – 1 bậc tự do. CT: khoảng tin cậy của σ với độ tin cậy β là ⎡⎤22 ⎢⎥()ns−−1)() ns 1) ; ⎢⎥λλ22 αα/2 ⎢⎥1− ⎣⎦2
  102. Thí dụ. Kích thước của một chi tiết máy là một ĐLNN có phân bố chuẩn. Trong một mẫu gồm 30 chi tiết máy được kiểm tra, ta tính x = 0,47 và s = 0,032. Tìm khoảng tin cậy 95% cho phương sai và độ lệch tiêu chuẩn của kích thước của toàn bộ các chi tiết máy. Giải. n = 30, s2 = 0,0322 Với β = 0,95 suy ra α/2 = 0,025 và 1 – (α/2) = 0,975. Tra bảng ta tìm được λ 2 = λ 2 = 0,025 45,772 và 0,975 16,047 Vậy khoảng tin cậy 95% cho σ2 là