Bài giảng Xác suất thống kê - Chương 7: Kiểm định giả thiết - Th.S Nguyễn Phương
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xác suất thống kê - Chương 7: Kiểm định giả thiết - Th.S Nguyễn Phương", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_xac_suat_thong_ke_chuong_7_kiem_dinh_gia_thiet_th.pdf
Nội dung text: Bài giảng Xác suất thống kê - Chương 7: Kiểm định giả thiết - Th.S Nguyễn Phương
- Chương 7: KIỂM ĐỊNH GIẢ THIẾT Th.S NGUYỄN PHƯƠNG Khoa Giáo dục cơ bản Trường Đại học Ngân hàng TPHCM Blog: Email: nguyenphuong0122@gmail.com Yahoo: nguyenphuong1504 Ngày 17 tháng 2 năm 2014 1
- NỘI DUNG 1 Các khái niệm chung Giả thiết thống kê Thủ tục kiểm định Các bước khi tiến hành kiểm định giả thiết thống kê 2 Kiểm định giả thiết về trung bình tổng thể Trường hợp 1: n 30, σ2 biết ≥ Trường hợp 2: n 30, σ2 chưa biết ≥ Trường hợp 3: n < 30, σ2 biết, X có phân phối chuẩn. Trường hợp 4: n < 30, σ2 chưa biết, X có phân phối chuẩn. 3 Kiểm định giả thiết về tỷ lệ tổng thể 4 Kiểm định giả thiết về phương sai tổng thể 5 So sánh hai giá trị trung bình 6 So sánh hai giá trị tỷ lệ 7 So sánh hai giá trị phương sai 8 Kiểm định giả thiết về phân phối của tổng thể 9 Kiểm định về sự độc lập 2
- Các khái niệm chung Giả thiết thống kê Giả thiết thống kê - Giả thiết thống kê là các giả thiết nói về: - Các tham số của biến ngẫu nhiên gốc của tổng thể, chẳng hạn trung bình, tỉ lệ, phương sai; - Dạng quy luật phân phối của biến ngẫu nhiên gốc của tổng thể; - Tính độc lập của các biến ngẫu nhiên. - Giả thiết cần kiểm định còn được gọi là giả thiết không, kí hiệu H0. Mệnh đề đối lập của H0 được gọi là giá thiết đối, kí hiệu là H1. - Nếu H0 bị bác bỏ, ta chấp nhận H1, ngược lại nếu H0 được chấp nhận, ta bác bỏ H1. 3
- Các khái niệm chung Thủ tục kiểm định - Phương pháp dùng công cụ của thống kê, từ các thông tin trên mẫu điều tra cho kết luận về việc chấp nhận hay bác bỏ giả thiết thống kê được gọi là kiểm định giả thiết thống kê. - Để kiểm định giả thiết thống kê, ta đưa ra tiêu chuẩn kiểm định giả thiết thống kê. - Với mẫu (X1, X2, , Xn), ta chọn thống kê G = f(X1, X2, , Xn, θ0) thỏa điều kiện: khi H0 đúng thì ta sẽ xác định được phân phối xác suất của G. Khi đó, G được gọi là tiêu chuẩn kiểm định. Vì phân phối của G đã biết nên với xác suất α cho trước, ta tìm được miền W sao cho P(W H0đúng) = α,W α α| α được gọi là miền bác bỏ giả thiết H0, α được gọi là mức ý nghĩa của kiểm định. - Khi có mẫu thực nghiệm, ta tính được giá trị của tiêu chuẩn kiểm định g = f(x1, x2, , xn, θ0). Nếu g W thì bác bỏ H0, chấp nhận H1. Ngược lại, ∈ α nếu g < Wα thì chấp nhận H0. 4
- Các khái niệm chung Thủ tục kiểm định Các trường hợp xảy ra khi tiến hành kiểm định giả thiết thống kê: XXX XXBản chất tt XX H0 đúng H0 sai KL XXX Chấp nhận H0 Kết luận đúng (1 α) Sai lầm loại II (β) − Bác bỏ H0 Sai lầm loại I (α) Kết luận đúng (1 β) − cố gắng hạn chế các sai lầm, giảm xác suất mắc sai lầm. Nhưng không thể giảm→ đồng thời xác suất mắc cả hai sai lầm (khi cỡ mẫu cố định). Ấn định trước mức ý nghĩa α,P(sai lầm loại I) = α, chọn miền bác bỏ Wα sao→ cho P(sai lầm loại II) là nhỏ nhất. Lưu ý: Việc bác bỏ hay chấp nhận một giả thiết phụ thuộc vào giá trị thực nghiệm của tiêu chuẩn kiểm định g và mức ý nghĩa α. Kiểm định giả thiết thống kê chỉ là một qui tắc giúp ta kết luận một vấn đề của bài toán đặt ra sao cho kết luận đó có khả năng mắc sai lầm nhỏ. 5
- Các khái niệm chung Các bước khi tiến hành kiểm định giả thiết thống kê Các bước khi tiến hành kiểm định giả thiết thống kê 1. Phát biểu giả thiết H0 và đối thiết H1; 2. Định mức ý nghĩa α; 3. Chọn tiêu chuẩn kiểm định G; 4. Thiết lập miền bác bỏ H0:Wα; 5. Từ mẫu cụ thể (x1, x2, , xn), tính G(x1, x2, , xn) +G (x1, x2, , xn) W : bác bỏ H0, chấp nhận H1, ∈ α +G (x1, x2, , xn) < Wα: chấp nhận H0. 6
- Kiểm định giả thiết về trung bình tổng thể Bài toán: Giả sử tổng thể có E(X) = µ chưa biết. Với mức ý nghĩa, α, kiểm định giả thiết H0 : µ = µ0. Nhắc lại phân phối của trung bình mẫu: (X¯ µ0) √n Trường hợp 1: n 30, σ2 biết: G = − N(0, 1). ≥ σ ' (X¯ µ0) √n Trường hợp 2: n 30, σ2 chưa biết: G = − N(0, 1). ≥ S ' Trường hợp 3: n < 30, σ2 biết, X có phân phối chuẩn: (X¯ µ0) √n G = − N(0, 1). σ ∼ Trường hợp 4: n < 30, σ2 chưa biết, X có phân phối chuẩn: (X¯ µ0) √n G = − T(n 1). S ∼ − 7
- Kiểm định giả thiết về trung bình tổng thể Trường hợp 1: n 30, σ2 biết ≥ Trường hợp 1: n 30, σ2 biết ≥ x¯ µo - Tiêu chuẩn kiểm định: z = − . √n σ Kiểm định Giả thiết Miền bác bỏ H0 p value − Hai phía H0 : µ = µ0, H1 : µ , µ0 z > z α P( Z > z ) | | 2 | | | | Bên trái H0 : µ = µ0, H1 : µ µ0 z > zα P(Z > z) 8
- Kiểm định giả thiết về trung bình tổng thể Trường hợp 2: n 30, σ2 chưa biết ≥ Trường hợp 2: n 30, σ2 chưa biết ≥ x¯ µo - Tiêu chuẩn kiểm định: z = − . √n s Kiểm định Giả thiết Miền bác bỏ H0 p value − Hai phía H0 : µ = µ0, H1 : µ , µ0 z > z α P( Z > z ) | | 2 | | | | Bên trái H0 : µ = µ0, H1 : µ µ0 z > zα P(Z > z) 9
- Kiểm định giả thiết về trung bình tổng thể Trường hợp 3: n z α P( Z > z ) | | 2 | | | | Bên trái H0 : µ = µ0, H1 : µ µ0 z > zα P(Z > z) 10
- Kiểm định giả thiết về trung bình tổng thể Trường hợp 4: n t(n 1; α ) P( T > t ) | | − 2 | | | | Bên trái H0 : µ = µ0, H1 : µ µ0 t > t(n 1;α) P(T > t) − 11
- Kiểm định giả thiết về trung bình tổng thể Trường hợp 4: n < 30, σ2 chưa biết, X có phân phối chuẩn. Ví dụ Mỳ chính được đóng gói 453 gam một gói trên máy tự động. Có thể coi trọng lượng các gói mỳ chính tuân theo luật phân phối chuẩn với độ lệch chuẩn 36 gam. Kiểm tra ngẫu nhiên 81 gói thấy trọng lượng trung bình là 450 gam. Với mức ý nghĩa 5% có thể kết luận trọng lượng các gói mỳ chính là 453 gam không? Ví dụ Thông qua một mẫu gồm 100 gia đình, người ta thu được chi tiêu trung bình hàng tháng của các gia đình đó là 2,455 triệu đồng với độ lệch tiêu chuẩn là 0,3 triệu. Với mức ý nghĩa 0,05 có thể cho rằng chi tiêu trung bình hàng tháng của các gia đình là 2,4 triệu đồng hay không? 12
- Kiểm định giả thiết về trung bình tổng thể Trường hợp 4: n < 30, σ2 chưa biết, X có phân phối chuẩn. Ví dụ Trọng lượng trung bình khi xuất chuồng ở một trại chăn nuôi gà công nghiệp năm trước là 2,8 kg/con. Năm nay người ta sử dụng một loại thức ăn mới. Cân thử 25 con khi xuất chuồng người ta tính được x = 3, 2(kg), s2 = 0, 25(kg2). Biết trọng lượng của gà có phân phối chuẩn. a) Với mức ý nghĩa 0,05 hãy kết luận về tác dụng của loại thức ăn này (có thực sự làm tăng trọng lượng của đàn gà lên hay không) b) Nếu trại chăn nuôi báo cáo trọng lượng trung bình khi xuất chuồng là 3,3 kg/con thì có chấp nhận được không? (mức ý nghĩa 0,05) 13
- Kiểm định giả thiết về tỷ lệ tổng thể Bài toán: Giả sử p là tỉ lệ của tổng thể X chưa biết. Với mức ý nghĩa α, kiểm định giả thiết H0 : p = p0 ( p0 đã biết ). f po - Tiêu chuẩn kiểm định: z = p − . √n po(1 po) − Kiểm định Giả thiết Miền bác bỏ H0 p value − Hai phía H0 : p = p0, H1 : p , p0 z > z α P( Z > z ) | | 2 | | | | Bên trái H0 : p = p0, H1 : p p0 z > zα P(Z > z) 14
- Kiểm định giả thiết về tỷ lệ tổng thể Ví dụ Một trường học báo cáo tổng kết năm học vừa qua có 20% sinh viên giỏi. Đoàn thanh tra kiểm tra mẫu ngẫu nhiên 800 sinh viên có 128 xếp loại giỏi. Biết mức ý nghĩa 5%, hãy kiểm định xem báo cáo của trường có đúng với thực tế hay không? Ví dụ Một máy sản xuất tự động, lúc đầu tỉ lệ sản phẩm loại A là 45%. Sau khi áp dụng một phương pháp sản xuất mới, người ta lấy ra 400 sản phẩm để kiểm tra, qua kiểm tra thấy có 215 sản phẩm loại A. Với mức ý nghĩa 5%, hãy kết luận xem phương pháp sản xuất mới có thực sự làm tăng tỉ lệ sản phẩm loại A lên hay không? Ví dụ Một công ty tuyên bố rằng 60% khách hàng ưa thích sản phẩm của công ty. Điều tra 400 khách hàng có 230 người ưa thích sản phẩm của công ty này. Với mức ý nghĩa 5% hãy xem tỷ lệ trong tuyên bố trên của công ty có đúng với thực tế không? 15
- Kiểm định giả thiết về phương sai tổng thể Bài toán: Giả sử tổng thể X có phân phối chuẩn N(µ, σ2) với phương sai σ2 2 2 2 chưa biết. Với mức ý nghĩa α, kiểm định giả thiết H0 : σ = σ0 (σ0 đã biết). Trường hợp 1: biết trung bình tổng thể µ. P 2 2 ni(xi µ) - Tiêu chuẩn kiểm định: χ = 2− . σ0 Kiểm định Giả thiết Miền bác bỏ H0 Hai phía H : 2 = 2 H : 2 2 2 2 hoặc 2 2 0 σ σ0, 1 σ , σ0 χ χ(n,α/2) Bên trái H : 2 = 2 H : 2 2 − 2 2 0 σ σ0, 1 σ σ0 χ > χ(n,α) Trường hợp 2: chưa biết trung bình tổng thể µ. 2 2 (n 1)s - Tiêu chuẩn kiểm định: χ = − 2 . σ0 Kiểm định Giả thiết Miền bác bỏ H0 Hai phía H : 2 = 2 H : 2 2 2 2 hoặc 2 2 0 σ σ0, 1 σ , σ0 χ χ(n 1,α/2s) Bên trái H : 2 = 2 H : 2 2 − −2 2 − 0 σ σ0, 1 σ σ0 χ > χ(n 1,α) − 16
- Kiểm định giả thiết về phương sai tổng thể Ví dụ Chủ hãng sản xuất một loại thiết bị đo cho biết sai số đo của thiết bị này có độ lệch chuẩn bằng 5mm. Kiểm tra một mẫu 19 thiết bị loại này thấy phương sai mẫu s2 = 33. Với mức ý nghĩa 5%, cho nhận xét về ý kiến trên của chủ hãng. Biết sai số đo của thiết bị có phân phối chuẩn. Ví dụ Một nhà sản xuất bóng đèn tuýp cho rằng chất lượng bóng đèn sẽ được coi là đồng đều nếu tuổi thọ của các bóng đèn có độ lệch chuẩn không quá 1000 giờ. Lấy ngẫu nhiên 10 bóng để kiểm tra thì tìm được s = 1150 giờ. Với mức ý nghĩa 5%, có thể coi chất lượng bóng đèn do công ty đó sản xuất là đồng đều hay không. (Biết tuổi thọ của bóng đèn có phân phối chuẩn). 17
- So sánh hai giá trị trung bình Bài toán: Giả sử có hai tổng thể X và Y với E(X) = µ1 và E(Y) = µ2. Với mức ý nghĩa α, kiểm định giả thiết H0 : µ1 = µ2. Trường hợp 1: hai mẫu WX = (X1, X2, , Xn) và WY = (Y1, Y2, , Ym) độc lập. q 2 2 2 2 σ1 σ2 + TH1a):m 30, n 30, σ1, σ2 biết , ta có G = (X Y)/( m + n ) N(0, 1) ≥ ≥ 2 2 − ' + TH1b):m 30, n 30, σ1, σ2 chưa biết , ta có ≥ q 2 ≥ 2 s1 s2 G = (X Y)/( m + n ) N(0, 1) − '2 2 + TH1c): m < 30, n < 30, σ1, σ2 biết , X và Y có pp chuẩn ta có q 2 2 σ1 σ2 G = (X Y)/( m + n ) N(0, 1) − ∼2 2 + TH1d): m < 30, n < 30, σ1 = σ2 chưa biết , X và Y có pp chuẩn ta có q 2 2 1 1 (m 1)S1+(n 1)S2 2 2 − − G = (X Y)/( S ( m + n )) t(m + n 2) với S = m+n 2 − ∼ − − Trường hợp 2: hai mẫu không độc lập (xét từng cặp) Đặt D = X Y và xét tương tự kiểm định trung bình. − 18
- So sánh hai giá trị trung bình Ví dụ Giám đốc một hãng sản xuất thép muốn xác định xem có sự khác nhau về năng suất giữa ca ngày và ca tối không. Một mẫu 100 công nhân ca ngày sản xuất được x = 74, 3 với độ lệch tiêu chuẩn s1 = 16; một mẫu khác gồm 100 công nhân ca tối sản xuất được y = 69, 7 với s2 = 18. Với mức ý nghĩa 1%, hãy xem có sự khác nhau về năng suất giữa 2 ca không ? 19
- So sánh hai giá trị tỷ lệ Bài toán: Từ các mẫu độc lập (X1, X2, , Xn) của X; (Y1, Y2, , Yn) của Y. Với mức ý nghĩa α, kiểm định giả thiết H0 : p1 = p2. f1 f2 - Tiêu chuẩn kiểm định: z = q − , với f(1 f)( 1 + 1 ) − m n m1 n1 m1+n1 f1 = m ; f2 = n ; f = m+n Kiểm định Giả thiết Miền bác bỏ H0 Hai phía H0 : p1 = p2, H1 : p1 , p2 z > z α | | 2 Bên trái H0 : p1 = p2, H1 : p1 p2 z > zα Ví dụ Kiểm tra chất lượng sản phẩm về một loại hàng do hai nhà máy A và B sản xuất cho kết quả: trong 500 sản phẩm của A có 50 phế phẩm; trong 400 sản phẩm của B có 60 phế phẩm. Với mức ý nghĩa 5%, hãy xem chất lượng sản phẩm của A và B có khác nhau không? 20
- So sánh hai giá trị phương sai 2 2 Bài toán: Cho hai tổng thể X N(µ1, σ ),Y N(µ2, σ ). Từ hai mẫu độc lập ∼ 1 ∼ 2 (X1, X2, , Xn) của X; (Y1, Y2, , Yn) của Y. Với mức ý nghĩa α, kiểm định 2 2 giả thiết H0 : σ1 = σ2. 2 2 2 S1/σ1 S1 Khi H0 đúng, ta có tiêu chuẩn kiểm định: G = 2 2 = 2 F(m 1, n 1) S2/σ2 S2 ∼ − − Quy tắc thực hành: 2 2 Giả sử: s1 > s2. 2 s1 Tiêu chuẩn kiểm định: g = 2 s2 Kiểm định Giả thiết Miền bác bỏ H0 2 2 2 2 Hai phía H0 : σ1 = σ2, H1 : σ1 , σ2 g fα/2(m 1, n 1) 2 2 2 2 − − Bên phải H0 : σ = σ , H1 : σ > σ g > f (m 1, n 1) 1 2 1 2 α − − Lưu ý: + f1 α/2(m 1, n 1) = fα/2(n 1, m 1) . − − − − − 2 2 2 s1 + Nếu s2 > s1, ta thấy tiêu chuẩn kiểm định là g = 2 , khi này bậc tự do là s2 (n 1, m 1). − − 21
- So sánh hai giá trị phương sai Ví dụ Người ta dùng phương sai để đánh giá sự rủi ro của cổ phiếu. Điều tra ngẫu 2 nhiên giá cổ phiếu của công ty A trong 25 ngày, tính được s1 = 6, 52; của công 2 ty B trong 22 ngày tính được s2 = 3, 47. Với mức ý nghĩa 5%, có thể cho rằng độ rủi ro của cổ phiếu công ty A cao hơn công ty B không Giải: 2 2 Gọi σ1, σ2 tương ứng là phương sai giá cổ phiếu của A, B. 2 2 Giả thiết: H0 : σ1 = σ2 2 2 Đối thiết: H1 : σ1 > σ2 Tiêu chuẩn kiểm định: g = 6,52 = 1 879 3,47 , α = 0, 05 f0 05(24, 21) = 2, 05 ⇒ , Vì g < f0,05(24, 21) nên chấp nhận H0. Vậy với mức ý nghĩa 5%, chưa có cơ sở để nói cổ phiếu của A nhiều rủi ro hơn của B. 22
- Kiểm định giả thiết về phân phối của tổng thể Kiểm định giả thiết về phân phối của tổng thể Bài toán: Giả sử tổng thể có luật phân phối xác suất FX(x) chưa biết. Với mức ý nghĩa α, từ mẫu quan sát (X1, X2, , Xn) kiểm định giả thiết H0 : FX(x) = F∗(x) với đối thiết H1 : FX(x) , F∗(x) với F∗(x) là luật phân phối xác suất đã biết. k 2 P (ni npi) Sử dụng tiêu chuẩn kiểm định Pearson: G = − χ2(k r 1) i=1 npi ∼ − − Miền bác bỏ: W = g > χ2(k r 1, α) với r là số tham số chưa biết của luật α − − phân phối F∗(x). Ví dụ Ở một bar, có 4 nhãn hiệu bia khác nhau. 160 khách hàng được chọn ngẫu nhiên cho thấy sự lựa chọn về các nhãn hiệu như sau: Nhãn hiệu A B C D Số khách hàng 34 46 29 51 Có thể kết luận sự ưa chuộng của khách hàng về 4 loại bia là như nhau được không? 23
- Kiểm định giả thiết về phân phối của tổng thể Giải: Giả thiết H0: sự ưa chuộng của khách hàng về 4 nhãn hiệu bia là như nhau, tức là, xác suất để một trong bốn loại bia là bằng nhau:pA = pB = pC = pD = 0, 25. Đối thiết H1 : sự ưa chuộng của khách hàng về 4 nhãn hiệu bia khác nhau. 2 (ni npi) xi ni pi npi − npi A 34 0,25 40 B 46 0,25 40 C 29 0,25 40 D 51 0,25 40 Tổng 160 1 χ2 = 24
- Kiểm định về sự độc lập Kiểm định về sự độc lập Bài toán: Giả sử cần nghiên cứu đồng thời hai dấu hiệu X và Y với X có k dấu hiệu thành phần x1, x2, , xk; Y có m dấu hiệu thành phần y1, y2, , ym. Với mức ý nghĩa α, kiểm định giá thiết H0: X và Y độc lập; đối thiết H1 : X và Y phụ thuộc. H H Yj H y1 y2 yj ym Σ Xi HH x1 n11 n12 n1j n1m n1 x2 n21 n22 n2j n2m n2 . . . . . . . . . . . . . . . . xi ni1 ni2 nij nim ni . . . . . . . . . . . . . . . . xk nk1 nk2 nkj nkm nk Σ r1 r2 rj rm n 25
- Kiểm định về sự độc lập Quy tắc thực hành: " # n m n2 2 P P ij Tính χ = n n r 1 . i=1 j=1 i j − 2 α χ((k 1)(r 1),α) → − − 2 2 : bác bỏ H , chấp nhận H . χ > χ((k 1)(r 1),α) 0 1 − − 2 2 : chấp nhận H . χ χ((k 1)(r 1),α) 0 ≤ − − Ví dụ Một nghiên cứu được thực hiện nhằm xem xét mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu nước giải khát: Coke, Pepsi và 7Up. Mẫu ngẫu nhiên 2425 người tiêu dùng với các nhãn hiệu nước giải khát được ưa thích như sau: ``` ``` Nhãn hiệu ``` Coke Pepsi 7Up Giới tính ```` Nam 308 177 114 Nữ 502 627 697 26
- Kiểm định về sự độc lập Giải: ``` ``` Nhãn hiệu ``` Coke Pepsi 7Up Σ Giới tính ```` Nam 308 177 114 599 Nữ 502 627 697 1826 Σ 810 804 811 2425 Giả thiết H0 : Không có mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu giải thích. Đối thiết H1 : Có mối liên hệ giữa giới tính và sự ưa thích các nhãn hiệu giải thích. " # n m n2 2 P P ij χ = n n r 1 i=1 j=1 i j − = 0 05 2 α , χ((k 1)(r 1),α) → − − 27