Giáo án Một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê (Phần 1)
Bạn đang xem 20 trang mẫu của tài liệu "Giáo án Một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
giao_an_mot_so_ung_dung_cua_phuong_phap_bootstrap_trong_xu_l.pdf
Nội dung text: Giáo án Một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê (Phần 1)
- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung S K C0 0 5 4 0 8 Tp. Hồ Chí Minh, tháng 11/2013
- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG TP. HCM, 11/2013
- TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC CƠ BẢN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung TP. HCM, 11/2013
- MỤC LỤC MỤC LỤC 1 THÔNG TIN KẾT QUẢ NGHIÊN CỨU 2 MỞ ĐẦU 6 CHƢƠNG 1: PHƢƠNG PHÁP BOOTSTRAP 8 1. Đặt vấn đề 8 2. Nội dung phương pháp Bootstrap 9 3. Sai số tiêu chuẩn Bootstrap 13 3.1 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ 14 3.2 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị hệ số tương quan 15 3.3 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị độ lệch 19 4. Ước lượng Bootstrap cho độ chệch 22 CHƢƠNG 2: KHOảNG ƢớC LƢợNG BOOTSTRAP 25 1. Khoảng ước lượng Bootstrap-t 25 1.1 Khoảng ước lượng Bootstrap-t cho trung bình 27 1.2 Khoảng ước lượng Bootstrap-t cho trung bình thu gọn 29 1.3 Khoảng ước lượng Bootstrap-t cho tỷ lệ p 31 2. Khoảng ước lượng Bootstrap phần trăm 32 2.1 Khoảng ước lượng Bootstrap 95% cho trung vị (median) 33 2.2 Khoảng ước lượng Bootstrap 95% cho độ lệch 35 2.3 Khoảng ước lượng Bootstrap 95% cho hệ số tương quan 35 3. Khoảng ước lượng Bootstrap BCa 36 CHƢƠNG 3: KIểM ĐịNH BOOTSTRAP 40 1. Kiểm định Bootstrap bài toán hai mẫu 40 1.1 Kiểm định Bootstrap so sánh hai trung bình 40 1.2 Kiểm định Bootstrap so sánh hai tỷ lệ 43 2. Kiểm định Bootstrap bài toán một mẫu 45 2.1 Kiểm định Bootstrap so sánh trung bình với µ0 cho trước 45 2.2 Kiểm định Bootstrap so sánh tỷ lệ với P0 cho trước 48 KẾT LUẬN VÀ KIẾN NGHỊ 50 TÀI LIỆU THAM KHẢO 51 1
- TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự do - Hạnh phúc KHOA KHOA HỌC CƠ BẢN Tp. HCM, Ngày 25 tháng 11 năm 2013 THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƢƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ - Mã số: T2013-156 - Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG - Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh - Thời gian thực hiện: 2/2013 đến 11/2013 2. Mục tiêu Đề tài nghiên cứu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và kiểm định. 3. Tính mới và sáng tạo Trình bày bài toán ước lượng bootstrap, kiểm định bootstrap cho các tham số thống kê cụ thể như trung bình, tỷ lệ, hệ số tương quan, Xây dựng thủ tục giải bài toán kiểm định Bootstrap bằng phần mềm Matlab. 4. Kết quả nghiên cứu Trình bày bài toán ước lượng và kiểm định Bootstrap. Sử dụng phần mềm Matlab xây dựng thủ tục tính khoảng ước lượng Bootstrap và giải bài toán kiểm định Bootstrap. 5. Hiệu quả, phƣơng thức chuyển giao kết quả nghiên cứu và khả năng áp dụng Tài liệu tham khảo cho sinh, học viên cao học chuyên ngành Xác suất Thống kê và những đối tượng sử dụng phương pháp Bootstrap trong nghiên cứu. 2
- Trƣởng Đơn vị Chủ nhiệm đề tài (ký, họ và tên) (ký, họ và tên) 3
- INFORMATION ON RESEARCH RESULTS 1. General information: Project title: Some applications of Bootstrap method Code number: T2013-156 Coordinator: ME. Nguyễn Hồng Nhung –HCMC University of Technical Education Implementing institution: HCMC University of Technical Education Duration: from 2/2013 to 11/2013 2. Objective(s): Study the applications of Bootstrap with confidence intervals and hypothesis test. 3. Creativeness and innovativeness: It is shown that the Bootstrap intervals and hypothesis testing with the Bootstrap for average, percentage, correlation, Developprocedures tosolve the hypothesis testing with the Bootstrap by Matlab software. 4. Research results: It is shown that the Bootstrap confidence intervals and hypothesis testing with the Bootstrap. UsingMatlabsoftwareto developprocedures in finding the confidence intervals Bootstrap and solving the hypothesis testing with the Bootstrap. 5. Effects, transfer alternatives of reserach results and applicability: 4
- Referencesto students, post-graduate studentsmajoring inStatisticsandProbability and who using Bootstrapmethodsinthe study. 5
- MỞ ĐẦU 1. Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong và ngoài nƣớc Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trò tổng thể mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu gốc bằng phương pháp lấy mẫu có hoàn lại, gọi là mẫu bootstrap. Phương pháp Bootstrap được B.Efron đề xuất vào năm 1970 là một phương pháp lấy mẫu mới và nó khác so với phương pháp truyền thống ở chỗ nó cho phép xử lý nhiều lần với mẫu gốc ban đầu. Hiện nay sự phổ biến và phát triển của máy tính đã khắc được nhược điểm của phương pháp là có khối lượng tính toán lớn. Chính vì vậy phương pháp Bootstrap ngày càng được phát triển và được phổ biến rộng rãi. 2. Tính cấp thiết Trong thống kê, Bootstrap được xem như là một phương pháp giải quyết các bất định của bài toán thống kê khi cỡ mẫu nhỏ mà không cần giả thuyết về phân phối xác suất của tham số thống kê cần nghiên cứu. Việc nghiên cứu và phát triển phương pháp Bootstrap thu hút được sự quan tâm của nhiều nhà khoa học trên thế giới. Phương pháp cũng được phổ biến rộng rãi khi nhiều trường đại học trên thế giới giảng dạy cho sinh viên cách sử dụng.Vì vậy việc tìm hiểu, nghiên cứu và phổ biến các ứng dụng của phương pháp Bootstrap là việc làm cấp thiết. 3. Mục tiêu Mục tiêu của đề tài là tìm hiểu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và kiểm định giả thuyết thống kê. Trình bày các bước tìm các khoảng lượng Bootstrap của các tham số thống kê cụ thể. Xây dựng thủ tục kiểm định Bootstrap cho bài toán kiểm định một mẫu và bài toán kiểm định hai mẫu. 4. Cách tiếp cận 6
- Để giải quết vấn đề trên, đề tài đã sử dụng các kết quả của lý thuyết thống kê cổ điển về bài toán ước lượng và kiểm định, từ đó xây dựng bài toán ước lượng và kiểm định Bootstrap. 5. Phƣơng pháp đối tƣợng và phạm vi nghiên cứu Tìm hiểu cơ sở của phương pháp Bootstrap và ứng dụng của phương pháp. Nghiên cứu sử dụng phần mềm Matlab giải các bài toán tìm khoảng ước lượng Bootstrap và kiểm định Bootstrap cụ thể. 6. Nội dung nghiên cứu. Bản báo cáo đề tài gồm phần mở đầu, ba chương nội dung và phần kết luận. Chương 1 trình bày xuất xứ và ý nghĩa của đề tài khi tìm hiểu ứng dụng của phương pháp Bootstrap, nội dung của phương pháp Bootstrap và ước lượng sai số tiêu chuẩn cho các tham số trung bình, tương quan, độ lệch. Sử dụng phần mềm Matlab lấy mẫu Bootstrap từ đó tính các giá trị tham số mẫu Bootstrap. Chương 2 trình bày cách tìm khoảng ước lượng Bootstrap-t, khoảng ước lượng Bootstrap phần trăm và khoảng ước lượng Bootstrap BCa. Sử dụng phần mềm Matlab lập chương trình tìm một số khoảng lượng Bootstrap trên mẫu cụ thể. Chương 3 trình các bước kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và tỷ lệ. Sử dụng phần mềm Matlab lập chương trình kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và tỷ lệ. 7
- Chƣơng 1: Phƣơng pháp Bootstrap 1. Đặt vấn đề Giả sử X là biến ngẫu nhiên đặc trưng cho tính chất cần nghiên cứu, X có phân phối F chưa biết. Để biết X ta cần tìm hiểu phân phối F, bằng cách xác định các tham sốθcủa F như trung bình, phương sai, median, hệ số tương quan của phân phối hai biến, Theo phương pháp thống kê truyền thống ta lấy các mẫu ngẫu nhiên từ tổng thể nghiên cứu.Sử dụng hàm thống kê T(θ) với mỗi mẫu ta xác định một giá trịθ của tham số θ tương ứng với mẫu đó. Khi đó với số lượng mẫu quan sát lớn, ta sẽ có một phân phối mẫu mô phỏng xấp xỉ với phân phối của θ. Mẫu 1 Giá trị θ1 Tổng thể Mẫu 2 Giá trị θ 2 Mô phỏng nghiên cứu phân phối của ước Mẫu 3 Giá trị θ 3 lượng θ Mẫu m Giá trị θ m Hình 1.Sơ đồ mô phỏng phân phối mẫu Ta minh họa với ví dụ tham số θ là trung bình μ. Giả sử X1, X2, , Xn là các biến ngẫu đặc trưng cho tính chất cần nghiên cứu của cá thể thứ i với i=1, 2, ,n được rút ra ngẫu nhiên từ tổng thể. X1, X2, , Xncó cùng phân phối F với X. X1, 1 X , , X được gọi là mẫu ngẫu nhiên cỡ mẫu n. Ta có X = n X là một hàm 2 n n i=1 i thống kê ước lượng cho tham số μ. Quan sát m mẫu ngẫu nhiên cụ thể x , k1 8
- x , , x , k=1, 2, ,m. Với mỗi mẫu ngẫu nhiên cụ thể ta có giá trị trung bình k2 kn 1 mẫu thực nghiệm x = n x . Khi m khá lớn theo định lý giới hạn trung tâm X k n i=1 ki có phân phối chuẩn. Do đó ta có mô phỏng phân phối của BNN trung bình mẫu X 1 σ 1 1 2 là có dạng chuẩn N(x , n −1 )vớix = n x ; σ = n x − x 2 . Từ n n i=1 i n−1 n−1 i=1 i kết quả này ta có một loạt các bài toán ước lượng, kiểm định cho giá trị trung bình μ. Vấn đề đặt ra trong trường hợp ta chỉ quan sát được duy nhất một mẫu thực nghiệm x , x , , x được lấy ra ngẫu nhiên từ tổng thể. Khi đó ta có duy 11 12 1n nhất một giá trị θ 1, vậy làm thế nào chúng ta có thông tin về phân phối ước lượng θ của θ? Để trả lời cho câu hỏi này ta có phương pháp bootstrap. 2. Nội dung phƣơng pháp Bootstrap Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trò tổng thể mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu gốc bằng phương pháp lấy mẫu có hoàn lại, gọi là mẫu bootstrap. Với mỗi mẫu lấy lại ta tính được giá trị tham số thống kê quan tâm gọi lại tham số bootstrap. Sự phân bố của các tham số thống kê mẫu bootstrap là phân phối bootstap. Lấy mẫu có hoàn lại có nghĩa là sau khi chúng ta rút ra ngẫu nhiên một quan sát từ mẫu ban đầu, ta đặt nó trở lại trước khi lấy quan sát tiếp theo. Điều này cũng giống như lấy một số từ một chiếc hộp, sau đó đặt nó trở lại trước khi rút lại.Kết quả là, bất kỳ số có thể được rút ra một lần, nhiều hơn một lần, hoặc không được rút ra lần nào. 9
- ∗ Ký hiệux = x1, x2, , xn là mẫu gốc ban đầu ta có mẫu bootstrap x = ∗ ∗ ∗ ∗ x1, x2, , xn với mỗi giá trị xi được lấy ngẫu nhiên từ tập các giá trị x1, x2, , 1 xn với xác suất n. Tương ứng với mỗi mẫu bootstrap x∗ ta có mô phỏng bootstrap của θ là θ ∗ = T(x∗) Với hàm thống kê T(x∗) tương tự với hàm thống kê T(x) tác động lên mẫu x. Ví dụ như ta có giá trị trung bình bootstrap có dạng n 1 x ∗ = x∗ n i i=1 ∗ ∗ ∗ ∗ ∗ ∗ Với mẫu bootstrap ngẫu nhiênX = X1,X2, , Xn , θ = T(X ) là một thống kê trên mẫu bootstrap, khi đó F∗ t = P(θ ∗ < 푡) là phân phối bootstrap của θ ∗. ∗ Mẫu bootstrap 1 Giá trị θ1 ∗ Mẫu bootstrap 2 Giá trị θ Mẫu ban 2 Mô phỏng phân phối đầu ∗ bootstrap của Mẫu bootstrap 3 Giá trị θ 3 ước lượng ∗ Giá trị θ θ1 ∗ Mẫu bootstrap b Giá trị θb Hình 2.Sơ đồ mô phỏng phân phối bootstrap Ta sẽ sử dụng phần mềm Matlab xử lý số liệu thống kê bằng phương pháp Bootstrap. Matlab là một ngôn ngữ lập trình cấp cao của hãng MathWorks.Matlab được sử dụng rông rãi trong môi trường học thuật, công nghệ.Matlab có khả năng hỗ trợ tối ưu cho việc nghiên cứu cũng như giảng dạy toán học, kỹ thuật và khoa học với tính trực quan cao.Matlab có hàng ngàn lệnh và hàm tiện ích và các hàm 10
- chuyên dụng trong các Toolbox. Các Toolbox chuyên dụng cho người dùng với nhiều mục đích như giải toán sơ cấp, giải toán thống kê, xử lý tín hiệu số, xử lý ảnh, logic mờ, Khảo sát chiều cao và cân nặng của 50 nam sinh viên năm nhất khoa chất lượng cao trường đại học sư phạm kỹ thuật, ta có file dữ liệu hightclc1.m và weightclc1.m đóng vai trò là hai mẫu gốc ban đầu. >> load hightclc1.m >> load weightclc1.m >> n=length(hightclc1); % cỡ mẫu gốc. >> b=1000; % số lần lấy mẫu bootstrap. >>theta=mean(hightclc1) % trung bình mẫu gốc. theta = 1.6812 >>inds= unidrnd(n,n,b); >>xboot = hightclc1(inds); % lấy b mẫu bootstrap từ mẫu gốc hightclc1. >>xboot(:,1:7) % biểu diễn 7 mẫu bootstrap đầu tiên. ans = 1.6600 1.6000 1.6500 1.6600 1.6500 1.7000 1.6800 1.6900 1.6700 1.8200 1.6800 1.7400 1.7700 1.6500 1.6900 1.6500 1.6300 1.6900 1.6600 1.7300 1.6800 1.6900 1.6500 1.7300 1.6900 1.7300 1.6900 1.7300 1.6600 1.7300 1.6500 1.7200 1.5700 1.7200 1.7300 1.7300 1.7200 1.7100 1.7200 1.6400 1.6600 1.7300 1.6000 1.6900 1.6000 1.6800 1.6500 1.6700 1.6600 1.7700 1.5700 1.6500 1.6900 1.7700 1.7400 1.6600 1.6900 1.6800 1.6500 1.7400 1.6600 1.7400 1.7000 1.7000 1.6900 1.7100 1.7300 1.6800 1.7300 1.6200 1.6200 1.7100 1.6400 1.8200 1.7300 1.7300 1.6500 1.7000 1.6300 1.7300 1.7400 1.6300 1.7200 1.6700 1.6900 1.6700 1.6900 1.6300 1.6900 1.6900 1.7000 11
- 1.7200 1.6500 1.6900 1.6600 1.6900 1.8200 1.6500 1.6600 1.7200 1.6200 1.7300 1.7000 1.7300 1.6600 1.6200 1.6900 1.6600 1.6900 1.6000 1.6000 1.6400 1.7300 1.7700 1.7300 1.6900 1.6900 1.6800 1.7300 1.6900 1.6900 1.7300 1.6900 1.6500 1.6700 1.6600 1.8200 1.6200 1.7300 1.6000 1.6900 1.6900 1.7300 1.6900 1.6300 1.6400 1.6800 1.7300 1.7000 1.6900 1.6500 1.7000 1.7300 1.6900 1.6300 1.7300 1.6500 1.7300 1.6300 1.7000 1.5700 1.6400 1.6500 1.7400 1.7000 1.6600 1.5800 1.6600 1.7300 1.7200 1.6600 1.6400 1.6300 1.6900 1.5800 1.6000 1.6900 1.6600 1.6700 1.6400 1.6600 1.6800 1.6900 1.6400 1.7300 1.7100 1.5700 1.6500 1.6500 1.7000 1.6900 1.7400 1.7100 1.6000 1.7300 1.6500 1.7300 1.7200 1.7300 1.7400 1.6300 1.7400 1.7000 1.7300 1.6800 1.6600 1.6500 1.7100 1.6300 1.6500 1.6300 1.6500 1.6500 1.6500 1.6900 1.6600 1.6400 1.6600 1.6000 1.6600 1.6400 1.5700 1.7300 1.7700 1.6800 1.7300 1.6800 1.7300 1.6600 1.6900 1.6800 1.6000 1.7100 1.7300 1.6000 1.6800 1.6000 1.7100 1.7100 1.6700 1.5800 1.6800 1.7700 1.6000 1.6000 1.6400 1.6900 1.7300 1.7300 1.6900 1.6200 1.6500 1.6900 1.6900 1.6500 1.6600 1.6800 1.6900 1.6000 1.7300 1.7100 1.7300 1.6500 1.7100 1.6500 1.7400 1.6800 1.7100 1.7400 1.6300 1.7100 1.6000 1.6600 1.6300 1.7000 1.6000 1.6900 1.7400 1.7700 1.8200 1.7300 1.6600 1.7200 1.7300 1.6000 1.6200 1.7300 1.6700 1.6000 1.6800 1.7300 1.7300 1.7000 1.6400 1.7300 1.6000 1.6900 1.7400 1.6800 1.6600 1.6900 1.6000 1.6900 1.6400 1.6900 1.7300 1.5700 1.7200 1.6600 1.7200 1.6800 1.8200 1.6900 1.6700 1.7300 1.7300 1.7300 1.7000 1.6000 1.6400 1.6600 1.6400 1.6400 1.7200 1.6000 1.7200 1.6900 1.7300 1.6300 1.7000 1.6500 1.7300 1.6400 1.6000 1.6900 1.6700 1.7200 1.7000 1.7700 1.6500 1.6900 1.6900 1.6700 1.6000 1.6400 1.6900 1.6400 1.5800 1.6000 1.6600 1.6900 1.6700 1.6600 1.7100 1.6800 1.6900 1.8200 1.6400 1.6900 1.7300 >>thetab = mean(xboot); % trung bình của các mẫu bootstrap >>thetab(:,1:5)% biểu diễn 5 giá trị trung bình bootstrap đầu tiên ans = 1.6870 1.6682 1.6732 1.6846 1.6752 >>hist(thetab) %biểu đồ lịch sử các giá trị trung bình bootstrap 12
- %Biểu đồ này cho chúng ta hình ảnh mô phỏng phân phối của trung bình mẫu Trung bình các mau bootstrap 300 250 200 150 so mau bootstrap 100 50 0 1.65 1.66 1.67 1.68 1.69 1.7 1.71 1.72 chieu cao trung binh (m) Hình 3. Biểu đồ mô phỏng phân phối trung bình mẫu 3. Sai số tiêu chuẩn Bootstrap Mục đích của thống kê học là đưa ra thông tin về các tham số của tổng thể nghiên cứu. Trong thực tế ta không biết chính xác các tham số này mà chỉ ước tính dựa vào một hay nhiều mẫu rút ra từ tổng thể. Nhưng việc chọn mẫu là ngẫu nhiên nên với mỗi mẫu thực nghiệmthứ kx = x , x , , x ta có giá trị θ = k k1 k2 kn k T x , x , , x thứ k và các giá trị θ này có thể thay đổi khi k thay đổi. k1 k2 kn k Chọn m mẫu (cùng kích thước n), ta có m giá trị θ k (k=1, 2, 3, , m). Độ lệch tiêu chuẩn của m giá trị θ k gọi là sai số tiêu chuẩn của θ , ký hiệu m m 2 1 1 se θ = θ − θ m − 1 k m k k=1 k =1 13
- Sai số tiêu chuẩn phản ánh mức độ thay đổi của các giá trị θ k . Giá trị se θ nhỏ thì các giá trị θ k ít thay đổi (ít biến thiên) ngược lại giá trị se θ lớn thì các giá trị θ k thay đổi nhiều (biến thiên nhiều). Trong trường hợp không thể lấy nhiều mẫu từ tổng thể để xác định sai số tiêu chuẩn của θ , ta dùng phương pháp bootstrap ước lượng sai số tiêu chuẩn của θ từ một mẫu gốc ban đầu. Các bước thực hiện như sau: Bƣớc 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu bootstrap độc lập cùng cỡ với mẫu gốc x ∗ = x∗ , x∗ , , x∗ , k=1, 2, , b. k k1 k2 kn ∗ Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị thống kê θk = T x∗ = T x∗ , x∗ , , x∗ , k=1, 2, , b. k k1 k2 kn Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị tính được ở bước 2. 2 b b 1 1 se∗ θ ∗ = θ ∗ − θ ∗ b b − 1 k b k k=1 k=1 Độ lệch tiêu chuẩn này là ước lượng bootstrap của sai số tiêu chuẩn se θ . ∗ ∗ Ta có giá trị seb θ xấp xỉ se θ khi số lượng mẫu bootstrap b là lớn. lim se∗ θ ∗ = se θ = se θ ∗ b→∞ b 3.1 Ƣớc l ƣợng Bootstrap cho sai số tiêu chuẩn của gi á trị trung bình 훍 Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ như sau: Bƣớc 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu được b mẫu bootstrap độc lập cùng cỡ với mẫu gốc x ∗ = x∗ , x∗ , , x∗ , k=1, 2, , b. k k1 k2 kn Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị trung bình mẫu bootstrap 14
- n 1 x ∗ = x∗ ; k = 1, 2, , b k n ki i=1 Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị tính được ở bước 2. 2 b b 1 1 se∗ μ ∗ = x ∗ − x ∗ b b − 1 k b k k =1 k=1 >>seb=std(thetab) % ước lượng bootstrap của sai số tiêu chuẩn của % chiều cao trung bình của các nam sinh viên năm nhất seb = 0.0071 3.2 Ƣớc l ƣợng Bootstrap cho sai số tiêu chuẩn của gi á trị hệ số tƣơng quan Giả sử với mỗi cá thể nghiên cứu xi ta quan sát hai đặc trưng yivà zi. Ví dụ như với mỗi hộ gia đinh xi ta quan sát giá trị tổng thu nhập yivà mức chi tiêu zi. Nói cách khác BNN X là cặp BNN (Y, Z).Mẫu thực nghiệm x cỡ n gồm n cặp giá trị (yi, zi) i=1, 2, ,n. Hệ số tương quan corr(Y, Z) là tham số đo mức độ phụ thuộc tuyến tính giữa hai BNN Y và Z. Ta có giátrị |corr(Y, Z)|≤1, và . Nếu |corr(Y, Z)|=1 thì hai BNN Y, Z có mối quan hệ phụ thuộc tuyến tính. . Nếu |corr(Y, Z)| gần 1 thì mối quan hệ phụ thuộc tuyến giữa X và Y là khá rõ ràng, . Nếu |corr(Y, Z)| gần 0 thì mối quan hệ phụ thuộc tuyến giữa X và Y là không rõ ràng, . Nếu |corr(Y, Z)|=0 thì hai BNN Y, Z không phụ thuộc tuyến tính. 15
- Công thức xác định hệ số tương quan corr(Y, Z) E(Y − EY)(Z − EZ) corr Y, Z = E(Y − EY)2E(Z − EZ)2 Để ước lượng cho hệ số tương quan của tổng thể ta có hệ số tương quan mẫu n i=1 yi − y zi − z corr y, z = n n i=1 yi − y i =1 zi − z 1 1 vớiy = n y và z = n z . n i =1 i n i =1 i ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ Với mẫu bootstrap x = x1, x2, , xn = y1, z1 , y2, z2 , , yn , zn ta tính được hệ số tương quan mẫu bootstrap n ∗ ∗ ∗ ∗ i=1 yi − y zi − z corr y∗,z∗ = n ∗ ∗ n ∗ ∗ i=1 yi − y i=1 zi − z 1 1 vớiy ∗ = n y∗ và z ∗ = n z∗. n i=1 i n i =1 i Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị hệ số tương quan corr Y, Z như sau: Bƣớc 1: Lấy theo phương pháp có hoàn lại từ mẫu gốc ban đầu mỗi lần lấy ∗ ∗ một cặp giá trị yi , zi , được b mẫu bootstrap độc lập cùng cỡ với mẫu gốc x∗ = x∗ , x∗ , , x∗ = y∗, z∗ , y∗, z∗ , , y∗ , z∗ , k=1, 2, , b. k k1 k2 kn 1 1 2 2 n n Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị hệ số tương quan mẫu bootstrap n y∗ − y ∗ z∗ − z ∗ ∗ ∗ ∗ i=1 ki k ki k rk = corr yk , zk = ; k = 1, 2, , b n y∗ − y ∗ n z∗ − z ∗ i=1 ki k i=1 ki k 1 1 vớiy ∗ = n y∗ và z ∗ = n z∗ . k n i=1 ki k n i=1 ki 16
- ∗ Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị rk tính được ở bước 2. 2 b b 1 1 se∗ corr ∗ = r∗ − r∗ b b − 1 k b k k=1 k =1 >> [bootstat,bootsam] = bootstrp(b,@corr,hightclc1,weightclc1); >>bootstat(1:5,:)% biểu diễn hệ số tương quan của 5 mẫu bootstrap đầu tiên ans = 0.4126 0.3581 0.2028 0.1114 0.3489 >>bootsam(:,1:5) % Biểu diễn các chỉ số của 5 mẫu bootstrap đầu tiên ans = 32 37 16 14 3 2 16 7 13 16 24 18 41 40 43 25 28 38 45 43 17 10 30 24 30 21 30 29 30 12 9 3 14 22 29 2 41 4 24 49 36 19 22 8 30 26 13 28 15 48 14 29 33 30 29 21 32 22 41 10 9 16 21 47 34 13 24 3 30 24 38 30 8 44 6 42 44 40 15 46 24 9 8 22 40 15 25 46 24 28 38 27 30 26 38 37 42 45 27 47 4 46 3 50 34 50 1 24 44 25 2 11 6 7 8 39 13 46 12 13 17
- 49 33 48 24 49 21 48 41 7 46 16 41 17 11 36 31 31 14 24 10 7 17 3 38 13 10 21 45 35 26 23 30 50 6 34 17 18 19 20 34 24 20 33 22 47 3 1 2 13 39 2 34 12 31 15 5 47 37 46 3 37 50 47 27 44 41 12 29 46 48 10 44 42 43 4 46 36 47 14 15 45 5 13 47 3 30 3 2 13 11 35 44 37 27 24 42 48 3 5 27 38 49 28 12 11 29 7 3 24 10 20 37 45 44 37 3 49 27 49 28 3 19 37 20 2 16 26 7 46 7 >>hist(bootstat) he so tuong quan giua chieu cao va can nang 300 250 200 150 so mau bootstrap 100 50 0 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 he so tuong quan bootstrap Hình 4. Biểu đồ mô phỏng phân phối hệ số tương quan mẫu 18



