Báo cáo Mô phỏng hồi quy bằng phương pháp bootstrap (Phần 1)

pdf 22 trang phuongnguyen 60
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Mô phỏng hồi quy bằng phương pháp bootstrap (Phần 1)", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbao_cao_mo_phong_hoi_quy_bang_phuong_phap_bootstrap_phan_1.pdf

Nội dung text: Báo cáo Mô phỏng hồi quy bằng phương pháp bootstrap (Phần 1)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM MÔ PHỎNG HỒI QUY BẰNG PHƯƠNG PHÁP BOOTSTRAP Mã số: T2013-158 Chủ nhiệm đề tài: Ths. Nguyễn Ngọc Tứ S K C0 0 5 4 2 1 Tp. Hồ Chí Minh, tháng 02/2014
  2. TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC CƠ BẢN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MÔ PHỎNG HỒI QUY BẰNG PHƯƠNG PHÁP BOOTSTRAP Mã số: T2013-158 Chủ nhiệm đề tài: Ths. Nguyễn Ngọc Tứ TP. HCM, 02/2014
  3. Mục lục Thông tin kết quả nghiên cứu 3 Mở đầu 6 0.1.Kết quả nghiên cứu trong và ngoài nước liên quan tới đề tài . . 6 0.2.Tính cấp thiết của đề tài 7 0.3.Mục tiêu của đề tài 7 0.4.Cách tiếp cận 7 0.5.Phương pháp nghiên cứu 8 0.6.Tóm tắt nội dung của đề tài 8 Chương 1. Kiến thức cơ bản 9 1.1.Sự hội tụ của các biến ngẫu nhiên 9 1.1.1. Hội tụ theo xác suất. 9 1.1.2. Hội tụ hầu chắc chắn. 9 1.1.3. Hội tụ yếu. 10 1.2.Sự hội tụ của chuỗi các biến ngẫu nhiên 10 1.2.1. Định lý Kolmogorov 10 1.2.2. Bất đẳng thức Kolmogorov 11 1.3.Luật số lớn 13 1.3.1. Luật yếu số lớn 13 1.3.2. Luật mạnh số lớn 13 1
  4. 1.4.Định lý giới hạn trung tâm 14 1.4.1. Định lý giới hạn trung tâm với các thành phần cùng phân phối . . . . . . . . . . . . . . . . 14 1.4.2. Định lý giới hạn trung tâm Lindeberg 14 1.4.3. Định lý giới hạn tích phân Moivre - Laplace 15 1.5.Metric Mallow 15 1.6.Phân phối bootstrap 17 1.6.1. Đặt vấn đề 17 1.6.2. Phân phối bootstrap 18 Chương 2. Mô hình hồi quy nhiều chiều 19 2.1.Giới thiệu 19 2.2.Độ lệch tiêu chuẩn 23 2.3.Ba định lý cơ bản của lý thuyết bình phương bé nhất . . . . . . . 25 2.3.1. Định lý cơ bản I 26 2.3.2. Định lý cơ bản II 27 2.3.3. Định lý cơ bản III 29 Chương 3. Mô hình hồi quy bootstrap 30 3.1.Giới thiệu 30 3.2.Mô hình hồi quy bootstrap 31 3.3.Mô phỏng mô hình hồi quy bootstrap 39 3.3.1. Khoảng tin cậy Bootstrap BCa 39 3.3.2. Thuật toán 40 3.3.3. Ví dụ 41 2
  5. TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự do - Hạnh phúc KHOA KHOA HỌC CƠ BẢN Tp. HCM, ngày 25 tháng 01 năm 2014 THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: Mô phỏng hồi quy bằng phương pháp bootstrap. - Mã số: T2013-158 - Chủ nhiệm: Nguyễn Ngọc Tứ - Cơ quan chủ trì: Đại học Sƣ phạm Kỹ thuật Thành phố Hồ Chí Minh - Thời gian thực hiện: từ tháng 11/2012 đến tháng 02/2014. 2. Mục tiêu: N h ên cứu định lý giới hạn trung tâm áp dụng cho mô hình hồi quy bootstrap với cỡ mẫu lặp lại tùy ý và mô phỏng bằng phần mềm R. 3. Tính mới và sáng tạo: Áp dụn định lý giới hạn trung tâm trong mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên và mô phỏng mô hình. 4. Kết quả nghiên cứu: Mô phỏng đƣợc mô hình hồ quy bootstrap và trình bày các định lý hội tụ, các đ ều kiện để có thể sử dụn ƣớc lƣợng bootstrap với cỡ mẫu tùy ý đối với phân phối của ƣớc lƣợn bình phƣơn bé nhất. 5. Sản phẩm: Tà l ệu tha hảo chuyên n ành 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: - Các kết quả đạt đƣợc có thể ứng dụng vào việc xử lý số liệu thống kê. 3
  6. - Kết quả nghiên cứu là tà l ệu tha hảo tốt cho các s nh v ên đạ học n ành Toán và các học v ên sau đạ học chuyên n ành Xác suất. Trưởng Đơn vị Chủ nhiệm đề tài (ký, họ và tên, đóng dấu) (ký, họ và tên) 4
  7. INFORMATION ON RESEARCH RESULTS 1. General information: Project title: Simulating bootstrapping regression model. Code number: T2013-158 Coordinator: ME. Nguyễn Ngọc Tứ –HCMC University of Technical Education Implementing institution: HCMC University of Technical Education Duration: from 2/2013 to 02/2014 2. Objective(s): Study the central limit theorem to apply for bootstrapping regression model with random resample sizes and simulated by R software. 3. Creativeness and innovativeness: Applying the central limit theorem for bootstrapping regression model with random resample sizes and simulating this model. 4. Research results: Simulating the bootstrapping regression model and displaying convergence theorems, some conditions to estimate bootstrap with random sample size in least square estimation. 5. Effects, transfer alternatives of reserach results and applicability: References to students, post-graduate students majoring in Statistics and Probability and who using Bootstrap methods in the study. 5
  8. Mở đầu 0.1. Kết quả nghiên cứu trong và ngoài nước liên quan tới đề tài B. Efron đã đề xuất một phương pháp lấy mẫu lại rất tổng quát, gọi là bootstrap, để ước lượng phân phối của các thống kê dựa trên các quan sát độc lập. Có thể mô tả tổng quát phương pháp bootstrap như sau. Giả sử (X1,X2, ,Xn) là một mẫu ngẫu nhiên cỡ n từ một tổng thể với hàm phân phối F và T(X1,X2, ,Xn; F) là biến ngẫu nhiên đặc biệt cần quan tâm, có thể phụ thuộc vào phân phối chưa biết F. Ký hiệu Fn là hàm phân phối thực nghiệm của (X1,X2, ,Xn), nghĩa là phân phối đặt trọng lượng 1/n tại mỗi điểm X1,X2, ,Xn. Phương pháp bootstrap là xấp xỉ phân phối của T(X1,X2, ,Xn; F) dưới F bởi phân phối của T(Y1,Y2, ,Yn;Fn ) dưới Fn, trong đó (Y1,Y2, ,Yn ) là mẫu ngẫu nhiên cỡ n từ tổng thể với hàm phân phối Fn. Như vậy, phương pháp bootstrap sử dụng phép lấy mẫu có hoàn lại. Khi đó tất cả các bậc tự do trong mỗi giai đoạn xử lý số liệu được bảo toàn và đó chính là lợi thế của bootstrap so với các phương án khác của việc điều khiển phép lấy mẫu. Lúc đầu bootstrap được sử dụng để khảo sát độ chệch, sau dó được sử dụng để ước lượng phương sai mẫu. Từ phương sai có thể 6
  9. tính giới hạn tin cậy và kiểm tra giả thuyết. Vì vậy, bootstrap thích hợp để giải quyết các bài toán thống kê, như là kiểm tra giả thiết về luật phân phối của đại lượng ngẫu nhiên, hồi quy, phân tích phương sai hoặc phân loại số liệu nhiều chiều. Cụ thể, đối với mô hình hồi quy và tương quan bootstrap đầu tiên được Bickel và Freedman phát triển một số lý thuyết về tiệm cận cho quá trình thực nghiệm bootstrap. 0.2. Tính cấp thiết của đề tài Phương pháp bootstrap được sử dụng rộng rãi trong thống kê để giải quyết các bài toán như: kiểm định giả thuyết thống kê về phân phối của đại lượng ngẫu nhiên, ước lượng tham số, hồi quy và tương quan, phân tích phương sai va phân loại số liệu nhiều chiều. Nghiên cứu và áp dụng phương pháp bootstrap là vấn đề thời sự trong lý thuyết xác suất và thống kê toán học. Việc nghiên cứu định lý giới hạn trung tâm đối với ước lượng bootstrap với cỡ mẫu ngẫu nhiên được nhiều nhà toán học quan tâm và vấn đề mô phỏng các bài toán cũng cần thiết để xem xét và áp dụng trong thực tế, chẳng hạn trong mô hình hồi quy.Vì vậy, đề tài là thời sự và cấp thiết. 0.3. Mục tiêu của đề tài Nghiên cứu định lý giới hạn trung tâm với cỡ mẫu tùy ý áp dụng trong mô hình hồi quy bootstrap và mô phỏng mô hình này trong thực tế. 0.4. Cách tiếp cận Đọc các tài liệu liên quan đến đề tài, phân tích để tìm công cụ giải quyết đề tài, dùng phần mềm R để mô phỏng mô hình. 7
  10. 0.5. Phương pháp nghiên cứu Sử dụng các phương pháp và kết quả của lý thuyết cổ điển của tổng các biến ngẫu nhiên độc lập, các kết quả và phương pháp lý thuyết của phương pháp bootstrap, áp dụng các kết quả cho mô hình hồi quy. 0.6. Tóm tắt nội dung của đề tài Nội dung của báo cáo gồm phần mở đầu, chương 1, chương 2, chương 3 và phần kết luận: • Phần mở đầu trình bày xuất xứ và ý nghĩa của vấn đề, đối tượng và phương pháp nghiên cứu của đề tài. • Chương 1 trình bày tóm tắt một số kết quả đã biết trong xác suất, các định lý và kết quả cơ bản liên quan đến đề tài. • Chương 2 tập trung trình bày mô hình hồi quy nhiều chiều. • Chương 3 trình bày mô hình hồi quy bootstrap và mô phỏng. 8
  11. Chương 1 Kiến thức cơ bản 1.1. Sự hội tụ của các biến ngẫu nhiên Giả sử X1,X2, là dãy các biến ngẫu nhiên (b.n.n) cùng xác định trên không gian xác suất cố định (Ω,F ,P). Để cho gọn, ta dùng kí hiệu (Xn) để chỉ dãy b.n.n. 1.1.1. Hội tụ theo xác suất. Định nghĩa 1.1.1. Dãy b.n.n (Xn) được gọi là hội tụ theo xác suất tới b.n.n X nếu với ε > 0 bất kỳ lim P[|Xn − X| > ε] = 0. n→∞ P Ký hiệu Xn →X. 1.1.2. Hội tụ hầu chắc chắn. Định nghĩa 1.1.2. Dãy b.n.n (Xn) được gọi là hội tụ hầu chắc chắn tới b.n.n X nếu tồn tại tập A có xác suất bằng không sao cho Xn(ω) → X(ω) với ω ∈/ A. h.c.c Ký hiệu Xn → X. 9
  12. 1.1.3. Hội tụ yếu. Định nghĩa 1.1.3. (Xn) có hàm phân phối xác suất Fn(x), X có hàm phân phối xác suất F(x). Khi đó, dãy b.n.n (Xn) được gọi là hội tụ yếu hay hội tụ theo phân phối đến b.n.n X nếu Fn(x) → F(x) ∀x ∈ C(F) trong đó C(F) là tập hợp các điểm liên tục của hàm F. w d d Ký hiệu Xn →X; Xn →X; hay Fn →F. Ngoài ra ta cũng có một cách định nghĩa hội tụ yếu khác Định nghĩa 1.1.4. Dãy hàm phân phối (Fn) được gọi là hội tụ yếu đến hàm phân phối F (trong Rd ) nếu ∫ ∫ d f (x)dFn(x) → f (x)dF(x), f ∈ Cb(R ) Rd Rd d d ở đây Cb(R ) là tập hợp các hàm số f liên tục, bị chặn trong R . 1.2. Sự hội tụ của chuỗi các biến ngẫu nhiên Giả sử (Xn)n≥1 là dãy các biến ngẫu nhiên độc lập xác định trên không Ω F ··· ∞ gian xác suất ( , ,P). Đặt Sn = X1 + + Xn. Ta bảo chuỗi ∑n=1 Xn hội tụ theo nghĩa nào đó nếu dãy (Sn)n≥1 hội tụ theo nghĩa tương ứng. 1.2.1. Định lý Kolmogorov Định lý 1.2.1. Giả sử X1, ,Xn là các b.n.n độc lập sao cho với mọi k = 1,2, ,n P[|Sn − Sk| ≥ a] ≤ p < 1. 10
  13. Khi đó [ ] 1 P max|Sk| ≥ x ≤ P[|Sn| ≥ x − a]. k≤n 1 − p Hệ quả 1.2.1. Giả sử X1, ,Xn độc lập và có phương sai hữu hạn. Khi đó, [ ] [ √ ] P max|Sk| ≥ x ≤ 2P |Sn| ≥ x − 2D(Sn) . k≤n 1.2.2. Bất đẳng thức Kolmogorov a) Giả sử X1, ,Xn là các b.n.n độc lập và E(Xk) = 0,D(Xk) 0 tùy ý [ ] D(Sn) P max|Sk| ≥ ε ≤ . k≤n ε2 b) Nếu có một số c > 0 nào đó mà P[|Xk| ≤ c] = 1,k = 1,2, ,n thì [ ] (c + ε)2 P max|Sk| ≥ ε ≥ 1 − . k≤n D(Sn) Định lý 1.2.2. Giả sử (Xn) là dãy các b.n.n độc lập. Lúc đó ∑Xn hội tụ h.c.c khi và chỉ khi nó hội tụ theo xác suất. Định lý 1.2.3. Giả sử (Xn) là dãy các b.n.n độc lập. Khi đó, các điều kiện sau là tương đương: a) ∑Xn hội tụ h.c.c. b) ∑Xn hội tụ theo xác suất. c) ∑Xn hội tụ yếu theo phân phối. 11
  14. Định lý 1.2.4. Giả sử dãy (Xn) độc lập, E(Xn) = 0. Khi đó a) Nếu ∞ 2 ∞ ∑ E(Xn ) 0 sao cho P[|Xn| ≤ c] = 1,∀n và nếu chuỗi ∑Xn hội tụ h.c.c thì ∞ 2 ∞ ∑ E(Xn ) 0 ba chuỗi c c | | (a)∑EXn , (b)∑DXn , (c)P[ Xn > c] c hội tụ, trong đó X = X.I[|X|≤c]. Ngược lại, nếu với c > 0 nào đó ba chuỗi trên hội tụ, thì chuỗi ∑Xn hội tụ h.c.c. 12
  15. 1.3. Luật số lớn 1.3.1. Luật yếu số lớn Định nghĩa 1.3.1. Dãy b.n.n (Xn) có kỳ vọng hữu hạn được gọi là tuân theo luật yếu số lớn nếu S − ES P n n →0 n với Sn = X1 + ··· + Xn. 1.3.2. Luật mạnh số lớn Định nghĩa 1.3.2. Dãy b.n.n (Xn) có kỳ vọng hữu hạn được gọi là tuân theo luật mạnh số lớn nếu S − ES n n → 0 h.c.c n hay tổng quát hơn, nếu tồn tại hai dãy hằng số (an), (bn), 0 < bn ↑ ∞ sao cho S − a n n → 0 h.c.c. bn Luật mạnh số lớn Kolmogorov: trường hợp tổng quát Định lý 1.3.1. Giả sử b.n.n (Xn) là dãy các b.n.n độc lập với các moment bậc hai hữu hạn, (bn) là dãy hằng số sao cho 0 < bn ↑ ∞. Khi đó, nếu ∞ DXn ∞ ∑ 2 < , n=1 bn thì S − ES n n → 0 h.c.c. bn Luật mạnh số lớn Kolmogorov: trường hợp cùng phân phối 13
  16. Định lý 1.3.2. Giả sử b.n.n (Xn) là dãy các b.n.n độc lập cùng phân phối. Khi đó, nếu S n → a h.c.c, a ∈ R n khi và chỉ khi E |X1| < ∞ và a = EX1. 1.4. Định lý giới hạn trung tâm 1.4.1. Định lý giới hạn trung tâm với các thành phần cùng phân phối Định lý giới hạn trung tâm là các định lý nói về sự hội tụ yếu của hàm ∑n phân phối xác suất của tổng i=1 Xi đã được biến đổi, các biến số ngẫu nhiên Xi độc lập. Điều đặc biệt quan trọng là sự hội tụ yếu (khi n → ∞) của hàm − Sn ESn ∑n phân phối xác suất của 1/2 , với Sn = i=1 Xi, tới hàm phân phối chuẩn, (Var Sn) trong những điều kiện nhất định. Sự hội tụ yếu tới hàm phân phối chuẩn như vậy nói lên cách hình thành và vai trò đặc biệt quan trọng của phân phối chuẩn trong các hiện tượng thực tế. Hàm đặc trưng là công cụ đắc lực trong việc thiết lập các định lý giới hạn trung tâm. Ta sẽ xét trường hợp các biến số ngẫu nhiên Xi độc lập và có cùng phân phối xác suất. Định lý 1.4.1. Giả sử (Xn) là dãy b.n.n độc lập, cùng phân phối xác suất 2 với kì vọng µ, phương sai σ . Khi đó Sn = X1 +X2 +···+Xn có kì vọng nµ, − µ σ 2 Sn √n phương sai n và phân phối của Zn = σ n hội tụ đều về phân phối chuẩn N(0,1) trên R khi n → ∞. 1.4.2. Định lý giới hạn trung tâm Lindeberg { }n Giả sử dãy các b.n.n độc lập Xnk k=1 ,n = 1, 2, thỏa điều kiện ∑n ≥ (A) EXnk = 0 (k = 1, 2, n)và k=1VarXnk = 1 (n 1) khi đó điều kiện Lindeberg có dạng 14
  17. τ ∑n 2 → (B) Ln( ) = k=1 EXnk.I[|Xnk|>τ] 0 ∑n ≥ Đặt Yn = k=1 Xnk, n 1 và ta có kết quả sau { }n Định lý 1.4.2. Nếu họ các b.n.n độc lập Xnk k=1 ,n = 1, 2, thỏa các điều kiện (A) và (B) thì ∫ x 1 −u2/2 FY (x) → √ e du (n → ∞)đều theo x trên R. n 2π −∞ 1.4.3. Định lý giới hạn tích phân Moivre - Laplace Định lý 1.4.3. Nếu Xn là số thành công trong n phép thử Bernoulli với xác suất thành công p (0 < p < 1) thì (n → ∞) [ ] ∫ x X − np 1 2 P √ n < x → √ e−u /2du đều theo x trên R. np(1 − p) 2π −∞ 1.5. Metric Mallow Gọi B là không gian Banach với chuẩn Euclide. Cho 1 ≤ p < ∞; ở đây ta chỉ xét p = 1 ; hoặc p = 2. Gọi Γp = Γp(B) là tập hợp các xác suất γ trên σ đại số Borel của B sao ∫ p cho ∥x∥ γ(dx) < ∞. Nếu α và β thuộc Γp thì dp(α,β) là infimum của E{∥X −Y∥p}1/p với X và Y hai vecto ngẫu nhiên thuộc B, X có luật phân phối α và Y có luật phân phối β. Bổ đề 1.5.1. a) Giá trị infimum tồn tại. b) dp là một metric của Γp. Bổ đề 1.5.2. Nếu B là đường thẳng thực tức ∥x∥ = |x| thì {∫ } 1 p 1/p −1 −1 dp(F,G) = F (t) − G (t) dt 0 15
  18. Bổ đề 1.5.3. Nếu αn,α ∈ Γp thì dp(αn,α) → 0 khi n → ∞ tương đương với những điều sau ∫ ∫ w p p a) αn →α và ∥x∥ αn(dx) → ∥x∥ α(dx). w p b) αn →α và ∥x∥ đồng nhất với αn khả tích. ∫ ∫ p c) ϕ dαn → ϕ dα với ϕ là hàm liên tục có dạng ϕ(x) = 0(∥x∥ ). Bổ đề 1.5.4. Gọi X1,X2, ,Xn là biến ngẫu nhiên độc lập trên B với phân phối µ ∈ Γp. Nếu µn là phân phối thực nghiệm của X1,X2, ,Xn thì dp(µn, µ) → 0 h.k.n Bổ đề 1.5.5. Gọi Xn là biến ngẫu nhiên độc lập trên B và ∥Xn∥ ∈ Lp; tương tự p′ cho X và dp(Xn,X) → 0. Nếu ϕ là một hàm liên tục từ B vào B’ và ∥ϕ(x)∥ ≤ p K{1 + ∥x∥ } (K là một hằng số) thì dp′[ϕ(Xn),ϕ(X)] → 0. Bổ đề 1.5.6. Gọi U1,U2, ,Um là các biến ngẫu nhiên độc lập; V1,V2, ,Vm là các biến ngẫu nhiên độc lập; cùng luật phân phối thuộc Γp thì ( ) m m ≤ m dp ∑ j=1Uj,∑ j=1Vj ∑ j=1 dp(Uj,Vj) . Bổ đề 1.5.7. Cho B là một không gian Hilbert với tích trong ⟨·,·⟩, và p = 2. Gọi U1,U2, ,Um là các biến ngẫu nhiên độc lập; V1,V2, ,Vm là các biến ngẫu nhiên độc lập; cùng luật phân phối thuộc Γ2 và E(Uj) = E(Vj) thì ( ) 2 m m ≤ m 2 d2 ∑ j=1Uj,∑ j=1Vj ∑ j=1 d2(Uj,Vj) . Bổ đề 1.5.8. Cho B là một không gian Hilbert với tích trong ⟨·,·⟩, và p = 2. Gọi U và V là các biến ngẫu nhiên trên B và ∥U∥,∥V∥ ∈ L2 thì 2 2 2 d2[U,V] = d2[U − E(U),V − E(V)] + ∥E(U) − E(V)∥ . 16
  19. ∥ ∥ | | 1 Bổ đề 1.5.9. Cho B là một đường thẳng thực, x = x và p = 2 và gọi d2 là Malloc metric tương ứng trong B. Gọi U1,U2, ,Un là các biến ngẫu nhiên độc lập, cùng phân phối L2 và U là vecto cột của (U1,U2, ,Un); tương tự cho V1,V2, ,Vn và V. Giả sử E(Uj) = E(Vj) và A là ma trận cấp m × n thì m m − AU, AV là các vecto ngẫu nhiên trong R . Gọi d2 là d2 metric thì m 2 ≤ t · 1 2 d2 (AU,AV) trace(AA ) d2(Ui,Vi) . Bổ đề 1.5.10. Cho Xn là một vecto ngẫu nhiên, an là một vecto vô hướng tiến dần về vô cùng, và xn ∈ B với xn → x0. Giả sử luật phân phối của an(Xn −xn) hội tụ yếu tới luật phân phối của W. Cho ϕ là hàm liên tục đi từ B vào B’ thì ′ luật phân phối của an[ϕ(Xn)−ϕ(xn)] hội tụ tới luật phân phối của ϕ (x0)W. Bổ đề 1.5.11. Cho B là cầu Brown và T là một tập đóng của [0, 1] mà chứa tất cả các điểm khác 0 và 1 thì supT |B(t)| là một hàm phân phối liên tục. 1.6. Phân phối bootstrap 1.6.1. Đặt vấn đề Xét X = (X1,X2, ,Xn) là mẫu ngẫu nhiên cỡ n lấy từ phân phối xác suất chưa xác định F, Xi = xi, Xi ∼ind F, i = 1,2, ,n Ký hiệu Xi ∼ind F,i = 1,2, ,n chỉ n biến ngẫu nhiên Xi độc lập và có cùng phân phối F. Gọi dữ liệu quan trắc thực tế của mẫu ngẫu nhiên X = (X1,X2, ,Xn) là x = (x1,x2, ,xn). Bài toán đặt ra là: cho trước biến ngẫu nhiên R(X,F) phụ thuộc vào cả X và phân phối F chưa biết, ước lượng phân phối mẫu của R dựa trên dữ liệu quan trắc x. 17
  20. 1.6.2. Phân phối bootstrap Xét quan trắc X = x với X = (X1,X2, ,Xn) và x = (x1,x2, ,xn). Ước lượng phân phối mẫu của R(X,F) dựa vào x theo phương pháp Bootstrap như sau 1 1. Xây dựng phân phối xác suất Fˆ đặt khối lượng ở mỗi điểm x , ,x . n 1 n ˆ ∗ ∗ ∗ ∗ 2. Từ F cố định như trên, lấy một mẫu cỡ n là X = (X1 ,X2 , ,Xn ) có các thành phần độc lập, ∗ ∗ ∗ ∼ ˆ Xi = xi , Xi ind F, i = 1,2, ,n mẫu này được gọi là mẫu bootstrap. Dữ liệu quan trắc của X∗ là x∗ = ∗ ∗ ∗ ∗ ∗ ∗ (x1,x2, ,xn). (x1,x2, ,xn) không nhất thiết phải là một hoán vị của ∗ (x1,x2, ,xn) vì mỗi giá trị xi được chọn ngẫu nhiên có hoàn lại từ tập hợp các giá trị {x1,x2, ,xn}. 3. Xấp xỉ phân phối mẫu của R(X,F) bởi phân phối của R∗ = R(X∗,Fˆ). 18
  21. Chương 2 Mô hình hồi quy nhiều chiều 2.1. Giới thiệu Trong chương này, ta sẽ khảo sát mô hình hồi quy và đưa ra những kết quả chính về ước lượng bình phương bé nhất. Xét mô hình hồi quy nhiều chiều Y = Xβ + ε. (2.1.1) Ở vế trái, Y là vectơ ngẫu nhiên quan sát n × 1 chiều. Vectơ Y là vectơ ngẫu nhiên độc lập hay là biến đáp ứng, Yi là thành phần thứ i của Y. Ở vế phải, X là ma trận ngẫu nhiên quan sát n× p, gọi là ma trận thiết kế. Giả sử n > p và ma trận thiết kế có hạng đủ, nghĩa là ma trận có hạng là p. (Nói cách khác, các cột của ma trận X độc lập tuyến tính). β là vectơ n × 1 chiều của tham số, chưa biết và được ước lượng từ dữ liệu, ε là vectơ ngẫu nhiên n ×1 chiều và là sai số ngẫu nhiên hay nhiễu. Nói chung, ε không quan sát được. Ta viết εi là thành phần thứ i của ε. Kí hiệu Xi là hàng thứ i của X. Toán tử ma trận trong biểu thức (2.1.1) là một vectơ gồm n toán tử thường, mà mỗi thành phần là một vectơ quan sát. Hàng thứ i của (2.1.1) là Yi = Xiβ + εi. 19
  22. S K L 0 0 2 1 5 4