Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên

9 trang phuongnguyen 510

Download

Bạn đang xem tài liệu "Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

mo_hinh_hoi_quy_bootstrap_voi_co_mau_ngau_nhien.pdf

Nội dung text: Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên

MÔ HÌNH HỒI QUY BOOTSTRAP VỚI CỠ MẪU NGẪU NHIÊN ON BOOTSTRAPPING REGRESSION MODEL WITH RANDOM RESAMPLE SIZE Nguyễn Hồng Nhung Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh TÓM TẮT Nhiều phương pháp thống kê cổ điển khi tìm khoảng tin cậy cho các hệ số hồi quy cần giả thiết về phân bố tiên nghiệm của các sai số. Với một số giả thuyết nhất định, không cần giả thiết về phân phối của sai số, thủ tục bootstrap có cỡ mẫu lấy lại cố định hoặc ngẫu nhiên có thể thực hiện xấp xỉ bootstrap của phân phối ước lượng bình phương tối thiểu các hệ số hồi quy. Trong bài báo này, tác giả trình bày thuật toán xác định hệ số hồi quy của mô hình hồi quy bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên 푛. 푛 nhận giá trị là các số nguyên dương trên [ , 푛] với khả năng là như nhau tại mọi giá trị, trong đó là số nguyên dương nhỏ nhất lớn hơn hoặc bằng 푛/4. Sử dụng phần mềm Matlab xác định hệ số hồi quy bootstrap thực nghiệm và đưa ra nhận xét. Từ khóa: Phương pháp bootstrap, hồi quy, lấy lại mẫu, cỡ mẫu ngẫu nhiên, phân phối đều. ABSTRACT To find confidence interval for regression coefficients, classical methods need to know about the distribution of errors. Under mild conditions, without knowing the distribution of errors, the bootstrap approximation with random resample size or fixed resample size to estimate the distribution of the least squaresis valid. In this paper, the author presents algorithms determine regression coefficients of the regression model bootstrap with random resample size 푛. 푛 is a positive integer-valued in [ , 푛] with the ability to be the same at all values, where m is the smallest positive integer greater than or equal to 푛/4 . Using software Matlab finds the empirical bootstrap regression coefficients and the comments shall be made. Key words: bootstrap, regression, resampling, random resample size, uniform distribution. 1. GIỚI THIỆU Năm 1979 Efron [1] đưa ra một quá trình mỗi mẫu bootstrap, thống kê của tham số cần ∗ tổng quát lấy lại mẫu từ mẫu gốc ban đầu gọi quan tâm 휃(퐹푛 ) được gọi là thống kê ∗ là bootstrap. Coi mẫu gốc 푆푛 = bootstrap. Phân phối thực nghiệm 퐹푛 của ( 1, 2, , 푛) đóng vai trò là tổng thể mà từ thống kê bootstrap được gọi là phân phối đó nó được rút ra. Từ mẫu ban đầu lấy lại mẫu bootstrap. Phân phối bootstrap là ước lượng ngẫu nhiên bằng phương pháp lấy mẫu có của phân phối thống kê ta đang quan tâm. hoàn lại. Mẫu lấy lại gọi là mẫu bootstrap Phương pháp bootstrap của Efron xấp xỉ phân ∗ ∗ ∗ ∗ ngẫu nhiên 푆푛 = ( 푛1, 푛2, , 푛푛) có cỡ phối mẫu của √푛(휃(퐹푛) − 휃(퐹)) bởi phân ∗ mẫu 푛 . Giả sử 1, 2, , 푛 độc lập cùng phối mẫu lặp lại √푛(휃(퐹푛 ) − 휃(퐹푛)) dựa trên ∗ phân phối 퐹 và 휃(퐹) là tham số cần quan tâm. mẫu bootstrap 푆푛 mà trong đó phân phối ban Gọi 퐹푛 là hàm phân phối thực nghiệm của mẫu đầu 퐹 được thay thế bởi phân phối thực 푆푛, 휃(퐹푛) là một ước lượng của 휃(퐹). Ứng với nghiệm 퐹푛 dựa trên mẫu gốc 푆푛 và 퐹푛 được
thay thế bởi phân phối thực nghiệm bootstrap Trong trường hợp cỡ mẫu lặp lại là biến ∗ ∗ 퐹푛 dựa trên mẫu bootstrap 푆푛. Enno Mammen ngẫu nhiên nhận giá trị nguyên dương 푛 độc [2] giới thiệu quá trình lấy mẫu bootstrap với lập với dãy 1, 2, ; và thỏa điều kiện cỡ mẫu là biến ngẫu nhiên có phân phối 푛 →푃 ∞ khi 푛 → ∞, (4) Poisson. thì với hầu hết mọi dãy mẫu 1, 2, , Trong [3] Rao, Pathak và Kolt trình bày ‖퐹∗ − 퐹‖ → 0 khi 푛 → ∞. (5) quá trình lấy mẫu bootstrap là quá trình lấy 푛 푃 ngẫu nhiên lần lượt có hoàn lại các phần tử từ ∗ ∗ ( ) Ở đây, ‖퐹 푛 − 퐹‖ = 푠 −∞<푡<∞|퐹 푛 푡 − −1 푆푛 cho đến khi có = [푛(1 − 푒 )] + 1 ( ) ∗ 퐹 푡 |, với 퐹 푛 là phân phối thực nghiệm dựa phần tử phân biệt trong mẫu gốc. Như vậy, ta ∗ trên mẫu bootstrap 푆 có cỡ mẫu ngẫu nhiên ∗ 푛 thu được mẫu bootstrap 푆 = 푛 là 푛. Kết quả này N.V. Toản đã chứng minh ( ∗ , ∗ , , ∗ ) có cỡ mẫu là ngẫu 푛1 푛2 푛 푛 푛 trong [5] cho thấy quá trình bootstrap thực ∗ ∗ ∗ nhiên, miễn là trong 푛1, 푛2, , 푛 có 푛 nghiệm có hiệu lực khi 푛 thỏa mãn (4). ≈ 푛(1 − 푒−1) phần tử phân biệt trong mẫu Trong [6] N.V. Toản đã đưa ra điều kiện gốc. Cỡ mẫu 푛 có thể phân tích thành tổng tổng quát cho cỡ mẫu ngẫu nhiên để quá trình các biến ngẫu nhiên độc lập như sau: bootstrap thực nghiệm tổng quát với cỡ mẫu 푛 = 푛1 + 푛2 + ⋯ + 푛 (1) ngẫu nhiên được đánh dấu bởi một lớp các −1 trong đó = [푛(1 − 푒 )] + 1; 1 = 1 và hàm ℱ và dựa trên độ đo xác suất 푃 thỏa mãn với mỗi , 2 ≤ ≤ , định lý giới hạn trung tâm. −1 −1 푖−1 Mục tiếp theo trình bày thủ tục bootstrap 푃∗( = 푖) = (1 − ) ( ) , (2) 푛 푛 푛 đối với mô hình hồi quy trong trường hợp cỡ với 푃∗ là ký hiệu xác suất có điều kiện mẫu lấy lại là biến ngẫu nhiên nhận giá trị 푃( | 1, , 푛). nguyên dương và độc lập với mẫu gốc. Đồng thời trình bày các điều kiện có thể sử dụng ước Kỳ vọng của cỡ mẫu lấy lại 푛của thủ tục 1 1 lượng bootstrap với cỡ mẫu ngẫu nhiên đối bootstrap này là ( ) = 푛 [ + + ⋯ + 푛 푛 푛−1 với phân phối của ước lượng bình phương bé 1 ]. Với = 푛(1 − 푒−1) suy ra 푛− +1 nhất. Các kết quả này được chứng minh trong các tài liệu [7] và [8]. Phần cuối mục, tác giả ( ) = 푛 + (1). (3) 푛 minh họa ứng dụng của các kết luận lý thuyết Rao, Pathak và Kolt đã thiết lập tính vững bởi quá trình xác định khoảng tin cậy cho hệ của lược đồ lấy mẫu này trong [3]. số hồi quy thực nghiệm cho mô hình hồi quy Trong [4] N.V. Toản đã nghiên cứu quá bootstrap với cỡ mẫu ngẫu nhiên. Cụ thể, cỡ mẫu lấy lại là biến ngẫu nhiên nhận giá trị trình bootstrap với cỡ mẫu lấy lại 푛 không 푛 độc lập với mẫu gốc và thỏa mãn điều kiện: có là các số nguyên dương trên [ , 푛] với khả năng như nhau tại mọi giá trị, là số nguyên một dãy các số nguyên dương ( 푛)1≤푛<∞ tiến ra ∞ khi 푛 tiến đến ∞ sao cho dãy ( 푛) dương nhỏ nhất lớn hơn hoặc bằng 푛/4. Khi 푛 1≤푛<∞ đó, hội tụ theo xác suất có điều kiện đến một biến 1 푃( = 푖) = , 푖 ∈ { , , 푛} (6) ngẫu nhiên dương 휐 với xác suất 1. Kết quả 푛 푛− +1 đạt được cho thấy có thể sử dụng ước lượng 푃( 푛 ≥ ) → 1 khi 푛 → ∞, với mọi k. (7) bootstrap với cỡ mẫu ngẫu nhiên thay cho ước Như vậy là biến ngẫu nhiên nhận giá trị lượng bootstrap với cỡ mẫu 푛. 푛 nguyên dương thỏa mãn (4). 2. MÔ HÌNH HỒI QUYBOOTSTRAP VỚI 2.1 Mô hình hồi quy CỠ MẪU NGẪU NHIÊN
Xét mô hình tuyến tính bội định về hệ số hồi quy. Trong [9] N.H. Dư đã chỉ ra khi có phân phối chuẩn ( 2 ) thì 푌(푛) = (푛)훽 + 휀(푛). (8) 휀 0, 휎 푛 푈 = ( )1/2(훽̂ − 훽) có phân phối chuẩn Trong phương trình này 훽 là một × 1 2 ̂ (0, 휎 ); (훽 − 훽) có phân phối chuẩn vectơ của các tham số chưa biết được ước (0, 휎2( )−1). Nếu như điều kiện về phân lượng từ dữ liệu. 푌(푛) là một 푛 × 1 vectơ dữ phối chuẩn của mô hình không chỉ ra được thì liệu, 푌(푛) là vectơ ngẫu nhiên hay biến đáp quá trình lấy mẫu bootstrap sẽ là một lựa chọn ứng. (푛) là một 푛 × ma trận dữ liệu có để giải quyết các bài toán thuộc dạng này. hạng là ≤ 푛, (푛) còn được gọi là ma trận thiết kế. 휀(푛) là một 푛 × 1 vectơ không quan 2.2 Mô hình hồi quy bootstrap sát được, 휀(푛) được gọi là sai số ngẫu nhiên, Giả thiết rằng mô hình hồi quy (8) thỏa mãn phần dư hay nhiễu. Dữ liệu quan sát có dạng các điều kiện A(1-3). Ta xem (푛) là 푛 hàng ( (푛), 푌(푛)) và ta gọi (푛) là tập hợp các đầu tiên của một dãy vô hạn các hàng. Tương điểm thiết kế của mô hình. ( 푖, 푌푖) là hàng thứ tự, xem 휀1, 휀2, , 휀푛 là 푛 phần tử đầu tiên của 푖, 1 ≤ 푖 ≤ 푛, của ( (푛), 푌(푛)). Ta gọi (8) là dãy vô hạn các biến ngẫu nhiên độc lập cùng mô hình hồi quy nếu các phân tích được đưa phân phối 퐹. Từ mẫu gốc ( (푛), 푌(푛)) ta tính ra dựa trên các điểm thiết kế (푛). được ước lượng bình phương bé nhất của 훽 là ̂ Giả thiết (8) thỏa mãn các điều kiện: 훽(푛). Từ đó, ta xác định được vectơ phần dư 휀̂(푛) xác định bởi (A1) (푛) là không ngẫu nhiên. 휀̂(푛) = 푌(푛) − (푛)훽̂. (10) (A2) Trong mô hình (8) các thành phần ̂ 휀 , 휀 , , 휀 của 휀(푛) là độc lập có cùng phân Gọi 퐹푛 là phân phối thực nghiệm của 휀̂(푛), 1 2 푛 ̂ phối 퐹 với trung bình bằng 0 và phương sai có trung tâm tại kỳ vọng, nên 퐹푛 đặt trọng ̂ 휎2. Cả 퐹 và 휎2 đều chưa biết. lượng 1/푛 tại 휀푖̂ (푛) − 휇̂푛 và ∫ 퐹푛 = 0. Theo E. Mammen [10], thực hiện quá trình lấy Ước lượng bình phương bé nhất cho 훽 là mẫu bootstrap từ tập các phần dư trung tâm 1 훽̂(푛) = ( (푛) (푛))−1 (푛) 푌(푛). (9) {휀̂ − 휀̂. }, trong đó 휀̂. = ∑푛 휀̂ ta được các 1 푛 푖=1 푖 ∗ Vectơ 푌 được khảo sát là giá trị quan sát bootstrap sai số 휀̂ (푛) là 푛 vectơ mà thành ∗ ∗ ∗ của vectơ ngẫu nhiên (푛)훽 + 휀(푛). Khi đó phần thứ 푖 là 휀푖̂ ; giả sử 휀1̂ , , 휀푛̂ độc lập có ̂ 훽̂(푛) có trung bình 훽 và ma trận hiệp phương điều kiện cùng phân phối 퐹푛. Đặt 2 −1 sai 휎 { (푛) (푛)} . Giả sử 푌∗(푛) = (푛)훽̂(푛) + 휀̂∗(푛). (11) 1 (A3) { (푛) (푛)} → xác định dương. 푛 Bây giờ ta có bộ số liệu đánh dấu sao để ước lượng tham số. Ước lượng bootstrap của Đồng thời giả sử rằng các phần tử của (푛) 훽̂(푛) là đều bé so với √푛. Khi đó √푛(훽̂(푛) − 훽) tiệm −1 cận chuẩn với trung bình 0 và ma trận hiệp 훽̂∗(푛) = ( (푛) (푛)) (푛) 푌∗(푛). (12) phương sai 휎2 −1. Đặc biệt, phân phối của Nguyên lý bootstrap cho rằng phân phối { (푛) (푛)}−1/2{훽̂(푛) − 훽}/휎 tiệm cận của √푛(훽̂∗ − 훽̂), mà ta có thể tính trực tiếp từ chuẩn với trung bình 0 và ma trận hiệp phương dữ liệu, xấp xỉ phân phối của √푛(훽̂ − 훽). sai là ma trận đơn vị cấp . Freedman [7] đã chứng minh rằng xấp xỉ này 2 −1 Nếu ta thêm giả thiết, các phần dư 휀푖 có là rất tốt khi 푛 lớn và 휎 . 푡 푒( ) cùng phân phối chuẩn (0, 휎2), tức là 휀 = nhỏ. (휀 , , 휀 ) có phân phối chuẩn (0, 휎2 ). 1 푛 푛 Trong [7] Freedman đã phát triển một số Khi đó ta có thể xác định khoảng tin cậy cho định lý xấp xỉ ứng dụng trong mô hình hồi quy các hệ số hồi quy 훽푖 và thực hiện các kiểm
bootstrap của Efron với cỡ mẫu lấy lại là lại mẫu bootstrap từ mẫu gốc ban đầu và xác khác với 푛 là cỡ mẫu ban đầu. Dữ liệu đánh định hệ số hồi quy của mô hình hồi quy dấu sao sinh bởi bootstrap với cỡ mẫu ngẫu nhiên được trình bày như sau: 푌∗( ) = ( )훽̂(푛) + 휀∗( ) (13) Bước 1: Từ số liệu gốc ban đầu ( , 푌 ) × 1 × × 1 × 1 푖 푖 trong đó 1 ≤ 푖 ≤ 푛 ta tính được ước lượng ∗ ∗ với 휀1̂ , , 휀 ̂ độc lập có điều kiện cùng phân bình phương bé nhất 훽̂(푛) của 훽 trong mô ̂ ̂∗ phối 퐹푛. Bây giờ 훽 ( ) là tham số ước lượng hình hồi quy (8) theo công thức (9). dựa trên dữ liệu đánh dấu sao: Bước 2: Xác định các thành phần của vectơ ̂∗ 훽 ( ) = phần dư 휀̂(푛) là 휀̂ = 푌 − 훽̂,1 ≤ 푖 ≤ 푛. −1 푖 푖 푖 ( ( ) ( )) ( ) 푌∗( ). (14) Bước 3: Xác định một giá trị ngẫu nhiên × 1 × × × 1 của biến ngẫu nhiên 푛. Lấy ngẫu nhiên lần (훽̂∗( ) − 훽̂ (푛)) là xấp xỉ phân phối lượt có hoàn lại từ tập các phần dư trung tâm √ 1 {휀̂ − 휀̂. }, trong đó 휀̂. = ∑푛 휀̂ , ta được các rất tốt của √푛(훽̂ − 훽) khi lớn và 1 푛 푖=1 푖 2 −1 ∗ 휎 . 푡 푒( ) nhỏ. Trong [7] Freedman bootstrap sai số 휀̂ ( 푛) là 푛 vectơ mà thành ∗ đã khẳng định hầu chắc chắn của tiệm cận khi phần thứ 푖 là 휀푖̂ . và 푛 tiến tới ∞. Trong [8] N.V. Toản đã ∗ ̂ Bước 4: Đặt 푌 ( 푛) = ( 푛)훽(푛) + chứng minh quá trình bootstrap có hiệu lực ∗ 휀̂ ( 푛) với thành phần thứ 푖, 1 ≤ 푖 ≤ 푛 là với mô hình hồi quy nếu cỡ mẫu bootstrap 푛 ∗ ̂ ∗ 푌푖 = 푖훽 + 휀푖̂ . là biến ngẫu nhiên nhận giá trị nguyên dương, độc lập với 푌 , 푌 , , 푌 và thỏa mãn (4). Bước 5: Với mỗi dữ liệu sao 1 2 푛 ∗ ( ( 푛), 푌 ( 푛)) ta tính được ước lượng 2.3 Mô hình hồi quy bootstrap với cỡ mẫu bootstrap của 훽̂(푛) là ngẫu nhiên ̂∗ 훽 ( 푛) = Giả sử mô hình hồi quy (8) thỏa mãn A(1- −1 ∗ ( ( 푛) ( 푛)) ( 푛) 푌 ( 푛)(15) 3). Theo hầu hết các dãy mẫu, cho 푌1, 푌2, , 푌푛, N. V. Toản trong [8] đã chứng là một vectơ × 1. minh được khi 푛 tiến tới ∞: Ta xét một ví dụ minh họa về mô hình 푌 = (B1) Phân phối có điều kiện của 훽 + 휀 có vectơ tham số 훽 = (훽1, 훽2, 훽3) ̂∗ ̂ chưa biết đang cần ước lượng; vectơ dữ liệu 푌 √ 푛{훽 ( 푛) − 훽(푛)} hội tụ yếu đến phân phối chuẩn với trung bình 0 và ma trận hiệp cấp 150 × 1; ma trận thiết kế cấp 150 × 3 phương sai 휎2 −1. và vectơ sai số 휀 = (휀1, , 휀150) không quan ∗ sát được. (B2) Phân phối có điều kiện của 휎̂ 푛 hội tụ đến điểm có khối lượng tại 휎. Đầu tiên ta khảo sát đồ thị của các dữ liệu. (B3) Phân phối có điều kiện của { }−1/2 ̂∗( ) ̂( ) ∗ ( 푛) ( 푛) {훽 푛 − 훽 푛 }/휎̂ 푛 hội tụ đến phân phối chuẩn trong ℝ . Để minh họa cho các kết quả đã được chứng minh trong lý thuyết, tác giả xây dựng quá trình xác định hệ số hồi quy bootstrap thực nghiệm với cỡ mẫu thực nghiệm là một biến ngẫu nhiên. Các bước thực hiện quá trình lấy
140 120 100 Y 80 60 40 25 15 20 15 10 X the third column 10 5 X the second column Hình 1. Đồ thị phân tán biểu diễn mối Hình 3. Biểu đồ mô phỏng phân phối của quan hệ giữa và 푌. các sai số 휀푖̂ . Theo hình 1, các điểm tập trung gần một Hình 3 cho thấy sai số 휀 không có phân mặt phẳng nên ta dự đoán có thể sử dụng mô phối chuẩn và ta cũng chưa biết dạng phân hình hồi quy tuyến tính để biểu diễn mối quan phối của các sai số 휀. Như vậy với số liệu này hệ giữa và 푌. ta không thể sử dụng các phương pháp xác định hệ số hồi quy truyền thống. Từ các sai số 휀푖̂ tính được ta vẽ đồ thị phân tán của 휀푖̂ theo giá trị dự đoán 푖, được hình 2. Trong bài báo này tác giả sử dụng phần Xu thế trong đồ thị sẽ chứng tỏ các sai số 휀푖̂ mềm Matlab để phân tích số liệu. Sau đây là có độc lập hay phụ thuộc với 푖. thuật toán tìm khoảng tin cậy 95% của tham số hồi quy 훽 bằng cách sử dụng quá trình 6 bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên 4 có phân phối đều trên [푛/4; 푛]. 2 >>[n p]=size(X); # Xác định cỡ ma trận X 0 >> hatbeta=inv(X'*X)*X'*Y # Ước lượng hatepsilon hợp lý cực đại của 훽. -2 hatbeta = [3.7457 4.0935 2.9579]T -4 >> hatepsilon=Y-X*hatbeta; # Vectơ 휀̂(푛) -6 50 60 70 80 90 100 110 120 130 140 Y >>data=hatepsilon- (sum(hatepsilon)/n)*ones(n,1); # Ma trận Hình 2. Đồ thị phân tán của các sai số 휀̂ và 푖 phần dư trung tâm đóng vai trò là mẫu gốc để giá trị dự đoán . 푖 lấy lại mẫu. Trong hình 2 ta thấy không có xu thế nào >> betaB=zeros(p,10000); của chùm điểm thể hiện mối quan hệ giữa sai số 휀푖̂ và giá trị dự đoán 푖 nên ta chấp nhận >> r=randi(n,1,10000); # Dãy 10000 số giả thuyết độc lập giữa sai số 휀 và biến dự nguyên dương ngẫu nhiên có giá trị 1 đến n. đoán 푌. Mặt khác ta thấy khoảng rộng của độ >> for i=1:10000rs=r(1,i); lệch gần như là như nhau tại mọi phần của đồ thị nên ta chấp nhận giả thuyết phương sai của whilers<(n/4)rs=randi(n,1,1);end sai số 휀 là không đổi. Như vậy, bộ số liệu thỏa Es=zeros(rs,1); # Ma trận phần dư bootstrap mãn A(1-3).
Xs=zeros(rs,p);# Ma trận gồm các hàng tương ứng với các 휀푖̂ lấy lại từ mẫu gốc. while det(Xs'*Xs)==0 rb=randi(n,1,rs); for j=1:rs k=rb(1,j);Es(j,1)=data(k,1);Xs(j,:)=X(k,:); end end Ys=Xs*hatbeta+Es; betaB(:,i)=inv(Xs'*Xs)*Xs'*Ys; # Hệ số 훽 bootstrap tương ứng mẫu lấy lại thứ i. Hình 6. Đồ thị các hệ số 훽2 bootstrap với cỡ end mẫu ngẫu nhiên có phân phối đều trên [푛/4; 푛]. Hình 4. Đồ thị các hệ số 훽1 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên Hình 7. Biểu đồ mô phỏng phân phối của [푛/4; 푛]. các hệ số 훽2 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [푛/4; 푛]. Khoảng ước lượng bootstrap với cỡ mẫu ngẫu nhiên của hệ số 훽2với độ tin cậy 95% là (3.8840; 4.3157). Hình 5. Biểu đồ mô phỏng phân phối của các hệ số 훽1 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [푛/4; 푛]. Khoảng ước lượng bootstrap với cỡ mẫu ngẫu nhiên của hệ số 훽1với độ tin cậy 95% là Hình 8. Đồ thị các hệ số 훽3 bootstrap với cỡ (0.4768;6.9116). mẫu ngẫu nhiên có phân phối đều trên [푛/4; 푛].
đó ta có cùng kết luận là các hệ số hồi quy bootstrap của mô hình này khác 0. Khoảng ước lượng bootstrap với độ tin cậy 95% Cỡ mẫu lấy lại 푛 훽1 (0.4768;6.9116) là biến ngẫu nhiên có phân phối đều 훽2 (3.8840; 4.3157) trên [푛/4; 푛]. Hình 9. Biểu đồ mô phỏng phân phối của 훽3 (2.8223; 3.0974) các hệ số 훽 bootstrap với cỡ mẫu ngẫu 3 Cỡ mẫu lấy lại cố 훽 (1.3645; 6.0832) nhiên có phân phối đều trên [푛/4; 푛]. 1 định bằng cỡ mẫu Khoảng ước lượng bootstrap với cỡ mẫu gốc 푛. 훽2 (3.9397; 4.2466) ngẫu nhiên của hệ số 훽3 với độ tin cậy 95% là (2.8223; 3.0974). 훽3 (2.8591; 3.0600) Ta bác bỏ các giả thuyết 훽1 = 0; 훽2 = Cỡ mẫu lấy lại cố 훽1 (0.7706; 6.7809) 0; 훽3 = 0; vì các khoảng ước lượng bootstrap định là nhỏ hơn với cỡ mẫu ngẫu nhiên của các hệ số này cỡ mẫu gốc 푛. 훽2 (3.9035; 4.2915) không chứa 0. 훽3 (2.8316; 3.0852) Cỡ mẫu lấy lại cố 훽1 (2.1015; 5.3848) định là = 2푛 lớn hơn cỡ mẫu 훽2 (3.9857; 4.2048) gốc 푛. 훽3 (2.8890; 3.0285) Cỡ mẫu lấy lại là 훽1 (1.8359; 5.1854) ngẫu nhiên sao cho có đúng ≈ 훽2 (3.9903; 4.2081) 푛(1 − 푒−1) phần 훽 (2.9003; 3.0438) tử phân biệt của 3 Hình 10. Đồ thị phân tán của các hệ số 훽푖 bootstrap với cỡ mẫu ngẫu nhiên có phân phối mẫu gốc. đều trên [푛/4; 푛]. Bảng 1. Khoảng tin cậy 95% của các hệ Để so sánh kết quả giữa các phương pháp hồi quy bootstrap. bootstrap, ta xác định hệ số hồi quy bootstrap III. KẾT LUẬN trong trường hợp cỡ mẫu lấy lại cố định bằng cỡ mẫu gốc 푛; hoặc bằng = [0.625푛] < 푛 Quá trình phân tích thực nghiệm đã minh hay bằng = 2푛 ; và trường hợp cỡ mẫu họa được cụ thể quá trình xác định khoảng tin bootstrap ngẫu nhiên sao cho mẫu lấy lại có cậy cho hệ số hồi quy cho mô hình hồi quy đúng ≈ 푛(1 − 푒−1) ≈ 0.632푛 phần tử bootstrap với cỡ mẫu cố định và trường hợp phân biệt của mẫu gốc. Tổng hợp các kết quả cỡ mẫu lấy lại là ngẫu nhiên. Trong bài báo từ quá trình phân tích số liệu ta có bảng 1, từ này, tác giả đã thực hiện được quá trình xác định hệ số hồi quy bootstrap thực nghiệm với
cỡ mẫu lấy lại là biến ngẫu nhiên có phân phối tiết kiệm thời gian hơn cho quá trình phân tích đều [푛/4; 푛]. Qua đó làm phong phú thêm các số liệu. phương pháp xác định các hệ số hồi quy Trong [11] N.V. Toản đã chỉ ra tốc độ hội bootstrap. tụ của xấp xỉ bootstrap của phân phối trung Kết quả phân tích thực nghiệm cho thấy bình mẫu với cỡ mẫu lấy lại là biến ngẫu nhiên nếu cỡ mẫu lấy lại tăng thì độ dài của khoảng 푛. Hướng nghiên cứu tiếp theo có thể thực ước lượng giảm. Tuy nhiên, khi cỡ mẫu gốc hiện việc xác định tốc độ hội tụ của xấp xỉ ban đầu là 푛 lớn nếu ta lấy cỡ mẫu lấy lại là bootstrap của phân phối ước lượng bình bằng cỡ mẫu gốc hoặc bằng = 2푛 thì số lần phương bé nhất trong mô hình hồi quy có cỡ lấy phần tử từ mẫu gốc khi lấy mẫu mẫu bootstrap cố định hay là biến ngẫu nhiên bootstrap là 푛 hay 2푛 sẽ rất lớn, làm tốn 푛. Biến ngẫu nhiên 푛 là số nguyên dương thời gian cho quá trình phân tích số liệu. thuộc [ , ] hoặc 푛 là số lần lấy phần tử từ Trường hợp cỡ mẫu lấy lại là biến ngẫu nhiên mẫu gốc cho đến khi xuất hiện ≈ 푛(1 − mà cụ thể là biến ngẫu nhiên có phân phối đều 푒−1) ≈ 0.632푛 phần tử phân biệt trong mẫu trên trên [푛/4; 푛] thì số lần lấy phần tử trung gốc. 1 푛 bình là ( ) = ( + 푛) = 0.625푛 sẽ 푛 2 4 TÀI LIỆU THAM KHẢO [1] Bradley Efron. Bootstrap method: Another look at the Jackknife. Ann. Statist. 7. (1979). [2] E. Mammen. Bootstrap, wild bootstrap, and asymptotic normality. Probab. Theory Relat. Fields 93, 439–455 (1992). [3] C. R. Rao, P.K. Pathak, and V. I. Koltchinskii. Bootstrap by sequential resampling. J. Statist. Plan. Inference 64. (1997). [4] Toan, N.V. On the asymptotic distribution of the bootstrap estimate with random resample size. Vietnam J. Math. 33:3, 261–270 (2005). [5] Toan, N.V. On weak convergence of the bootstrap empirical process with random resample size.Vietnam J. Math. 28:2, 153–158 (2000). [6] Toan, N.V. On Weak Convergence of the Bootstrap General Empirical Process with Random Resample Size. Vietnam J. Math, 42, 233–245 (2014). [7] D. A. Freedman. Bootstrap regression models. Ann. Statist. 9. (1981). [8] Toan, N.V. On bootstrapping regression and correlation models with random resample size. Vietnam J. Math, 37, 443–456 (2009). [9] Hữu, N.V and Dư, N.H. Phân tích thống kê và Dự báo. NXB ĐH Quốc Gia Hà Nội. (2003). [10] E. Mammen. When does bootstrap work. Springer-Verlag New York, Inc. (1992). [11] Toan, N.V. Rate of convergence in bootstrap approximations with random sample size. Acta Mathematica Vietnammica, 25. 161-179 (2000).
BÀI BÁO KHOA HỌC THỰC HIỆN CÔNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ Bài báo khoa học của học viên có xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn Bản tiếng Việt ©, TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH và TÁC GIẢ Bản quyền tác phẩm đã được bảo hộ bởi Luật xuất bản và Luật Sở hữu trí tuệ Việt Nam. Nghiêm cấm mọi hình thức xuất bản, sao chụp, phát tán nội dung khi chưa có sự đồng ý của tác giả và Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh. ĐỂ CÓ BÀI BÁO KHOA HỌC TỐT, CẦN CHUNG TAY BẢO VỆ TÁC QUYỀN! Thực hiện theo MTCL & KHTHMTCL Năm học 2017-2018 của Thư viện Trường Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh.