Bài giảng Thống kê

doc 172 trang phuongnguyen 2870
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Thống kê", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • docbai_giang_thong_ke.doc

Nội dung text: Bài giảng Thống kê

  1. ĐỀ CƯƠNG CHI TIẾT Chương 1 Phương pháp số tương đối và phương pháp chỉ số Chương 2 Ước lượng khoảng tin cậy Chương 3 Kiểm định giả thuyết Chương 4 Kiểm định phi tham số Chương 5 Phân tích phương sai (ANOVA) Chương 6 Phân tích hồi qui và tương quan Phân tích nhân tố, phân tích kết hợp, phân biệt phân biệt và phân tích Chương 7 Cross-tabulation Chương 8 Phân tích dãy số thời gian và dự báo Đáp số Phụ lục Các bảng giá trị phân phối Tài liệu tham khảo
  2. CHƯƠNG 1: PHƯƠNG PHÁP SỐ TƯƠNG ÐỐI VÀ PHƯƠNG PHÁP CHỈ SỐ I. PHƯƠNG PHÁP SỐ TƯƠNG ĐỐI 1. Số tương đối động thái 2. Số tương đối kế hoạch 3. Số tương đối kết cấu 4. Số tương đối cường độ 5. Số tương đối so sánh II. PHƯƠNG PHÁP CHỈ SỐ 1. Giới thiệu 2. Một số kí hiệu được dùng trong phương pháp chỉ số 3. Các loại chỉ số và cách tính 4. Hệ thống chỉ số 5. Chỉ số giá người tiêu thụ BÀI TẬP Trong thống kê có rất nhiều phương pháp phân tích tình hình họat động của một doanh nghiệp nói riêng và của các hiện tượng kinh tế xã hội nói chung. Trong phạm vi giáo trình này chúng tôi chỉ đề cập ba phương pháp thường sử dụng nhất trong họat động doanh nghiệp đó là phương pháp phân tích bằng số tương đối, phương pháp chỉ số và dự báo dựa vào dãy số thời gian. Vì tầm quan trọng của phương pháp dự báo dựa vào dãy số thời gian nên phương pháp này sẽ được trình bày trong chương 12. I. PHƯƠNG PHÁP SỐ TƯƠNG ĐỐI Top Mục đích của phương pháp này là so sánh hai chỉ tiêu cùng loại hay khác nhau nhưng có liên hệ nhau để đánh giá sự tăng lên hay giảm xuống của một chỉ tiêu nào đó qua thời gian, hoặc đánh giá mức độ hoàn thành kế họach của một doanh nghiệp hay các nhà quản trị muốn đánh giá một vấn đề nào đó ở hai thị trường khác nhau. Phương pháp số tương đối còn giúp ta nghiên cứu cơ cấu của một hiện tượng như cơ cấu ngành, cơ cấu doanh thu. Ngoài ra, số tương đối còn giữ bí mật cho số tuyệt đối, ví dụ ở Việt Nam tốc độ tăng GDP năm 1995 là ( 9%, nhưng thực tế ta không biết số tuyệt đối là bao nhiêu. Căn cứ vào nội dung và mục đích phân tích ta có 5 lọai số tương đối như sau: 1. Số tương đối động thái (lần, %) Top Số tương đối động thái (lần, %): là kết quả so sánh giữa hai mức độ của cùng một chỉ tiêu nào đó ở hai thời kỳ hay hai thời điểm khác nhau. Trong hai mức độ đó, mức độ ở tử số (y1) là mức độ cần nghiên cứu (hay còn gọi là mức độ kỳ báo cáo), và mức độ ở mẫu số (y0) là mức độ kỳ gốc (hay mức độ dùng làm cơ sở so sánh).
  3. Ví dụ: Số lượng gạo xuất khẩu của xí nghiệp A qua hai năm như sau: Năm 1998: 1000 tấn (y0) Năm 1999: 1400 tấn (y1) Số tương đối động thái: Vậy, số lượng gạo xuất khẩu của xí nghiệp A năm 1999 so với năm 1998 bằng 140% hay tăng 40%, cụ thể là tăng 400tấn (y1 - y0). Chú ý:  Nếu y0 cố định qua các năm khi so sánh ta có kỳ gốc cố định: dùng kỳ gốc cố định để so sánh một chỉ tiêu nào đó ở hai thời gian tương đối xa nhau. Ví dụ: ta ký hiệu y là doanh thu của một công ty qua 5 năm 1990-1995. Nếu chọn giá trị năm 1990 làm gốc ta có số tương đối động thái như sau:  Nếu y0 thay đổi theo kỳ nghiên cứu (thay đổi qua các năm) khi so sánh ta có kỳ gốc liên hoàn: dùng kỳ gốc liên hoàn để nói lên sự biến động của hiện tượng liên tiếp nhau qua các năm. Tương tự như ví dụ trên ta có: Trong thực tế phân tích cần kết hợp với tình hình thực tế của doanh nghiệp để nêu lý do tăng giảm của doanh thu (hay bất kỳ một chỉ tiêu nào khác), nói lên hướng phát huy hoặc khắc phục để doanh nghiệp hoạt động tốt hơn. Ứng dụng tính chất phân tích kỳ gốc liên hoàn ta có thể phân tích ảnh hưởng của một số nhân tố đến lợi nhuận doanh nghiệp qua hai năm (ví dụ năm 1999 so với năm 1998 hoặc năm 1999 so với kế họach năm 1999) trên cơ sở toán học như sau: Phân tích các nhân tố ảnh hưởng đến lợi nhuận (LN) công ty: Lợi nhuận năm 1999 so với năm 1998 trong một doanh nghiệp có thể ảnh hưởng bởi chênh lệch lợi nhuận tổng cộng từ doanh số bán , tỷ lệ lãi gộp , tỷ suất chi phí và tỷ suất thuế . Trong đó:
  4. Chú ý: cách tính tỷ lệ hoặc tỷ suất của chỉ tiêu nào thì bằng giá trị của chỉ tiêu đó chia cho doanh thu). Cách phân tích này đúng về mặt logic toán học, tuy nhiên trong thực tế bản thân doanh số bán trừ đi chi phí (hoặc doanh số mua) chính là lãi gộp ảnh hưởng đến lợi nhuận ròng của doanh nghiệp, lúc này nhân tố lãi gộp trong công thức trên gần như chưa hợp lý. 2. Số tương đối kế hoạch (%): Top Số tương đối kế hoạch (%): dùng để lập kế hoạch và đánh giá tình hình thực hiện kế hoạch của doanh nghiệp. 2.1) Số tương đối nhiệm vụ kế hoạch (KH): là việc lập kế họach cho một chỉ tiêu nào đó tăng hay giảm so với thực tế năm trước. 2.2 Số tương đối hoàn thành kế họach (HT): đánh giá xem doanh nghiệp thực tế hoàn thành bao nhiêu % so với kế họach đề ra cho chỉ tiêu trên. Ví dụ: Tình hình doanh thu của một công ty như sau:
  5. Số tương đối nhiệm vụ kế họach = Ġ = 130% vượt 30% Số tương đối hoàn thành kế họach = Ġ = 80,7% Nhận xét: Công ty đặt kế họach doanh thu năm 1999 khá cao so với thực tế năm 1998 là 30%, điều này có thể vượt quá khả năng của công ty nên năm 1999 công ty chỉ đạt được có 80,7% kế họach đề ra mà thôi.  Mối liên hệ giữa số tương đối động thái và số tương đối kế họach: số tương đối động thái bằng số tương đối nhiệm vụ kế họach nhân với số tương đối hoàn thành kế họach. Ví dụ: Trưởng phòng kế họach của một công ty cho biết rằng so với thực tế năm trước, kế họach năm nay sản lượng của công ty đưa ra tăng 10%. Nhưng thực tế thực hiện năm nay so với kế họach giảm 10%. Vậy thực tế năm nay so với thực tế năm trước về chỉ tiêu trên như thế nào? 3. Số tương đối kết cấu (%): Top Số tương đối kết cấu (%): dùng để xác định tỉ trọng của từng bộ phận cấu thành nên một tổng thể, chẳng hạn như kết cấu nam, nữ trong tổng công nhân trong một nhà máy, hoặc có bao nhiêu phần trăm doanh thu của sản phẩm A trong tổng doanh thu của công ty. Tổng tất cả các tỷ trọng của các bộ phận trong một tổng thể bằng 100%. Ví dụ: Trong công ty A có 500 công nhân, trong đó có 300 công nhân nam và 200 công nhân nữ:   Tỉ trọng nam trong tổng công nhân = Ġ x 100 (%) = 60%   Tỉ trọng nữ trong tổng công nhân = Ġ x 100 (%) = 40%
  6. Nhận xét: Trong tổng công nhân của công ty, nam chiếm 60% và nữ chiếm 40%. 4. Số tương đối cường độ: Top Số tương đối cường độ: là so sánh hai chỉ tiêu hoàn toàn khác nhau nhưng có liên hệ nhau, đơn vị tính của số tương đối cường độ là đơn vị kép, nó phụ thuộc vào đơn vị tính của tử số và mẫu số trong công thức tính. 5. Số tương đối so sánh (lần, %): Top Số tương đối so sánh (lần, %): là xác định tỉ lệ giữa các bộ phận trong tổng thể với nhau. Trở lại ví dụ về số công nhân của công ty A nói trên, ta so sánh tỉ lệ công nhân nam và tỉ lệ công nhân nữ. * Tỉ lệ công nhân nam so với công nhân nữ Ľ = 1,5lần = 150% Nghĩa là nam nhiều hơn nữ 50% * Tỉ lệ công nhân nữ so với công nhân nam Ľ = 0,66lần= 66,6% Nghĩa là nữ ít hơn nam 33,4%. Mặc dù cả hai tỉ lệ được tính ở trên có cùng số tuyệt đối là nam nhiều hơn nữ 100 người, nhưng có số tương đối khác nhau vì có gốc so sánh khác nhau. II. PHƯƠNG PHÁP CHỈ SỐ 1. Giới thiệu: Top Hiện nay, các nhà doanh nghiệp có thể nắm bắt thông tin trên nhiều phương tiện thông tin khác nhau, họ quan tâm đêïn giá cả (hoặc khối lượng sản phẩm) từng mặt hàng hay nhiều mặt hàng tăng lên hay giảm xuống qua thời gian trên một thị trường hay nhiều thị trường khác nhau. Những thông tin này được tính toán thông qua phương pháp chỉ số. Ngoài ra, phương pháp chỉ số còn giúp chúng ta phân tích cơ cấu biến động của các hiện tượng phức tạp. Vì vậy, trong thực tế đối tượng của phương pháp chỉ số là các hiện tượng kinh tế phức tạp bao gồm nhiều chỉ tiêu không cộng được với nhau. Chẳng hạn như dùng chỉ số nói lên biến động của toàn bộ sản phẩm công nghiệp. Trong phạm vi giáo trình này, các bạn sẽ được tiếp cận một cách đơn giản, dễ hiểu về phương pháp chỉ số. 2. Một số ký hiệu được dùng trong phương pháp chỉ số: Top
  7. 3. Các lọai chỉ số và cách tính: Top Căn cứ vào phạm vi tính toán có hai lọai chỉ số tương ứng với việc nghiên cứu hai lọai chỉ tiêu chất lượng và số lượng: 3.1 Chỉ số cá thể: là lọai chỉ số chỉ nghiên cứu sự biến động về một chỉ tiêu nào đó của từng đơn vị, từng phần tử của hiện tượng phức tạp. Ví dụ, chỉ số giá của một loại sản phẩm nào đó. · Chỉ số cá thể nghiên cứu sự biến động của giá: ip Trong đó p1 và p0 là giá cả kỳ nghiên cứu và kỳ gốc. · Chỉ số cá thể nghiên cứu sự biến động của khối lượng sản phẩm: iq Trong đó q1 và q0 là khối lượng sản phẩm kỳ nghiên cứu và kỳ gốc. Ví dụ: Có tình hình về số lượng gạo xuất khẩu và giá bán ở thị trường Châu Phi qua hai năm như sau: Năm 1998 1999 Số lượng xuất khẩu (tấn) 120.000 140.000 Giá bán (USD/tấn) 145 150 hay tăng về số tuyệt đối là (p1- p0) = 150 - 145 = 5 USD/tấn Như vậy, giá gạo xuất khẩu sang Châu Phi năm 1999 so với năm 1998 bằng 103% (tăng 3%) hay tăng 5 USD/tấn.
  8. hay tăng về số tuyệt đối là (q1- q0) = 2.000 tấn. Như vậy, lượng gạo xuất khẩu năm 1999 so với năm 1998 ở thị trường Châu Phi bằng 116,5% (tăng 16,5%) hay tăng 2000 tấn. 3.2 Chỉ số tổng hợp: là lọai chỉ số chỉ nghiên cứu sự biến động về một chỉ tiêu nào đó của nhiều đơn vị, nhiều phần tử của hiện tượng phức tạp. Ví dụ, nghiên cứu sự biến động về giá cả của tất cả các mặt hàng trên cùng một thị trường hay ở các thị trường khác nhau qua thời gian. Vì nghiên cứu tổng hợp nhiều sản phẩm có đơn vị tính khác nhau. Do đo,ï ta dùng một quyền số để qui đổi thành đơn vị tính chung và cộng lại được với nhau, quyền số này được cố định ở tử số và mẫu số trong khi tính toán. Thông thường, khi nghiên cứu chỉ tiêu chất lượng (p) thì quyền số là chỉ tiêu số lượng và được cố định ở kỳ báo cáo (q1), và khi nghiên cứu chỉ tiêu số lượng (q) thì quyền số là chỉ tiêu chất lượng và được cố định ở kỳ gốc (p0). Thông thường một chỉ tiêu chất lượng (hay khối lượng) có nhiều chỉ tiêu khối lượng (hay chất lượng) có liên quan, việc chọn chỉ tiêu nào để nghiên cứu là tùy thuộc vào mục đích nghiên cứu. Chẳng hạn, nếu muốn nghiên cứu về chi phí thì khối lượng sản phẩm có liên quan đến giá thành sản phẩm, còn nghiên cứu về doanh số thì khối lượng sản phẩm có liên quan đến giá bán của sản phẩm. · Chỉ số tổng hợp nghiên cứu sự biến động của giá: Ip Trong đó q1 là quyền số. Nhận xét về số tuyệt đối ta lấy tử số trừ đi mẫu số · Chỉ số tổng hợp nghiên cứu sự biến động của khối lượng sản phẩm:Iq Trong đó p0 là quyền số. Nhận xét về số tuyệt đối ta lấy tử số trừ đi mẫu số Ví dụ: Có tình hình tiêu thụ ba mặt hàng trên thị trường Y qua hai năm 1998 và 1999 (trong bảng). Hãy nghiên cứu sự biến động về giá và khối lượng tiêu thụ ba mặt hàng trên Tên Ðơn Lượng bán ra Giá đơn vị Doanh số tiêu thụ hàng vị tính (1000đ) 1998 1999 1998 1999 1998 1999 (p1q1) (q0) (q1) (p0) (p1) (p0 q0) A kg 1000 1100 5,0 4,5 5000 4950 B mét 2000 2400 3,0 2,4 6000 5760 C lít 4000 6000 4,0 4,0 16000 24000 · Nghiên cứu sự biến động về giá của ba mặt hàng:
  9. Về số tương đối: Về số tuyệt đối: 34710 - 36700 = -1990 (ngàn đồng) Nhận xét: Nhìn chung giá cả ba mặt hàng năm 1999 so 1998 bằng 94,5%, giảm 5,5% làm giảm giá trị tiêu thụ (hay doanh số tiêu thụ) một lượng là 1990 (ngàn đồng). · Nghiên cứu về sự biến động của khối lượng bán ra của ba mặt hàng: Về số tương đối: Về số tuyệt đối: 36760 - 27000 = 9700 (ngàn đồng) Nhận xét: Nhìn chung khối lượng bán ra ba mặt hàng năm 1999 so 1998 bằng 135,9%, tăng 35,9% làm tăng giá trị tiêu thụ một lượng là 9,7 triệu đồng. 3.3. Chỉ số trung bình tính từ chỉ số tổng hợp: · Chỉ số trung bình điều hòa về biến động của chỉ tiêu chất lượng: Trong trường hợp tài liệu chỉ cho giá trị ở kỳ báo cáo (p1q1) và chỉ số cá thể (ip). Ta có: · Chỉ số trung bình số học về biến động của chỉ tiêu khối lượng: Trong trường hợp tài liệu chỉ cho giá trị ở kỳ gốc (p0q0) và chỉ số cá thể (iq) Ta có: 3.4 Chỉ số không gian: là chỉ số so sánh các hiện tượng cùng loại nhưng qua các điều kiện không gian khác nhau. Ví dụ, nghiên cứu sự biến động về lượng bán ra và giá cả các mặt hàng ở hai thị trường - thành phố Hồ Chí Minh và Cần Thơ.
  10. · Chỉ số tổng hợp nghiên cứu sự biến động của chỉ tiêu chất lượng ở hai thị trường A và B: Trong đó: : Khối lượng sản phẩm cùng lọai của hai thị trường A và B · Chỉ số tổng hợp nghiên cứu sự biến động của chỉ tiêu khối lượng ở hai thị trường A và B: Trong trường hợp này có thể có các quyền số khác nhau là các chỉ tiêu chất lượng, chẳng hạn như giá cố định cho từng mặt hàng (pc) hoặc tính với giá trung bình từng mặt hàng ở hai thị trường Ĩ). Ví dụ: Trong bảng dưới đây là tình hình tiêu thụ hai mặt hàng X và Y tại hai chợ A và B trong một tuần. Hãy nghiên cứu sự biến động về giá cả và lượng bán ra của hai mặt hàng ở hai khu vực trên? Chợ A Chợ B Mặt Lượng bán Gía đơn vị Lượng bán Gía đơn vị hàng (kg) qA (đ) pA (kg) qB (đ) pB X 480 12000 520 10000 Y 300 10000 200 18000 · Chỉ số tổng hợp nghiên cứu sự biến động của giá cả hai mặt hàng ở hai chợ A và B: Ta có: Qx = qA + qB = 480 + 520 = 1000 kg QY = qA + qB = 300 + 200 = 500 kg Về số tuyệt đối: (17 x 106 ) - (19 x 106 ) = - 2 triệu đồng
  11. Nhận xét: Nói chung giá cả của hai mặt hàng ở chợ A thấp hơn chợ B là 10,5%, điều này làm giảm giá trị tiêu thụ chợ A so chợ B là hai triệu đồng. · Chỉ số tổng hợp nghiên cứu sự biến động của giá cả hai mặt hàng ở hai chợ A và B: Trong phần nghiên cứu này, ta sử dụng giá trung bình (tính bằng số trung bình số học gia quyền) của mỗi mặt hàng ở hai chợ làm quyền số chung. - Giá trung bình mặt hàng X: - Giá trung bình mặt hàng Y: · Chỉ số tổng hợp nghiên cứu sự biến động của lượng bán ra hai mặt hàng ở hai chợ A và B: Về số tuyệt đối: 9.220.800 đ - 8.339.200 đ = 881.600 đ Nhận xét: Nói chung, lượng tiêu thụ của hai mặt hàng ở chợ A cao hơn chợ B là 10,6%, điều này làm tăng giá trị tiêu thụ chợ A so chợ B lên 881.600 đồng. 4. Hệ thống chỉ số: Top 4.1 Hệ thống chỉ số liên hoàn hai nhân tố: Hệ thống chỉ số được thành lập trên cơ sở các phương trình kinh tế bằng cách kết hợp các chỉ số tổng hợp được tính riêng lẻ thành một hệ thống. Chỉ số phụ thuộc gọi là Chỉ số tòan bộ (Ipq) và các chỉ số độc lập gọi là các chỉ số nhân tố (Ip và Iq). Ví dụ: · Chỉ số giá trị tiêu thụ (hay doanh số bán) = Chỉ số giá bán x Chỉ số lượng tiêu thụ · Chỉ số tổng chi phí sản xuất = Chỉ số giá thành x Chỉ số khối lượng sản phẩm. Tổng quát: Ipq = Ip x Iq (1.15)
  12. Chú ý: Trong phần hệ thống chỉ số chúng tôi chỉ đề cập hệ thống chỉ số với các quyền số của chỉ số nhân tố có thời gian khác nhau. Ví dụ: Trở lại ví dụ ở phần 3 mục (b) của chương này về tình hình tiêu thụ 3 mặt hàng A, B và C trên một thị trường, ta sẽ nghiên cứu ảnh hưởng của giá bán và lượng bán ra đến doanh số bán của công ty. Theo hệ thống chỉ số ta có: Chỉ số doanh số bán = Chỉ số giá x Chỉ số lượng tiêu thụ Ipq = Ip x Iq Nhận xét về số tương đối: Nhận xét về số tuyệt đối: Nhận xét về số tương đối khi so với giá cả kỳ gốc:
  13. Nhận xét chung: Doanh số bán ra (hay giá trị tiêu thụ) năm 1995 so với năm 1994 ở thị trường Y tăng 29% hay tăng 7710 (ngàn đồng) là do ảnh hưởng của hai nhân tố: · Do giá cả các mặt hàng nói chung năm 1995 giảm 5% so với năm 1994 làm giảm giá trị tiêu thụ của thị trường Y là 1990 (ngàn đồng). · Do khối lượng các mặt hàng bán ra nói chung năm 1995 so năm 1994 tăng 36% làm tăng giá trị tiêu thụ của thị trường Y là 9700 (ngàn đồng). · Trong 29% tăng lên của giá trị tiêu thụ chủ yếu do lượng bán ra tăng 36%, còn giá cả nói chung làm giảm 7%. 4.2 Hệ thống chỉ số liên hoàn nhiều nhân tố: Trường hợp chỉ số toàn bộ bị ảnh hưởng bởi nhiều chỉ số nhân tố qua hai kỳ (kỳ báo cáo và kỳ gốc) ta có thể xây dựng hệ thống chỉ số liên hoàn bằng cách lần lượt thay đổi quyền số trong các chỉ số nhân tố khi nhân chúng lại với nhau. Cách chọn quyền số cho các chỉ số nhân tố theo nguyên tắc thông thường ở phần (4.1), nghĩa là nếu nghiên cứu biến động của chỉ tiêu chất lượng thì dùng quyền số là chỉ tiêu số lượng được cố định ở kỳ báo cáo, và ngược lại nghiên cứu biến động của chỉ tiêu số lượng thì dùng quyền số là chỉ tiêu chất lượng được cố định ở kỳ gốc. Ví dụ: Chi phí sản xuất của một công ty qua hai năm 1996-1997 ảnh hưởng bởi giá thành sản xuất một sản phẩm (z) và khối lượng sản phẩm sản xuất ra (q). Trong đó, khối lượng sản phẩm sản xuất ra lại phụ thuộc vào năng suất lao động một công nhân (n) và số công nhân sản xuất trực tiếp trong công ty (s). Tùy theo cách sắp xếp của các chỉ số nhân tố theo thứ tự ưu tiên cho chỉ tiêu số lượng hay chất lượng được triển khai theo nguyên tắc toán học, ta có thể sử dụng một trong hai công thức tổng quát sau đây: Các công thức nhận xét về số tuyệt đối được thành lập giống như trong phần (4.1), ta lấy tử số trừ đi mẫu số rồi cộng lại với nhau. Trở lại ví dụ về chi phí sản xuất, ta có hệ thống chỉ số ảnh hưởng bởi ba nhân tố - giá thành (z), năng suất lao động (n) và số lượng công nhân (s) như sau:
  14. 5. Chỉ số giá người tiêu thụ (CPI): (Cïonsumers price indexes) Top Một ứng dụng quan trọng của phương pháp chỉ số là sử dụng chỉ số giá cả. Khi xây dựng chỉ số giá cả cần phải xác định những nhóm sản phẩm nào có tầm quan trọng đối với túi tiền của người tiêu thụ. Cục thống kê là cơ quan có chức năng lập danh mục các sản phẩm được chọn để ước lượng biến động của giá cả thị trường qua thời gian và thường xuyên tổ chức điều tra để theo dõi và tính toán sự biến động của giá. Chỉ số giá cả quan trọng nhất là chỉ số giá người tiêu thụ (CPI)û. Chỉ số này dùng để đánh giá ảnh hưởng của biến động giá cả trên thu nhập của người tiêu thụ, và cũng là chỉ tiêu để đo lường lạm phát (inflation), đồng lương thật (real wage) hay thu nhập thật (real income). Có hai loại chỉ số giá người tiêu thụ: 5.1 Chỉ số Laspeyres: Chỉ số Laspeyres được thể hiện qua công thức sau: Trong đó pn và p0 là giá tại thời điểm n và thời điểm gốc; q0 là lượng sản phẩm tiêu thụ trung bình ở thời điểm gốc, và q0 thường được đo lường qua điều tra chọn mẫu và là lượng sản phẩm tiêu thụ trung bình của một hộ gia đình trên một đơn vị thời gian. Như vậy, để đo lường biến động của giá, lượng sản phẩm được dùng như là gia trọng (quyền số) phản ánh mức độ quan trọng của sản phẩm đó đến túi tiền của người tiêu thụ. Ví dụ: Có tình hình giá cả và lượng tiêu thụ bốn mặt hàng của một hộ gia đình/tháng qua hai năm 1998-1999 như trong bảng sau: Sản phẩm Giá Lượng tiêu Chi tiêu thụ (kg) (1000đ/kg) (1000đ) 1998 1999 1998 1998 1999 1. Thịt bò 24,0 27,0 5,0 120,0 135,0 2. Sườn heo 18,0 18,4 2,0 36,0 36,8 3. Cá thu 22,4 19,8 1,0 22,4 19,8 4. Thịt gà 10,2 11,4 4,0 40,8 45,6 Tổng cộng 219,2 237,2
  15. Như vậy, năm 1999 giá cả bốn mặt hàng nói chung tăng 8% so với năm 1998 (hay chỉ số giá tiêu dùng của bốn mặt hàng nói chung tăng 8% qua hai năm 1998-1999). Cần chú ý rằng chi tiêu của hộ gia đình tăng lên là do lạm phát (trượt giá) chứ không phải do lượng tiêu dùng thật sự tăng (hoặc sự tăng lên của chất lượng thực phẩm do thay đổi cơ cấu thức ăn). 5.2 Chỉ số Peasche: Ngược lại với chỉ số Laspeyres, chỉ số Peasche chọn lượng sản phẩm tiêu thụ ở thời điểm n làm quyền số. Chúng ta biết rằng thói quen tiêu thụ và thị hiếu của người tiêu dùng thay đổi với thời gian. Một loại sản phẩm có thể được dùng thịnh hành cách đây 10 năm nhưng hiện nay không còn quan trọng nữa. Vì vậy, để phản ánh đúng những biến động trong thói quen tiêu dùng (hay thói quen tiêu dùng của khách hàng thay đổi theo xu hướng nào để các công ty có thể đáp ứng đúng thị hiếu thay đổi đó), việc chọn lượng sản phẩm qn ở thời điểm nào là rất quan trọng, chính điều này chỉ số Peasche được ứng dụng nhiều trong thực tế. Trở lại ví dụ trên, trong năm 1999 nếu lượng cá thu tiêu thụ/tháng của hộ gia đình giảm còn 0,5kg và thịt gà tăng lên 4,5kg/tháng thì: Lúc này chỉ số giá trở thành: Nhận xét: Chỉ số giá của bốn mặt hàng nói chung tăng 9% qua hai năm 1998-1999. Sự tăng lên này bao gồm cả việc tăng do cơ cấu lượng thức ăn thay đổi, chất lượng thức ăn cũng thay đổi theo chứ không đơn thuần chỉ do nguyên nhân giá tăng lên. BÀI TẬP Top 1. Có tài liệu về tình hình sản xuất của một công ty qua hai năm như sau: 1. Hãy xác định sự biến động về giá thành và khối lượng chung của cả hai lọai sản phẩm của công ty?
  16. 2. Phân tích sự thay đổi tổng chi phí sản xuất của công ty trong hai năm 1998 và 1999? 2. Tại công ty thương nghiệp của một thành phố, công ty này kinh doanh 5 mặt hàng thiết yếu cung ứng cho thị trường này, doanh thu qua hai năm 1998 và 1999 như trong bảng dưới đây: Hãy phân tích sự biến động doanh thu của cả 5 mặt hàng nói trên của công ty qua hai năm biết rằng giá cả năm 1999 so với năm 1998: đường tăng 16%, xà phòng bột tăng không đáng kể, bột ngọt tăng 10%, quần áo may sẳn giảm 8% và bánh kẹo tăng 12%. 3. Có tài liệu về tổng giá trị sản lượng của các xí nghiệp thuộc tổng công ty X qua hai năm 1998- 1999 như trong bảng sau. Hãy tính: 1. Số tương đối nhiệm vụ kế hoạch của mỗi xí nghiệp và của tổng công ty? 2. Số tương đối hoàn thành kế hoạch của mỗi xí nghiệp và của tổng công ty? 3. Số tương đối động thái của mỗi xí nghiệp và của tổng công ty? Trình bày các kết quả tính toán được thành bảng thống kê. Tổng giá trị sản lượng (nghìn đồng) Tên xí nghiệp 1998 1999 Thực tế Kế hoạch Thực tế A 4.300 4.500 6.150 B 10.600 12.000 14.200 C 5.000 5.500 4.300 D 1.200 1.300 1.310 Cộng 21.100 23.300 25.960 4. 1. Kế hoạch của một xí nghiệp dự kiến hạ giá thành đơn vị sản phẩm 5% so với kỳ gốc. Thực tế so với kỳ gốc giá thành đơn vị sản phẩm đã giảm 7%. Hãy tính số tương đối hoàn thành kế hoạch giảm giá thành?
  17. 2. Kế hoạch của xí nghiệp dự kiến giảm lượng thời gian hao phí để sản xuất một đơn vị sản phẩm là 4% so với kỳ gốc. Thực tế so với kỳ gốc lượng thời gian hao phí để sản xuất một đơn vị sản phẩm tăng 2%. Hãy tính số tương đối hoàn thành kế hoạch về chỉ tiêu nói trên? 3. Kế hoạch của xí nghiệp dự kiến tăng tổng giá trị sản lượng 8% so với kỳ gốc. Thực tế so với kỳ gốc tổng giá trị sản lượng đã tăng 12%. Hãy tính số tương đối hoàn thành kế hoạch về chỉ tiêu nói trên? 18. Diện tích đất đai của một tỉnh là 4.000 km2, dân số trung bình trong năm 1999 là 808.000 người. Cũng trong năm 1999 các cơ quan hành chánh của tỉnh đã đăng ký khai sinh 40.400 người và khai tử 9.696 người. Hãy tính: 1. Mật độ dân số của tỉnh? 2. Hệ số sinh, hệ số chết và hệ số tăng tự nhiên của nhân khẩu trong tỉnh? 5. Có tài liệu về chi phí sản xuất trong tháng 12-1999 của một xí nghiệp như sau: Ðvt: 1000 đồng Các khoản chi phí Kế hoạch Thực tế Nguyên, nhiên, vật liệu 1.000 1.400 Khấu hao tài sản cố định 100 130 Tiền lương 600 900 Quản lý xí nghiệp 300 450 Cộng 2.000 2.880 Biết thêm rằng sản lượng kế hoạch là 200 tấn và thực hiện được 300 tấn. Yêu cầu: 1. Tính số tương đối hoàn thành kế hoạch giảm giá thành đơn vị sản phẩm của xí nghiệp? 2. Chỉ rõ các nguyên nhân chính đã làm cho giá thành thực tế đơn vị sản phẩm giảm so với kế hoạch? 6. Tốc độ phát triển doanh thu của một công ty năm 1995 so với năm 1990 là 2,2 lần. Nhiệm vụ kế hoạch năm 2000 so với năm 1990 phải phát triển chỉ tiêu này lên 4,4 lần. Hãy tính xem tốc độ phát triển trung bình hàng năm từ 1995 đến năm 2000 phải là bao nhiêu để hoàn thành kế hoạch đó? 7. Có các tài liệu về doanh thu tiêu thụ của ba loại hàng như sau: Tên hàng Mức tiêu thụ hàng hóa Chỉ số cá thể (%) (1000đ)
  18. Kỳ gốc Kỳ báo cáo giá cả lượng tiêu thụ A 300 300 100,0 100,0 B 250 420 93,3 180,0 C 450 780 86,6 200,0 Hãy tính: 1. Chỉ số chung về giá cả? 2. Chỉ số chung về lượng hàng hóa tiêu thụ? 3. Ảnh hưởng của thay đổi giá cả và lượng hàng hóa tiêu thụ đối với sự thay đổi mức tiêu thụ hàng hóa chung? 8. Có tài liệu như trong bảng dưới đây. Hãy tính: 1. Chỉ số chung về giá thành? 2. Chỉ số chung về khối lượng sản phẩm, biết thêm rằng chi phí sản xuất kỳ báo cáo tăng 7% so với kỳ gốc? Sản phẩm Tỷ trọng chi phí sản xuất Tỷ lệ tăng (+) giảm (-) giá kỳ báo cáo (%) thành so với kỳ gốc (%) A 38,0 -5 B 23,5 -6 C 13,8 -8 D 19,6 -2 E 5,1 +2
  19. CHƯƠNG 2: ƯỚC LƯỢNG KHOẢNG TIN CẬY (Confidence Interval Estimation) I. KHÁI NIỆM II. ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO TRUNG BÌNH TỔNG THỂ (KHI BIẾT PHƯƠNG SAI) III. ƯỚC LƯỢNG KHOẢNG TIN CẬY CỦA TRUNG BÌNH TỔNG THỂ (KHI CHƯA BIẾT PHƯƠNG SAI TỔNG THỂ) IV. ƯỚC LƯỢNG KHOÀNG TIN CẬY CHO TỶ LỆ P TỔNG THỂ: TRƯỜNG HỢP MẪU LỚN V. ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO SỰ KHÁC BIỆT GIỮA TRUNG BÌNH CỦA HAI TỔNG THỂ 1. Ước lượng khoảng tin cậy dựa trên sự phối hợp từng cặp 2. Ước lượng khoảng tin cậy dựa vào mẫu độc lập của phương sai khác nhau 3. Ước lượng khoảng tin cậy dựa vào mẫu độc lập có phương sai bằng nhau VI. ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO SỰ KHÁC BIỆT GIỮA HAI TỶ LỆ TỔNG THỂ VII. ƯỚC LƯỢNG CỞ MẪU 1. Cở mẫu cho những khoảng tin cậy của trung bình tổng thể có phân phối chuẩn khi biết phương sai 2. Cở mẫu cho những khoảng tin cậy của tỉ lệ tổng thể BÀI TẬP I. KHÁI NIỆM Top Khoảng tin cậy là một dãy giá trị mà trong đó các tham số của tổng thể như số trung bình ((), tỉ lệ (p) và phương sai ((2) cần được ước lượng nằm trong khoảng này. Ứơc lượng khoảng tin cậy là một hình thức dự báo trong thống kê, một chỉ tiêu kinh tế nào đó có thể được ước lượng tại một điểm nào đó (dự báo điểm) hay nằm trong một khoảng nào đó (dự báo khoảng) với độ tin cậy cho trước. Ví dụ: Với độ tin cậy 90%, một mẫu gồm 16 quan sát có trung bình từ một tổng thể có phân phối chuẩn với độ lệch chuẩn  = 6 thì trung bình tổng thể ( có giá trị trong khoảng từ 17,4675 đến 22,5325. Khoảng tin cậy cho trung bình tổng thể được ước lượng dựa vào giá trị được quan sát của trung bình mẫu. Ðặt ( là một tham số chưa biết của tổng thể. Giả sử rằng chúng ta dựa vào thông tin của mẫu quan sát, tìm những biến ngẫu nhiên A và B sao cho: P ( A <  < B ) = 1 - trong đó (1 - () là độ tin cậy (level of confidence) và 100 (1 - ()% là khoảng tin cậy cho (, khoảng này sẽ chứa các tham số của tổng thể.
  20. II. ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO TRUNG BÌNH TỔNG THỂ (khi biết phương sai 2 ) Top Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n quan sát từ một phân phối chuẩn với trung bình ( và phương sai (2, và trung bình mẫu là Ġ. Một khoảng tin cậy 100 (1- ()% cho trung bình tổng thể ( được xác định như sau: Trong đóĠ là một số sao cho P ( Z ľ) = P ( Z < ĭ) Ľ và biến ngẫu nhiên Z có phân phối chuẩn tắc:Ġ Ví dụ: Một qui trình sản xuất đường tinh chế. Trọng lượng của những bao đường có phân phối chuẩn với độ lệch chuẩn 1,2kg. Một mẫu ngẫu nhiên gồm 25 bao có trọng lượng trung bình mỗi bao 19,8 kg. Tìm khoảng tin cậy 95% cho trọng lượng trung bình tổng thể được sản xuất bởi qui trình. Bảng tra phân phối chuẩn Z được tóm tắt như sau: 0,005 0,01 0,025 0,05 0,1 Z 2,575 2,33 1,96 1,645 1,28
  21. · Khoảng tin cậy 95% cho trung bình tổng thể là: Vậy, khoảng tin cậy 95% cho trọng lượng trung bình của tất cả các bao đường của qui trình sản xuất nằm trong khoảng từ 19,33kg đến 20,27kg. Như ta mong đợi, trung bình mẫuĠlà điểm giữa của khoảng chứa đựng (, thì khoảng rộng w chứa đựng tham số sẽ là: Chú ý: 1. Nếu (1 - () và ( không thay đổi, n càng lớn dẫn đến khoảng tin cậy càng hẹp cho trung bình tổng thể (, nghĩa là việc ước lượng ( càng chính xác hơn. 2. Nếu (1 - () và n cố định, độ lệch chuẩn ( càng lớn thì khoảng tin cậy càng rộng cho (, càng không chắc chắn hay không chính xác cho ước lượng (. 3. Nếu n và ( cố định, (1 - () càng lớn thì khoảng tin cậy càng rộng, dẫn đến ( sẽ rơi vào khoảng giá trị lớn hơn, ước lượng khó chính xác hơn. Cụ thể:
  22. Trong trường hợp mẫu quan sát lớn, ta có thể sử dụng công thức (6.1) để tính khoảng tin cậy cho tham số (tổng thể nhưng thay độ lệch chuẩn của tổng thể ( bằng độ lệch chuẩn của mẫu (Sx): Ví dụ: Một mẫu ngẫu nhiên gồm 1562 sinh viên ghi danh học môn Marketing đã được hỏi để trả lời trong phạm vi từ 1 (không đồng ý) đến 7 (hoàn toàn đồng ý) với câu nói: Hầu hết các quảng cáo đều đánh lừa sự thông minh của khách hàng Ðiểm trả lời có trung bình mẫu là 3,92 và độ lệch chuẩn là 1,57. Tìm một khoảng tin cậy 99% cho trung bình tổng thể. Xuất phát từ công thức : Ta có: ĉ= 3,92 ; Sx= 1,57 ; n =1562 (1 - ) = 99% Þ = 1% /2 = 0,5% = 0,005 Tra bảng trang 76 ta có: Z0,5% = 2,575 3,82 <  < 4,02 Như vậy, khoảng tin cậy 99% cho trung bình sự trả lời của sinh viên nằm trong khoảng từ 3,82 đến 4,02, nghĩa là sinh viên có xu hướng đồng ý câu nói trên. III. ƯỚC LƯỢNG KHOẢNG TIN CẬY CỦA TRUNG BÌNH TỔNG THỂ ( khi chưa biết phương sai Top tổng thể) (mẫu nhỏ) Trong trường hợp chưa biết phương sai tổng thể ((2), ta có thể sử dụng biến ngẫu nhiên t với (n -1) độ tự do của phân phối Student thay cho biến ngẫu nhiên Z và tính giống như trong trường hợp biết phương sai (2 nhưng thay độ lệch chuẩn tổng thể bằng độ lệch chuẩn mẫu. Các điều kiện khác và giả sử giống như phần (II). Ta có:ĉĉ và khoảng tin cậy 100 ( 1- () % cho ( được tính như sau:
  23. (2.3) Trong đóĠ là một số sao cho P Ĩľ) =Ġ Ví dụ: Một mẫu ngẫu nhiên gồm 6 kiện hàng được chọn ra từ tất cả các kiện hàng được sản xuất bởi nhà máy trong một tuần. Trọng lượng của 6 kiện hàng lần lượt như sau (kg): 18,6 18,4 19,2 20,8 19,4 20,5 Tìm khoảng tin cậy 90% cho trọng lượng trung bình tổng thể của tất cả các kiện hàng của nhà máy, giả sử phân phối của tổng thể là phân phối chuẩn. Kiện hàng Trọng lượng (kg) 2 (i) (xi) (xi ) 1 18,6 345,96 2 18,4 338,56 3 19,2 368,64 4 20,8 432,64 5 19,4 376,36 6 20,5 420,25 Tổng cộng 116,9 2282,41 Từ dữ liệu bảng trên tính được:ĉ Ľ 19,4833Ġ = 0,96 vàĠ(tn-1,(/2 Ľ: giá trị tra bảng phân phối Student t. Vậy: ĉ 18,67 <  < 20,29 Vì vậy, khoảng tin cậy 90% cho trọng lượng trung bình của tất cả các kiện hàng nằm trong khoảng từ 18,67 kg đến 20,29kg. Chú ý: Trong điều kiện như nhau, nếu khoảng tin cậy (KTC) càng lớn thì khoảng ước lượng giá trị càng lớn, càng kém chính xác.
  24. IV. ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO TỶ LỆ P TỔNG THỂ: trường hợp mẫu lớn Top ÐặtĠ là tỉ lệ được quan sát của mẫu ngẫu nhiên gồm n quan sát từ một tổng thể. Khoảng tin cậy 100 (1-() % cho tỉ lệ p của tổng thể được tính bởi: (2.4) Trong đó Z(/2 là một số sao cho: · Nếu tất cả các điều kiện khác không thay đổi, n càng lớn thì khoảng chứa đựng p càng hẹp, ước lượng càng chính xác hơn. · Nếu tất cả các điều kiện khác không thay đổi, khoảng tin cậy càng lớn thì khoảng biến thiên giữa hai giá trị ước lượng của p càng lớn, ứơc lượng khó chính xác. Ví dụ: Một mẫu ngẫu nhiên gồm 73 lãnh đạo ngân hàng được hỏi câu hỏi sau: Trong mỗi ngành thường phải chấp nhận những rủi ro trong kinh doanh. Vậy, ngân hàng của bạn có bất kỳ thực tế nào mà bạn xem như không đúng nguyên tắc, nội qui và đạo lý. Kết quả có 39 câu trả lời không. Tìm khoảng tin cậy 95% cho tỉ lệ tổng thể những lãnh đạo ngân hàng trả lời không. Vì vậy, khoảng tin cậy 95% cho phần trăm của tất cả các lãnh đạo ngân hàng nói chung nhận thấy trong ngành của mình không có những rủi ro trong kinh doanh do không làm đúng nguyên tắc và đạo lý là khoảng từ 42% đến 64,8%. V. ƯỚC LƯỢNG KHOẢNG TIN CẬY CHO SỰ KHÁC BIỆT GIỮA TRUNG BÌNH CỦA HAI TỔNG THỂ 1. Ước lượng khoảng tin cậy dựa trên sự phối hợp từng cặp: (Matched pair) Top Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n cặp quan sát từ những phân phối với trung bình (x và (y. ÐặtĠ và Sd là trung bình và độ lệch chuẩn của n sự khác biệt di= xi - yi. Nếu phân phối của những khác biệt này là phân phối chuẩn thì · Khoảng tin cậy 100 (1 - () % cho ((x - (y) được tính như sau: (2.4)
  25. Trong đóĠlà một số sao cho P Ĩľ) =Ġ Ví dụ: Trọng lượng của các kiện hàng (kg) được sản xuất bởi hai phân xưởng trong một nhà máy được cho trong bảng dưới đây: Bảng 2.1: Kiện hàng Phân xưởng A Phân xưởng B 2 (i) (xi: kg) (yi: kg) di = xi - yi di 1 19,4 19,6 - 0,2 0,04 2 18,8 17,5 1,3 1,69 3 20,6 18,4 2,2 4,84 4 17,6 17,5 0,1 0,01 5 19,2 18,0 1,2 1,44 6 20,9 20,0 0,9 0,81 7 18,3 18,8 - 0,5 0,25 8 20,4 19,2 1,2 1,44 Tổng cộng 6,2 10,52 = 0,775 = 0,816 và Ġ t n-1, (/2 = t 7, 0,5% = 3,499 Khoảng tin cậy 99% cho ((x - (y): - 0,342 < x - y < 1,892 Vì vậy, khoảng tin cậy 99% cho sự chênh lệch trọng lượng trung bình tổng thể của mỗi kiện hàng được sản xuất từ hai phân xưởng nằm trong khoảng - 0,342 kg đến 1,892 kg. Khoảng này chứa đựng giá trị 0, điều này cho ta đoán rằng có sự bằng nhau về trọng lượng trung bình mỗi kiện hàng được sản xuất từ hai phân xưởng. 2. Ước lượng khoảng tin cậy dựa vào mẫu độc lập có phương sai khác nhau: (Independent samples) Top Giả sử có hai mẫu ngẫu nhiên độc lập có nx và ny quan sát từ những phân phối chuẩn có trung bình (x và (y và phương sai (x2 và (y2 . Nếu trung bình mẫu làĠ vàĠ thì khoảng tin cậy 100 (1 - () % cho ( (x - (y) được tính:
  26. (2.5) Trong đóĠ là một số sao cho P ( Z ľ) =Ġ Ví dụ: Một mẫu ngẫu nhiên gồm 96 người hút thuốc lá, lượng giờ trung bình của những người nghỉ việc không có lý do là 2,15 giờ trong tháng và độ lệch chuẩn là 2,09 giờ/ tháng. Một mẫu ngẫu nhiên độc lập khác gồm 206 người không hút thuốc lá, lượng giờ trung bình của những người nghỉ việc là 1,69 giờ/tháng, độ lệch chuẩn của mẫu là 1,91 giờ/ tháng. Tìm khoảng tin cậy 99% cho sự khác biệt của hai trung bình tổng thể. Trong khoảng từ - 0,19 đến 1,11 chứa giá trị 0, có nghĩa là những bằng chứng trong tài liệu không đủ mạnh để bác bỏ sự phán đoán rằng số người nghỉ việc trung bình của cả hai nhóm người này là bằng nhau. 3. Ước lượng khoảng tin cậy dựa vào mẫu độc lập có phương sai bằng nhau: Top Ví dụ: Một nghiên cứu về hiệu quả trong việc hoạch định tài chánh của ngân hàng. Một mẫu ngẫu nhiên gồm 6 nhà hoạch định cho rằng tốc độ tăng thu nhập trung bình hàng năm là 9,972% và độ lệch chuẩn là 7,470. Một mẫu ngẫu nhiên độc lập gồm 9 ngân hàng không có hệ thống hoạch định chính thức có tốc độ tăng thu nhập trung bình hàng năm là 2,098% và độ lêch chuẩn là 10,834. Giả sử rằng hai phân phối tổng thể có cùng phương sai, tìm khoảng tin cậy 90% cho sự khác biệt giữa hai trung bình. Ta có:
  27. Thay vào công thức trên ta có: -1,161 Z(/2 ) =Ġ Ví dụ: Một mẫu ngẫu nhiên gồm 98 kế toán viên, trong đó 48 người đồng ý rằng Mỗi một chương trình kế toán nên có một phần mềm ứng dụng riêng biệt và đó cũng là đòi hỏi của tất cả kế toán viên. Một mẫu ngẫu nhiên độc lập gồm 127 giáo viên kế toán, 21 người đồng ý với điều này. Tìm khoảng tin cậy 95% cho sự khác biệt giữa hai tỉ lệ của tổng thể những người sẽ đồng ý với luận điểm trên. Kết luận: Sự thật rằng khoảng 20,7% đến 44,3% đồng ý với yêu cầu trên nhưng những nhà kế toán thích có một phần mềm ứng dụng riêng biệt hơn là các giáo viên. VII. ƯỚC LƯỢNG CỞ MẪU (Estimating the sample size) Top
  28. Chúng ta đã phát triển những phương pháp để tìm khoảng tin cậy cho một tham số của tổng thể trên cơ sở thông tin của mẫu. Theo một tiến trình như vậy, một nhà điều tra có thể tin rằng nếu khoảng tin cậy mang lại kết quả quá rộng thì phản ánh một điều không mong muốn, bởi vì nó không chắc chắn cho tham số đang được ước lượng. Một cách điển hình, chỉ có một hướng để đạt được khoảng hẹp hơn với độ tin cậy cao hơn là tăng số quan sát hay tăng cỡ mẫu (n lớn hơn). Trong một số trường hợp, các nhà điều tra có thể cố định trước độ rộng của khoảng tin cậy, chọn n vừa đủ lớn để đảm bảo độ rộng đó. Vậy làm thế nào cỡ mẫu có thể được chọn theo hướng này cho hai vấn đề ước lượng khoảng. 1. Cỡ mẫu cho những khoảng tin cậy của trung bình tổng thể có phân phối chuẩn khi biết phương sai: Top Xuất phát từ công thức (2.1):Ġ . Giả sử rằng một mẫu ngẫu nhiên gồm n quan sát từ một phân phối chuẩn có trung bình ( và phương sai (2. Một khoảng tin cậy 100 (1 - ()% cho trung bình tổng thể và một khoảng cách L =Ġ cho mỗi bên của trung bình mẫu thì số quan sát (cỡ mẫu) là : (2.8) Trong đó: Z(/2 là một số sao cho P ( Z > Z(/2 ) =Ġvà Z có một phân phối chuẩn tắc. Ví dụ : Chiều dài của những que kim loại được sản xuất bởi một qui trình công nghệ cao có phân phối chuẩn với độ lệch chuẩn là 1,8mm. Một mẫu ngẫu nhiên gồm 9 quan sát từ tổng thể này, khoảng tin cậy 99% cho ước lượng trung bình tổng thể là 194,65 < ( < 197,75 thì được tìm ra cho chiều dài trung bình tổng thể. Giả sử một quản đốc sản xuất thì tin rằng khoảng cách thì quá rộng cho việc sử dụng thực tế và yêu cầu thay thế một khoảng tin cậy 99% không được mở rộng hơn 0,5mm cho mỗi bên của trung bình mẫu. Hãy tìm cỡ mẫu để đạt được khoảng cách như vậy? Ta có: L = 0,5 ( = 1,8 Z(/2 = Z0,5% = 2,575 Vì vậy, để thỏa mãn yêu cầu của quản đốc phân xưởng chúng ta cần một cỡ mẫu ít nhất phải là 86 quan sát. Tuy nhiên, trong thực tế sự tăng lên trong cỡ mẫu thì yêu cầu chi phí cao hơn để đạt được sự ước lượng cho trung bình tổng thể có khoảng tin cậy hẹp hơn. 2. Cỡ mẫu cho những khoảng tin cậy của tỉ lệ tổng thể: Top Xuất phát từ công thức: Giả sử rằng một mẫu ngẫu nhiên gồm n quan sát, một khoảng tin cậy 100 (1- ()% cho tỉ lệ tổng thể p được cho bởi công thức trên và khoảng cách cho mỗi bên của tỉ lệ mẫu là : Tuy nhiên tỉ lệĠ không thể được lớn hơn 0,25 (giá trị khi tỉ lệ mẫu là 0,5). Vì vậy, giá trị có thể lớn nhất cho L là
  29. Nếu sau đó một nhà điều tra muốn chọn một cỡ mẫu lớn hơn có ý nghĩa cho việc bảo đảm khoảng tin cậy không rộng hơn khoảng cách L* cho mỗi bên của tỉ lệ mẫu. Ví dụ: Trở lại ví dụ về những nhà lãnh đạo ngân hàng trả lời không về việc chấp nhận những thực tế trong kinh doanh dựa trên 73 quan sát và chúng ta đã tính khoảng tin cậy 95% cho tỉ lệ của tổng thể là: 0,42 < p < 0,648 Giả sử chúng ta muốn chắc chắn một khoảng tin cậy 95% cho tỉ lệ tổng thể không lớn hơn 0,06 cho mỗi bên của tỉ lệ mẫu thì cỡ mẫu của chúng ta sẽ là bao nhiêu? Vậy để chắc chắn đạt được khoảng tin cậy hẹp hơn, ít nhất chúng ta phải chọn n = 267. BÀI TẬP Top 1. Một quá trình sản xuất gạch, trọng lượng những viên gạch nầy được giả sử có phân phối chuẩn có độ lệch chuẩn 0,12kg. Một mẫu ngẫu nhiên gồm 16 viên gạch vừa sản xuất ra trong ngày có trọng lượng trung bình 4,07kg. a. Tìm khoảng tin cậy 99% của trọng lượng trung bình của tất cả các viên gạch trong ngày? b. Không cần tính toán, khoảng tin cậy 95% thì trung bình tổng thể sẽ rộng hơn, hẹp hơn hay bằng với kết quả câu a? c. Không cần tính toán, một mẫu ngẫu nhiên gồm 20 viên gạch sẽ được chọn ra trong ngày mai. Khoảng tin cậy 99% thì trọng lượng trung bình tổng thể của tất cả các viên gạch sản xuất ra trong ngày mai sẽ lớn hơn, nhỏ hơn hay bằng như trong câu a? d. Sự thật rằng, độ lệch chuẩn của các viên gạch sản xuất trong ngày mai là 0,15kg, không cần tính toán, khoảng tin cậy 99% thì trọng lượng trung bình tổng thể của tất cả các viên gạch sản xuất ra trong ngày mai sẽ rộng hơn, hẹp hơn hay bằng như trong câu a? 2. Một quản đốc biết rằng lượng tạp chất trong các kiện sản phẩm có phân phối chuẩn với độ lệch chuẩn bằng 3,8 g. Một mẫu ngẫu nhiên gồm 9 kiện hàng được kiểm tra và thấy lượng tạp chất như sau (g): 18,2 13,7 15,9 17,4 21,8 16,6 12,3 18,8 16,2 a. Tìm khoảng tin cậy 90% cho trọng lượng trung bình của tạp chất trong tổng thể?
  30. b. Không cần tính toán, nếu khoảng tin cậy 95% thì trung bình tổng thể sẽ rộng hơn, hẹp hơn hay bằng như trong câu a? 3. Một trường đại học lớn đang quan tâm về lượng thời gian sinh viên tự nghiên cứu mỗi tuần. Một mẫu ngẫu nhiên gồm 16 sinh viên, có thời gian nghiên cứu trung bình 18,36 giờ/tuần và độ lệch chuẩn là 3,92 giờ. Giả sử rằng thời gian nghiên cứu của sinh viên trong mẫu nghiên cứu có phân phối chuẩn. a. Tìm khoảng tin cậy 90% cho lượng thời gian tự nghiên cứu trung bình mỗi tuần cho tất cả sinh viên trường đại học này? b. Không cần tính toán, trung bình tổng thể khi ước lượng sẽ rộng hơn hay hẹp hơn với ba điều kiện sau: · Mẫu gồm 30 sinh viên được chọn ra, với tất cả các điều kiện khác giống như câu a? · Ðộ lệch chuẩn của mẫu 4,15 giờ, tất cả các điều kiện khác giống như câu a? · Trong trường hợp khoảng tin cậy 80%, tất cả các điều kiện khác giống như câu a? 4. Tổ chức quốc gia thực hiện một cuộc điều tra về thời điểm đào tạo chuyên môn sâu cho các thành viên là kế toán viên. 21,1% của 171 người trả lời rằng tháng 5 là tháng tốt nhất cho việc đào tạo này. Tìm khoảng tin cậy 99% cho tỉ lệ tổng thể của các thành viên với đề nghị này ? 5. Một cuộc điều tra được thực hiện của những người bán hàng ở các cửa hàng về thái độ và mong muốn của những khách hàng lớn tuổi. Một mẫu nhiên gồm 232 khách hàng tuổi từ 65 trở lên, 25% đã chỉ ra rằng họ mong muốn có sự quan tâm nhiều hơn cho khách hàng lớn tuổi. Họ đặt câu hỏi như sau: Những công ty và các cửa hàng có thể làm gì để giúp quí ông, quí bà một cách tốt nhất. Một mẫu ngẫu nhiên khác gồm 106 khách hàng khác, tuổi từ 55 - 64, 19,8% trong số nầy cũng muốn được đáp ứng mong muốn của mình. Tìmû khoảng tin cậy 90% cho sự khác biệt giữa hai tỉ lệ của hai tổng thể trên?
  31. CHƯƠNG 3: KIỂM ÐỊNH GIẢ THUYẾT (Hypothesis Testing) I. KHÁI NIỆM II. QUY TRÌNH TỔNG QUÁT TRONG KIỂM ĐỊNH GIẢ THUYẾT III. CÁC LOẠI GIẢ THUYẾT TRONG THỐNG KÊ 1. Giả thuyết H0 : (The null hypothesis) 2. Giả thuyết H1 : (The Alternative Hypothesis) IV. CÁC LOẠI SAI LẦM TRONG KIỂM ĐỊNH GIẢ THUYẾT 1. Sai lầm loại I 2. Sai lầm loại II V. KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ 1. Kiểm định trung bình tổng thể với giả định tổng thể có phân phối chuẩn và phương sai tổng thể được biết trước 2. Kiểm định giả thuyết của trung bình tổng thể khi chưa biết phương sai VI. KIỂM ĐỊNH TỈ LỆ P TRONG TỔNG THỂ VỚI MẪU LỚN VII. KIỂM ĐỊNH PHƯƠNG SAI CỦA MỘT PHÂN PHỐI CHUẨN VIII. KIỂM ĐỊNH SỰ KHÁC NHAU CỦA HAI TRUNG BÌNH TRONG HAI TỔNG THỂ 1. Kiểm định dựa trên phối hợp từng cặp 2. Kiểm định dựa trên mẩu độc lập IX. KIỂM ĐỊNH SỰ KHÁC BIỆT CỦA HAI TỈ LỆ TỔNG THỂ 1. Trường hợp 1: Chênh lệch hai tỉ lệ tổng thể bằng 0 2. Trường hợp 2: Chênh lệch hai tỉ lệ tổng thể bằng D BÀI TẬP I. KHÁI NIỆM Top Khi một mẫu được chọn ra từ một tổng thể, các thông tin của mẫu có thể nói lên đặc điểm của tổng thể đó hoặc cũng có thể dùng để đánh giá sự phỏng đoán hoặc một giả thuyết đã được giả định. Ví dụ: 1. Một nhà sản xuất kẹo cho rằng trung bình mỗi hộp (0,5kg) có khoảng 82 viên kẹo. Ðể kiểm tra điều này, ngẫu nhiên những hộp kẹo được chọn ra để kiểm tra, đếm và tính toán. 2. Một nhà sản xuất nước giải khát muốn kiểm tra giả định về tỉ lệ lượng tạp chất có trong thành phẩm nhiều nhất là 0,5%. Ngẫu nhiên những chai và lon nước giải khát được chọn ra để kiểm tra một cách cẩn thận về tỉ lệ tạp chất này. 3. Một quản trị Marketing muốn kiểm tra giả định doanh thu của công ty tăng trung bình ít nhất 5% sau đợt quảng cáo. Ông ta kiểm tra giả định bằng cách liệt kê doanh thu trước và sau chiến dịch quảng cáo để tính toán.
  32. 4. Một đài phát thanh truyền hình muốn biết những chương trình Tivi có thỏa mãn cho cả quí ông và quí bà hay không. Ðể kiểm tra điều này, ông ta lấy ý kiến của nam và nữ một cách ngẫu nhiên trong khu vực phát hình của mình, xử lý thông tin và cho kết luận. II. QUI TRÌNH TỔNG QUÁT TRONG KIỂM ĐỊNH GIẢ THUYẾT Top 1. Chọn lọai kiểm định: Tùy theo mục đích nghiên cứu có nhiều loại kiểm định khác nhau như: a. Những kiểm định đơn giản về trung bình tổng thể (µ) phương sai tổng thể ( 2), hoặc tỉ lệ tổng thể (p). b. Kiểm định sự khác sai về trung bình () phương sai (2), hoặc tỉ lệ (p) của hai tổng thể hay nhiều tổng thể. c. Kiểm định của một tổ hợp của những biến độc lập và những biến phụ thuộc của các nhân tố ảnh hưởng đến các vấn đề nghiên cứu. 2. Mục đích của kiểm định. 3. Ðặt giả thuyết H0 và H1: dạng một đuôi hoặc hai đuôi. 4. Ðặt giả thuyết cho cỡ mẫu, tổng thể, dạng phân phối chuẩn hay phân phối bất kỳ, mẫu ngẫu nhiên độc lập hay mẫu ngẫu nhiên phân tầng. 5. Tính toán biến ngẫu nhiên của kiểm định như biến Z (trong phân phối chuẩn), t (trong phân phối Student t) hay 2 (trong phân phối Chi bình phương). 6. Quyết định bác bỏ hay chấp nhận giả thuyết H0 thông qua việc so sánh giữa giá trị kiểm định tính toán được và giá trị tra bảng. 7. Giải thích và kết luận về vấn đề được giả định. Qui trình tổng quát trong kiểm định giả thuyết sẽ được chi tiết trong các ví dụ phần sau của chương này. Sau đây là một số cơ sở để ước lượng và suy luận: Dùng trung bình mẫu hoặc số trung vị để ước lượng trung bình tổng thể (µ) 2 2 Dùng phương sai mẫu (S ) để ước lượng phương sai tổng thể ( ).  Dùng độ lệch chuẩn (S) để ước lượng độ lệch chuẩn tổng thể ().  Dùng tỉ lệ mẫu để ước lượng tỉ lệ tổng thể p. III. CÁC LOẠI GIẢ THUYẾT TRONG THỐNG KÊ Top 1. Giả thuyết H0 : (The null hypothesis) Top Để dễ hiểu,  được ký hiệu cho các tham số của tổng thể như số trung bình (), phương sai 2 ( ), phương hoặc tỉ lệ (p). Vậy giả thuyết H 0 là tham số  của tổng thể thì bằng với giá trị  0 cụ thể nào đó trong trường hợp giả thuyết có giá trị đơn, nghĩa làì H 0:  =  0 (kiểm định hai đuôi), hoặc giả thuyết là một dãy của giá trị, lúc đó H0:  0 hay H0:  0 (kiểm định một đuôi)
  33. 2. Giả thuyết H1 : (The Alternative Hypothesis) Top Giả thuyết H1 là kết quả ngược lại của giả thuyết H0, nếu giả thuyết H0 đúng thì giả thuyết H1 sai và ngược lại. Vậy cặp giả thuyết H0 và H1 được thể hiện trong các trường hợp kiểm định như sau: + Trong trường hợp kiểm định dạng hai đuôi (Two-tail test): + Trong trường hợp kiểm định dạng một đuôi (One- tail test): hoặc Ví dụ: Trở lại các ví dụ ở phần I. Trang 122, ta có các cặp giả thuyết H0 và H1 như sau: IV. CÁC LOẠI SAI LẦM TRONG KIỂM ĐỊNH GIẢ THUYẾT Top Top Là sai lầm của việc bác bỏ giả thuyết H0 khi giả thuyết này đúng ở mức ý nghĩa nào đó của kiểm định, nghĩa là nếu quyết định xác suất bác bỏ giả thuyết H0 khi giả thuyết này đúng là thì xác suất để chấp nhận nó là (1- ). Top Ngược lại sai lầm loại I là sai lầm loại II là loại sai lầm của việc chấp nhận giả thuyết H0 khi giả thuyết này sai. Nếu xác suất của việc quyết định chấp nhận một giả thuyết H0 sai được ký hiệu là  thì xác suất để bác bỏ giả thuyết này là (1-  Những quyết định dựa trên giả thuyết H0 được tóm tắt như sau:
  34. Ví dụ: trở lại ví dụ 2 (trang 118) về lượng tạp chất có trong thành phẩm ta xét: Sai lầm lọai I: - Giả thuyết H0: Lượng tạp chất nhiều nhất là 0,5%. - Thực chất lượng tạp chất nhiều nhất là 0,5%, có nghĩa là giả thuyết H0 đúng. Nhưng qua kiểm định ta lại bác bỏ giả thuyết này, vậy ta đã mắc phải sai lầm lọai I: bác bỏ một giả thuyết đúng. Ðiều này cho ta một kết luận rằng tỉ lệ tạp chất có trong nước giải khát ít nhất là 0,5%, quá tỉ lệ tạp chất cho phép, điều này sẽ gây ảnh hưởng không tốt đến người tiêu dùng. Sai lầm lọai II: - Giả thuyết H0: Lượng tạp chất nhiều nhất là 0,5%. - Thực chất lượng tạp chất có trong nước giải khát ít nhất là 0,5%, có nghĩa là giả thuyết H0 sai. Nhưng qua kiểm định ta lại chấp nhận giả thuyết này, vậy ta đã mắc phải sai lầm lọai II: chấp nhận một giả thuyết sai. Ðiều này cho ta kết luận rằng tỉ lệ tạp chất có trong nước giải khát nhiều nhất là 0,5%. V. KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ 1. Kiểm định trung bình tổng thể (µ) với giả định tổng thể có phân phối chuẩn, và phương sai tổng thể Top (2) được biết trước. 1.1 Trường hợp mẫu nhỏ: n < 30 Chúng ta bắt đầu với việc kiểm định giả thuyết đơn giản rằng trung bình tổng thể (µ) thì bằng một giá trị cụ thể nào đó. Giả sử rằng chúng ta có một mẫu ngẫu nhiên có n phần tử được chọn ra từ một tổng thể có phân phối chuẩn với trung bình (µ) và phương sai ( 2). Nếu trung bình của mẫu n phần tử là và kiểm định ở mức ý nghĩa . Ta có các giả thuyết được ví dụ như sau: 1. Đặt giả thuyết:
  35. 4. Kết luận: sau khi kiểm định ta kết luận thực chất của vấn đề suy ra từ thông tin mẫu cho tổng thể. Ví dụ 1: Một qui trình sản xuất quả bóng bàn nếu sản xuất trong một dây chuyền chính xác thì trọng lượng của các quả bóng có phân phối chuẩn với Ġ = 5g và độ lệch chuẩn ( = 0,1g. Một quản đốc nhà máy nhận định rằng có một sự tăng lên về trọng lượng trung bình của các quả bóng được sản xuất ra, với độ lệch chuẩn không thay đổi. Một mẫu ngẫu nhiên gồm 16 quả bóng đã được chọn để kiểm tra với trung bình g. Kiểm định giả thiết H o cho rằng trung bình toàn bộ các bóng bàn được sản xuất ra của nhà máy có trọng lượng tối đa là 5g ở mức ý nghĩa 5% và 10%. Ta có: Trường hợp 1: Trường hợp 1: 4. Kết luận:  Trường hợp 1: Với mức ý nghĩa 5%, số liệu của mẫu quan sát không đủ bằng chứng để bác bỏ giả thuyết H0, nghĩa là trọng lượng trung bình của các quả bóng trong tổng thể tối đa là 5g.
  36. Trường hợp 2: ở mức ý nghĩa 10% giả thuyết H0 bị bác bỏ, nghĩa là số liệu của mẫu quan sát đủ để cho ta kết luận rằng trọng lượng thực tế trung bình tổng thể các quả bóng trên 5g. Như vậy, có một vấn đề xuất hiện ở đây rằng ở mức ý nghĩa nào của ( giữa 5% và 10% thì giả thuyết H0 bị bác bỏ, giá trị ở tại mức ( đó được gọi là giá trị p (p value: probability value). Trở lại ví dụ trên, Z trong kiểm định bằng 1,52. Như vậy giả thuyết H0 bị bác bỏ ở bất cứ giá trị nào của mà ở đóï Z nhỏ hơn 1,52. Cụ thể, tìm giá trị p trong trường hợp như sau: Z = 1,52 Tra bảng ta có: P( Z1,52 ) = 0,4357 => = 0,5 - P (Z1,52) = 0,5 - 0,4357 = 0, 0643 Hay = 6,43% Điều này cho ta suy luận rằng giả thiết H 0 có thể bị bác bỏ ở bất kỳ giá trị nào lớn hơn 6,43%, bởi vì khi > 6,43% thì Z = 1,52 nằm trong vùng bác bỏ giả thuyết (tham khảo sơ đồ dưới đây) Tóm tắt các trường hợp tổng quát cho hai dạng kiểm định hai đuôi và một đuôi:
  37. Ví dụ 2: Một máy khoan lỗ trên tấm kim loại, đường kính của những lỗ khoan có phân phối chuẩn với µ = 2cm và có độ lệch chuẩn là 0,06cm. Ðể kiểm tra tính chất chính xác của máy khoan, đường kính của các lỗ khoan ngẫu nhiên được chọn ra để đo. Giả sử độ lệch chuẩn không thay đổi, một mẫu gồm 9 số đo với đường kính trung bìnhĠ = 1,95cm. Hãy kiểm định giả thuyết H0 rằng trung bình tổng thể (µ) là 2cm ở mức ý nghĩa 5%, và tìm giá trị p của kiểm định? 1. Giả thiết: 2. Kiểm định: 3. Quyết định: Giá trị tra bảng Ta có: Vì vậy, ta bác bỏ giả thuyết H0 ở mức ý nghĩa 5%, nghĩa là trung bình đường kính của các lỗ khoan có thể trên dưới 2cm. Ở đây chúng ta cũng có thể tìm giá trị p để xem giả thuyết H0 bị bác bỏ tại mức ý nghĩa nhỏ nhất là bao nhiêu? Ta có: 4. Kết luận: Giả thuyết H0 có thể bị bác bỏ dựa vào kiểm định "hai đuôi" ở bất cứ giá trị nào của lớn hơn 1,24%. Điều này cũng cho ta nghi ngờ về tính chính xác của máy khoan về đường kính của lỗ khoan là khoản 2cm. 1.2 Trường hợp mẫu lớn: n > 30
  38. Các bước thực hiện giống như trường hợp mẫu nhỏ nhưng thay phương sai chung (2) bằng phương sai mẫu trong phần tính toán kiểm định. Giá trị kiểm định: 2. Kiểm định giả thuyết của trung bình tổng thể khi chưa biết phương sai (2) Top Giả sử chúng ta có một mẫu ngẫu nhiên gồm n phần tử từ một tổng thể có phân phối chuẩn với trung bình µ.thể có Nếu trung bình và độ lệch chuẩn của mẫu lần lượt là và Sx, và kiểm định ở mức ý nghĩa thì ba dạng tổng quát của kiểm định như sau: 1. Giả thiết: 2. Kiểm định: Kiểm định giả thuyết của tổng thể trung bình tổng thể khi chưa biết phương sai ( 2) , ta dùng biến ngẫu nhiên t với (1-n) độ tự do thay cho biến ngẫu nhiên Z trong phân tích giá trị kiểm định. Ví dụ: Tổng giám đốc công ty kinh doanh khách sạn du lịch của thành phố Y biết rằng doanh thu trung bình của các khách sạn tháng 12 tăng lên 20% so với tháng 11. Sáu khách sạn ngẫu nhiên được chọn ra và ghi nhận doanh thu tăng lên như sau (%): 19,2 18,4 19,8 20,2 20,4 19,0 Giả sử phân phối của tổng thể là phân phối chuẩn, hãy kiểm định giả thuyết H 0 rằng tốc độ tăng trung bình của doanh thu công ty là 20% dựa vào kiểm định "hai đuôi" ở mức ý nghĩa 10%. 1. Giả thuyết 2. Giá trị kiểm định: với
  39. Vậy: Ta thấy t = -1,597 nằm giữa -2,015 và + 2,015 trong vùng chấp nhận H0. 4. Kết luận: Tốc độ tăng doanh thu trung bình của khách sạn bằng 20% là sự thật ở mức ý nghĩa 10%. VI. KIỂM ĐỊNH TỈ LỆ P TRONG TỔNG THỂ VỚI MẪU LỚN (n>40) Top Trong nhiều vấn đề thực tế, chúng ta muốn kiểm định giả thuyết về tỉ lệ của các phần tử trong một tổng thể lớn. Ở đây chúng ta suy luận vấn đề cho tổng thể dựa vào tỉ lệ của đơn vị trong mẫu ngẫu nhiên với mức ý nghĩa  Nếu ký hiệu: Có 3 trường hợp tổng quát trong kiểm định được diễn giải dưới đây: 1. Giả thiết: 2. Kiểm định:
  40. Ví dụ: Một mẫu ngẫu nhiên gồm 199 nhà đầu tư trong một thành phố lớn, 104 trong số họ đồng ý với câu nói rằng: "lưu lượng tiền mặt trong hoạt động kinh doanh là một số đo có giá trị của khả năng sinh lời". Hãy kiểm định giả thuyết ở mức ý nghĩa 10% dựa vào kiểm định "hai đuôi" rằng phân nửa số nhà đầu tư (50%) sẽ đồng ý với câu nói trên. 1. Giả thiết: 2. Kiểm định: 4. Kết luận: Những số liệu trên không đủ bằng chứng để bác bỏ giả thuyết H0 cho rằng 50% các nhà đầu tư trong công ty đồng ý rằng lưu lượng tiền mặt trong hoạt động kinh doanh là một số đo có giá trị của khả năng sinh lời. VII. KIỂM ĐỊNH PHƯƠNG SAI CỦA MỘT PHÂN PHỐI CHUẨN Top Giả sử rằng chúng ta có một ngẫu nhiên với n phần tử được quan sát từ một tổng thể có phân 2 phối chuẩn với phương sai  . Nếu phương sai mẫu là ,  o là một giá trị cụ thể nào đó của phương sai cần kiểm định và kiểm định ở mức ý nghĩa ta có:
  41. Ví dụ, Ðể đạt được tiêu chuẩn đã được đặt ra cho mức độ tạp chất trong sản phẩm chất hóa học là không vượt quá 4%. Một mẫu ngẫu nhiên gồm 20 sản phẩm có phương sai mẫu 5,62 trong phần trăm mức độ của tạp chất. Hãy kiểm định giả thuyết H0 ở mức ý nghĩa 10% rằng phương sai chung của tổng thể không vượt quá 4%. 1. Giả thuyết: 2. Kiểm định: 4. Kết luận: ở mức ý nghĩa 10%, số liệu không đủ bằng chứng để bát bỏ giả thuyết cho rằng phương sai chung của phần trăm mức độ phức tạp chất tối đa là 4. VIII. KIỂM ĐỊNH SỰ KHÁC NHAU CỦA HAI TRUNG BÌNH TRONG HAI TỔNG THỂ 1. Kiểm định dựa trên phối hợp từng cặp (Matched pairs): Top Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n cặp quan sát từ những phân phối của hai tổng thể có trung bình lần lượt là và . Đặt và là trung bình và độ lệch chuẩn cho sự khác nhau của n cặp . Nếu tổng thể của sự khác nhau này có phân phối chuẩn, là một giá trị cụ thể nào đó để kiểm định và kiểm định ở mức ý nghĩa ta có ba trường hợp kiểm định tổng quát như sau:
  42. Ví dụ: Có một nghiên cứu nhằm mục đích kiểm tra sự gợi nhớ nội dung quảng cáo của các sản phẩm khi xem tivi trong 24 giờ. Công ty đưa ra 2 loại nhãn hiệu quảng cáo cho 10 sản phẩm khác nhau. Tài liệu thu nhập sau đây là lượng người sau khi phỏng vấn nhớ hai lọai nhãn hiệu khi xem Tivi: Sản phẩm Loại 1 Loại 2 Chênh lệch 2 (i) (xi) (yi) di di 1 137 53 84 7.056 2 135 114 21 441 3 83 81 2 4 4 125 86 39 1.521 5 47 34 13 169 6 46 66 -20 400 7 114 89 25 625 8 157 113 44 1.936 9 57 88 -31 961 10 144 111 33 1.089 Tổng cộng: 210 14.202 Giả sử phân phối tổng thể của các chênh lệch này có phân phối chuẩn. Hãy kiểm định giả thuyết rằng không có sự khác biệt giữa trung bình của hai lọai nhãn hiệu (D0 = 0) của người xem ở mức ý nghĩa 5% và 2,5%.
  43. 4. Kết luận: Như vậy giả thuyết H0 rằng có sự bằng nhau của hai trung bình tổng thể về sự gợi nhớ nhãn hiệu sản phẩm bị bác bỏ ở mức ý nghĩa 5% nhưng được chấp nhận ở mức ý nghĩa 2,5% mặc dù số liệu trong bảng trên cho thấy rằng trung bình nhãn hiệu loại 1 cao hơn. 2. Kiểm định dựa trên mẫu độc lập: Top Giả sử chúng ta có một mẫu ngẫu nhiên gồm n x quan sát từ một tổng thể có phân phối trung bình x và phương sai , và một mẫu ngẫu nhiên khác gồm n y quan sát từ một tổng thể cũng có phân phối chuẩn với trung bình  y và phương sai . Trường hợp số quan sát mẫu lớn ta có thể thay thế phương sai tổng thể bằng phương sai mẫu. Nếu lần lượt là trung bình mẫu của hai tổng thể x và y; D0 là một giá trị nào đó trong kiểm định ở mức ý nghĩa ta có ba trường hợp kiểm định tổng quát như sau: Ví dụ: Một cuộc điều tra trong thực tế các kế toán viên về chuyên môn kế toán được thực hiện trong hoạt động kinh doanh ở các công ty. Các ứng viên trả lời đánh dấu điểm số từ 1 (hoàn toàn không đồng ý) đến 5 (hoàn toàn đồng ý) với câu nói sau đây: Phụ nữ có nghiệp vụ kế toán thì có
  44. nhiệm vụ và vị trí trong công việc như nam giới. Một mẫu ngẫu nhiên gồm 186 nam kế toán trong thang điểm trả lời có trung bình là 4,059 và độ chênh lệch chuẩn 0,839. Một mẫu ngẫu nhiên khác gồm 172 nữ kế toán có trung bình cho thang điểm trả lời là 3,680 và độ lệch chuẩn 0,996. Hãy kiểm định giả thuyết H0 cho trung bình hai tổng thể thì bằng nhau trên cơ sở giả thuyết H1 rằng trung bình thì cao hơn cho các nam kế toán viên. Âàût x vaì y lần lượt là trung bình tổng thể cho nam và nữ kế toán viên.Ta có: IX. KIỂM ĐỊNH SỰ KHÁC BIỆT CỦA HAI TỈ LỆ TỔNG THỂ (trường hợp mẫu lớn độc lập) Top 1. Trường hợp 1: Chênh lệch hai tỉ lệ tổng thể bằng 0 Top
  45. 2. Trường hợp 2: Chênh lệch hai tỉ lệ tổng thể bằng D Top Ví dụ: Thông tin từ một bài báo cho biết rằng thị phần cho vay của một số ngân hàng đối với các hãng xe hơi đang bị giảm sút. Bài báo viết rằng năm 1990 các ngân hàng cho vay đến các hãng này khoảng 53% nhưng đến năm 1996 chỉ còn 43%. Giả sử rằng ngẫu nhiên trong 100 lần vay của các hãng xe hơi có 53 lần vay từ ngân hàng vào năm 1990 và 43 lần vào năm 1996. Hãy kiểm định hai đuôi sự bằng nhau của hai tỷ lệ tổng thể về việc vay của các hãng xe hơi tại các ngân hàng năm 1990 và năm 1996 ở mức ý nghĩa 10%. Tra bảng phân phối chuẩn ta cóï Z /2 = Z5% = 1,645. Như vậy, giá trị kiểm định rơi vào vùng chấp nhận giả thuyết H 0, có nghĩa là tài liệu không đủ cơ sở để nói lên rằng thị phần cho vay của các ngân hàng đến các hãng xe là thay đổi giữa hai năm nàm 1990 và1996.
  46. BÀI TẬP Top 1. Một nhà sản xuất thuốc tây đang quan tâm đến lượng chất bẩn lẫn trong thuốc viên và mong muốn điều này không được vượt quá 3%. Trong dây chuyền sản xuất hoàn chỉnh sự tập trung của tạp chất theo sau một phân phối chuẩn có độ lệch chuẩn 0,4%. Một mẫu ngẫu nhiên 64 viên thuốc được lấy ra để kiểm tra và thấy rằng trung bình tỉ lệ lượng chất bẩn là 3,07%. a. Kiểm định giả thuyết H0 cho rằng trung bình tổng thể của lượng tạp chất là 3% với đối thuyết H1 cho chỉ tiêu này lớn hơn 3% ở mức ý nghĩa 5% ? b. Tìm giá trị P của kiểm định ? c. Không cần tính toán, nếu kiểm định dạng 2 đuôi thì giá trị P lớn hơn, nhỏ hơn hay bằng với giá trị P ở câu b ? d. Tại sao trong bài tập này kiểm định dạng 1 đuôi thì phù hợp hơn? 2. Một nhà sản xuất mô tô muốn cải tiến một số phụ tùng để bảo đảm tiết kiệm xăng khi mô tô hoạt động. Các mô tô nên đạt mức tiết kiệm rằng cứ một lít xăng so với ban đầu xe chạy thêm ít nhất được 3 km. 100 xe mô tô được chọn ra để đánh giá thì thấy rằng trung bình 1 lít xăng xe chỉ chạy thêm được 2,4 km và độ lệch chuẩn là 1,8. Hãy kiểm định giả thuyết H0 ở mức ý nghĩa 5% cho trung bình tổng thể rằng cứ 1 lít xăng xe chạy thêm ít nhất 3 km ở mức ý nghĩa 5% và tìm giá trị P của kiểm định ? 3. Một qui trình sản xuất dầu gội đầu, khi dây chuyền sản xuất hoạt động hoàn chỉnh thì mỗi kiện sản xuất ra có trọng lượng trung bình là 20 kg. Một mẫu ngẫu nhiên gồm 9 kiện được chọn ra để cân có trọng lượng như sau (kg). 21,4 19,7 19,7 20,6 20,8 20,1 19,7 20,3 20,9 Giả sử rằng phân phối của tổng thể là phân phối chuẩn, hãy kiểm định giả thuyết ở mức ý nghĩa 5% dựa vào dạng kiểm định 2 đuôi với giả thuyết H0 cho rằng quá trình sản xuất thì hoạt động một cách chính xác? 4. Một nhà phân phối bia trong một thành phố khẳng định rằng: bằng cách quảng cáo và cách tiếp cận khách hàng mới ở các cửa hàng, mỗi tuần trong các cửa hàng bán trung bình tăng thêm 50 kết bia. Một mẫu ngẫu nhiên gồm 20 cửa hàng được chọn ra để xác định lời khẳng định trên thì thấy trung bình mỗi cửa hàng chỉ bán được 41,3 kết bia và độ lệch chuẩn là 12,2. Hãy đặt giả sử để kiểm định giả thuyết cho rằng mỗi tuần bán thêm được 50 kết ở mỗi cửa hàng ở mức ý nghĩa 5% . 5. Trong 361 chủ nhân của cửa hàng bán lẻ và các công ty đã thành công trong kinh doanh thì có 105 người nói rằng một trong những nguyên nhân dẫn đến thành công là do có tư vấn về chuyên môn khi mở doanh nghiệp. Hãy kiểm định rằng có 25% thành viên của tổng thể đã thành công trong kinh doanh là do có tư vấn khi mở doanh nghiệp.
  47. 6. Một mẫu ngẫu nhiên gồm 998 thanh niên trong thành phố X, trong đó 17,3% thành viên không đồng ý với câu nói: Quảng cáo sản phẩm trên ti vi có ảnh hưởng đến người tiêu dùng tốt hơn các phương tiện khác. Hãy kiểm định ở mức ý nghĩa 5% giả thuyết H0 rằng có ít nhất 25% thanh niên thành phố X không đồng ý với câu nói trên. 7. Có một cuộc điều tra nghiên cứu để đánh giá tiền lương khởi điểm mỗi tháng của sinh viên nam và sinh viên nữ sau khi tốt nghiệp. Những người nghiên cứu chọn ngẫu nhiên 8 cặp sinh viên đã nhận được việc làm ở 8 công ty khác nhau (nhưng cùng loại doanh nghiệp). Ở đây chúng ta giả định rằng khả năng, trình độ của các sinh viên này thì không khác nhau mà điểm khác nhau cơ bản là giới tính. Mỗi cặp là một nam và một nữ, và phân phối của tổng thể là phân phôiú chuẩn. Hãy kiểm định giả thuyết H0 cho rằng trung bình tiền lương khởi điểm của sinh viên nam và sinh viên nữ thì bằng nhau với đối thuyết H1 là tiền lương của sinh viên nam cao hơn ở mức ý nghĩa 5%? đvt: 1000 đồng Tiền lương khởi điểm Cặp sinh viên Nam Nữ 1 524 452 2 494 472 3 568 586 4 434 446 5 472 524 6 586 518 7 566 570 8 486 426 8. Ðể đánh giá hiệu quả của việc khích lệ sự trả lời bằng thư của khách hàng trong một nghiên cứu tìm hiểu thị hiếu tiêu dùng sản phẩm. Công ty dùng cả hai hình thức, gởi bảng câu hỏi kèm quà khích lệ và không kèm quà. · Trường hợp 1: Gởi 432 bảng câu hỏi kèm quà thì tỷ lệ thất thoát là 9,1% (tỷ lệ mà công ty không nhận lại bảng câu hỏi từ khách hàng). · Trường hợp 2: Gởi 431 bảng câu hỏi không kèm quà thì tỷ lệ thất thóat là 10,4%. Hãy kiểm định giả thuyết H0 rằng hai tỷ lệ trên của hai tổng thể thì bằng nhau với đối thuyết H1 cho rằng tỷ lệ này sẽ lớn hơn trong trường hợp không có quà kèm theo bảng câu hỏi. 9. Một mẫu ngẫu nhiên gồm 160 nhà doanh nghiệp, trong đó 62 người đồng ý với câu nói: Một sự nổi tiếng trong cách cư xử và lối sống có đạo đức thì ít quan trọng trong cơ hội được thăng chức của các quản đốc và trưởng phó phòng hơn là sự nổi tiếng về việc kiếm ra tiền cho công ty. Hãy kiểm định giả thuyết H0 cho rằng phân nữa trong tất cả nhà doanh nghiệp đồng ý với câu nói trên dựa vào kiểm định dạng 2 đuôi.
  48. CHƯƠNG 4: KIỂM ÐỊNH PHI THAM SỐ (Nonparametric Tests) I. KIỂM ĐỊNH WILCOXON II. KIỂM ĐỊNH MANN-WHITNEY III. KIỂM ĐỊNH SỰ PHÙ HỢP 1. Kiểm định sự phù hợp trong trường hợp giả định đã biết các tham số của tổng thể 2. Kiểm định sự phù hợp trong trường hợp các tham số tổng thể chưa biết IV. BẢNG TIẾP LIÊN Trong chương 3, chúng ta kiểm định sự bằng nhau của hai trung bình tổng thể nhưng phân phối của tổng thể được giả sử có phân phối chuẩn. Trong chương này, kiểm định được phát triển thêm một bước, cũng với giả thuyết H0 về sự bằng nhau của hai trung bình tổng thể nhưng phân phối của các tổng thể được giả sử có phân phối bất kỳ. Ðây chính là thuận lợi của kiểm định phi tham số vì kiểm định loại này phù hợp với nhiều giả định hơn về phân phối của tổng thể. Trong nhiều tình huống thực tế, số liệu chỉ có thể biểu hiện dưới hình thức xếp hạng, vì vậy kiểm định Wilconxon và Mann-Whitney là hai lọai kiểm định thông dụng nhất ứng với hai trường hợp: một là sử dụng cho mẫu ngẫu nhiên gồm các quan sát từng cặp và một dùng cho mẫu ngẫu nhiên độc lập. Hơn nữa, khi phân phối của tổng thể được giả định không phải là phân phối chuẩn (phân phối bất kỳ) thì kiểm định phi tham số có thể có nhiều ứng dụng hơn. Tuy nhiên, phương pháp kiểm định phi tham số thì khó mở rộng để giải quyết các vấn đề của mô hình kinh tế phức tạp. Kiểm định phi tham số bạn có thể dễ dàng tìm được kết quả khi sử dụng phần mềm phân tích SPSS, sau khi nhập sữ liệu, chọn menu Analize - Nonparametric Tests - Chọn loại kiểm định mà bạn mong đợi. I. KIỂM ĐỊNH WILCOXON (Kiểm định T) Top Kiểm định Wilcoxon được áp dụng khi một mẫu ngẫu nhiên gồm các quan sát từng cặp và phân phối tổng thể của chênh lệch (di) trong các cặp này thì đối xứng. 1. Trường hợp mẫu nhỏ (n ( 20):
  49. Ví dụ: Một công ty nước giải khát muốn kiểm tra hiệu quả của chiến dịch quảng cáo cho 5 loại thức uống tốt nhất của công ty bằng cách điều tra số người sử dụng 5 loại thức uống này tăng lên hay giảm xuống sau đợt quảng cáo ở mức ý nghĩa 2,5% và 5%. Công ty chọn ngẫu nhiên 10 thành phố và mỗi thành phố chọn ngẫu nhiên 500 người để trả lời cuộc điều tra này kết quả như sau: Thành 1 2 3 4 5 6 7 8 9 10 phố Trước quảng cáo (yi) 95 151 192 71 86 215 254 123 97 153 Sau quảng cáo (xi) 123 160 180 93 99 193 311 121 131 169 Chênh 28 9 -12 22 13 -22 57 -2 34 16 lệch (di) Xếp hạng 8 2 3 6,5 4 6,5 10 1 9 5 l dil {+di } 8 2 0 6,5 4 0 10 0 9 5 {- di } 0 0 3 0 0 6,5 0 1 0 0 2. Trường hợp mẫu lớn (n >20): Ví dụ: Trở lại ví dụ ở trường hợp 1, thay vì thu thập số liệu ở 10 thành phố, ta thực hiện ở 85 thành phố lớn nhỏ khác nhau. Trong 85 mức độ chênh lệch được xếp hạng thì giá trị nhỏ nhất của T (minimum) là 1.195. Hãy kiểm định giả thuyết H0 với đối thuyết H1 rằng chiến dịch quảng cáo có hiệu quả hơn. Ta có n = 85, T = 1195 và nếu giả thuyết H0 đúng thì phân phối Wilcoxon có trung bình và phương sai như sau:
  50. II. KIỂM ĐỊNH MANN - WHITNEY (Kiểm định U) Top Cũng như kiểm định T, kiểm định U cũng là một loại kiểm định bằng cách xếp hạng các mẫu độc lập với mục đích kiểm định sự bằng nhau của các tổng thể có phân phối bất kỳ. 1. Trường hợp mẫu nhỏ (n < 10 và n1 < n2): : là số quan sát mẫu chọn ra từ tổng thể thứ 1, Ví dụ: Chúng ta muốn so sánh lương khởi điểm của sinh viên tốt nghiệp ở ngành kinh tế và điện tử tin học được trả bởi các công ty như sau (100.000 đồng): Ðiện tử tin học 15 18 27 30 24 Kinh tế 17 22 24 12 28 30 14 18 25 22 Giả thuyết H0: Trung bình lương khởi điểm của 2 ngành thì bằng nhau H1: Trung bình lương khởi điểm ngành tin học được trả cao hơn Trước tiên ta xếp hạng các số liệu liên tục cho cả hai ngành từ nhỏ đến lớn: Ðiện tử 1 18 24 2 30 5 7 Tin học Xếp 3 5,5 9,5 1 14, hạng 2 5 Kinh tế 1 1 17 18 22 22 24 2 28 30 2 4 5 Xếp 1 2 4 5,5 7,5 7,5 9,5 1 13 14, hạng 1 5 Chú ý: Trong xếp hạng, hạng của các giá trị trùng nhau của hai ngành cũng được xếp bằng nhau và bằng trung bình cộng của giá trị hai hạng liên tiếp đó.
  51. 2. Trường hợp mẫu lớn (n >10): Ví dụ: Trở lại vấn đề tiền lương khởi điểm của hai ngành kinh tế và điện tử tin học. Mỗi ngành chọn ngẫu nhiên 80 sinh viên và sau đó tiền lương được xếp hạng từ nhỏ đến lớn, và tổng cộng hạng được xếp cho tiền lương của hai ngành thì bằng nhau và bằng 7.287. Ta có : n1 = 80 n2 = 80 R1 = 7.287 Giả thuyết H0: Trung bình lương khởi điểm của hai ngành thì bằng nhau. H1: Trung bình lương khởi điểm ngành kinh tế và điện tử tin học được trả khác nhau. III. KIỂM ĐỊNH SỰ PHÙ HỢP (Goodness-of-fit test) Top Kiểm định sự phuùhợp là kiểm định xem giả thuyết về phân phối của tổng thể và số liệu thực tế phù hợp (thích hợp) với nhau đến mức nào. Ở đây ta dùng phân phối "Chi" bình phương (2) để so sánh trong quá trình kiểm định. Một kiểm định  2 thường bao gồm những bước sau đây: 1. Thiết lập giả thuyết H0 và H1 về tổng thể. 2. Tính toán các giá trị lý thuyết theo giả thuyết H0
  52. 3. Tính toán các khác biệt giữa giá trị lý thuyết và giá trị thực tế. Từ đó, xác định giá trị kiểm định theo 2 công thức Oi: Tần số quan sát của nhóm thứ i. Ei: Tần số lý thuyết của nhóm thứ i (tính theo giả thuyết H0). 4. So sánh giá trị kiểm định tính được với giá trị trong bảng phân phối 2 và kết luận. 1. Kiểm định sự phù hợp trong trường hợp giả định đã biết các tham số Top của tổng thể. Giả sử có một mẫu ngẫu nhiên với n quan sát, mỗi quan sát có thể được phân vào một trong k nhóm. · Gọi O1,O2, ,Ok là số quan sát ở nhóm thứ 1,2, ,k. · Gói p1, p2, , pk là xác suất giả thuyết để quan sát rơi vào nhóm thứ 1,2, ,k (giả thuyết H0). Do vậy, số quan sát ở nhóm thứ i, theo giả thuyết H0, là: Ei = n.pi (i=1,2, ,k) Ví dú: Một công ty dự định đưa ra thị trường một sản phẩm mới với bốn màu sắc khác nhau. Giám đốc công ty muốn tìm hiểu thị hiếu khách hàng về màu sắc sản phẩm - thích đặc biệt một màu nào hay sở thích đối với cả bốn màu là giống nhau ở mức ý nghĩa 1%. Một mẫu 80 khách hàng đợc chọn ngẫu nhiên. Mỗi khách hàng được xem sản phẩm với các màu sắc khác nhau và cho biết ý kiến. Kết quả như sau: Trắng Nâu Xanh Đen Tổng cộng 12 40 8 20 80 · Giả thuyết H0: Sở thích đối với 4 màu là giống nhau, nghĩa là các suất khách hàng chọn lựa một trong 4 màu bằng nhau: p1 = p2 = p3 = p4 = 0,25.
  53. · Giả thuyết H1 : Sở thích đối với 4 màu là giống nhau, nghĩa là xác suất khách hàng chon lựa đối với 4 màu không bằng nhau Theo giả thuyết H0 số lượng khách hàng chọn màu thứ i là Ei = n .pi. Do đó, ta có: E1 = E2 = E3 = E4 = (80) (0,25) = 20 Giá trị kiểm định: 2 = 2 2 2 Tra baûng phaân phoái  , ta coù:  k-1, =  4 -1,1% = 11,34. 2 2 Vì giaù trò kieåm ñònh  >  k-1, , ta keát luaän raèng ôû möùc yù nghóa 1% giaû thuyeát H0 bò baùc boû, nghóa laø söï choïn löïa ñoái vôùi 4 maøu saéc cuûa saûn phaåm laø khaùc nhau. Moät vaøi maøu saéc naøo ñoù ñöôïc öa thích hôn. Cũng cần lưu ý raèng caùc xaùc suaát giaû thuyeát khoâng phaûi baét buoäc baèng nhau, chuùng coù theå raát khaùc nhau. Chuùng ta caàn xaùc ñònh roõ caùc xaùc suaát giaû thuyeát naøy khi laäp giaû thuyeát H0 vaø duøng caùc xaùc suaát giaû thuyeát ñoù ñeå tính toaùn caùc giaù trò Ei. 2. Kiểm định sự phù hợp trong trường hợp các tham số tổng thể chưa Top biết. Ở phần (1) trang 150, ta đã thực hiện kiểm định giả thuyết về việc quan sát được phân phối với các xác suất xác định nào đó. Khi đó, xác suất để một quan sát rơi vào nhóm thứ i được xác định rõ khi lập giả thuyết H0. Phần này sẽ đề cập đến việc kiểm định giả thuyết các quan sát tuân theo một luật phân phối nào đó - có thể là phân phối nhị thức, phân phối Poission, hay phân phối chuẩn - trường hợp không giả định là đã biết các tham số của tổng thể như và . Trường hợp này, ta có thể dùng các dữ liệu thuthập được để ước lượng tham số tổng thể. Trước hết, dựa vào các tham số mẫu để xác định xác suất một quan sát rơi vào nhóm thứ i theo như luật phân phối muốn kiểm định, nghĩa là xác định các pi. Sau đó, tính các Ei , giá trị kiểm định 2 và áp dụng qui tắc kiểm định giống như đã nói ở phần (1). Cần chú ý rằng trong trường hợp này, số bậc tự do giảm đi 1 cho mỗi tham số tổng thể được ước lượng. Ví dú: Một nhà nghiên cứu thống kê muốn kiểm định giả thuyết về phân phối của số tiền chi ra của khách hàng trong một lần mua sắp ở siêu thị. Một mẫu ngẫu nhiên 100 khách hàng được chọn cho thấy số tiền chi trung bình cho một lần mua sắm là x = 125.000 đồng và độ lệch chuẩn s=40.000 đồng ở mức ý nghĩa 10%.
  54. · Giả thuyết H0: Tổng thể (số tiền chi ra) có phân phối chuẩn (nghĩa là trung bình một lần mua sắm của khách hàng là 125.000 đồng). · Giả thuyết H1: Tổng thể không có phân phối chuẩn (trung bình một lần mua sắm của khách hàng có thể trên hoặc dưới 125.000 đồng hay khác 125.000đồng). Trước tiên, ta xác định các xác suất của một đại lượng phân phối chuẩn. Từ bảng phân phối chuẩn, ta xác định được các xác suất cho một đại lượng phân phối chuẩn Z. Chẳng hạn, tra bảng phân phối chuẩn ta có xác suất từ của Z từ 0 đến 1 là 0,3413 và gần phân nửa của xác suất này là 0,1700 ứng với Z = 0,44. Vậy xác suất từ 0,44 đến 1 bằng 0,1713 (0,3413-0,1700) và xác suất từ 1(( sẽ bằng 0,1587 (0,5-0,3413). Từ công thức Ei = n pi, các Ei có giá trị như sau: E1 = 15,87, E2 = 17,13, E3 = 17, E4 = 17, E5 = 17,13, E6 = 15,87 Dựa vào công thức X =  + Z , chuyển các giá trị của đại lượng ngẫu nhiên Z thành giá trị của vấn đề đang xét. Ta có thể dùng và s (tham số mẫu) thay cho  và  (tham số tổng thể). Do đó, giới hạn của các nhóm được xác định như sau: x1 = 125+ (-1)(40) = 85 x2 = 125+ (-0,44)(40) = 107,4 x3 = 125+ (0)(40) = 125 x4 = 125+ (0,44)(40) = 142,6 x5 = 125+ (1)(40) = 165 Từ số liệu thu thập được, ta dễ dàng xác định được số lượng các quan sát rơi vào từng nhóm, nghĩa là xác định Oi. Như vậy, ta đã xác định được các nhóm, xác suất để một quan sát rơi vào nhóm thứ i (pi), số lượng quan sát thực tế (Oi) và số lượng quan sát theo lý thuyết (Ei). Từ đó, tính giá trị kiểm định 2 theo công thức:
  55. Số liệu tính toán được trình bày trong bảng 4.1 như sau: Bảng 4.1: Xác định giá trị kiểm định 2 xi (1000đđ) pi Ei = (n.pi) Oi (Oi-Ei) / Ei 0 - 84,99 0,1587 15,87 14 0,22 85 - 107,39 0,1713 17,13 20 0,48 107,4 - 124,99 0,17 17 16 0,06 125 - 142,59 0,17 17 19 0,24 142,6 - 164,99 0,1713 17,13 16 0,07 165 15,87 15,87 15 0,05 Tổng cộng 1 100 100 1,12 Trong đó Oi là số quan sát thực tế và n = 100 (100 khách hàng) Từ bảng 4.1 ta có giá trị kiểm định  2 = 1,12 và trong 6 nhóm có hai tham số được ước lượng ( được ước lượng cho  và s được ước lượng cho  nên số bậc 6 -1 -2 = 3 (giá trị này được tính bằng k trừ 1 rồi trừ đi số tham số được ước lượng). 2 2 Tra bạng phân phối  , ta có: :  3,10% = 6,25 > 1,12. Do vậy, ta chấp nhận giả thuyết H 0 ở mức ý nghĩa 10%, nghĩa là không có chứng cứ để nói rằng tổng thể không có phân phối chuẩn, hay nói cách khác số tiền chi ra trung bình của một khách hàng trong một lần mua sắm là 125.000 đồng. IV. BẢNG TIẾP LIÊN (Contingency table) Top Trong phần này, ta sẽ đề cập đến việc sử dụng kiểm định "Chi" bình phương ( 2) vào việc phân tích một bảng tiếp liên, bảng tiếp liên là bảng kết hợp hai tiêu thức, nhằm xác định xem giữa hai tiêu thức của tổng thể có mối liên hệ hay không. Ví dụ, xem xét mối liên hệ giữa giới tính và mức độ hoàn thành công việc, giữa hiệu quả kinh doanh (lãi, lỗ) và ngành kinh doanh (dịch vụ hoặc sản xuất) v.v Giả sử có mẫu ngẫu nhiên gồm n quan sát, được phân nhóm kết hợp hai tiêu thức với nhau, hình thành nên bảng tiếp liên gồm (r) hàng và (c) cột. Gọi Oij là quan sát ứng với hàng thứ i và cột thứ j, Ri là tổng số quan sát ở hàng thứ i, C j là tổng số quan sát ở cột thứ j, n là tổng số quan sát của (r) hàng đồng thời cũng là tổng số quan sát của (c) cột. Bảng 4.2: Dạng tổng quát của một bảng tiếp liên kết hợp hai tiêu thức. Phân nhóm Phân nhóm theo tiêu thức 1 theo tiêu thức 1 2 3 c  2 1 O11 O12 O13 O1c R1 2 O21 O22 O23 R2 3 O31 O32 O33 R3
  56. r Or1 Or2 Or3 Orc Rr Tổng cộng C1 C2 C3 Cc n Để kiểm định xem có mối liên hệ giữa hai tiêu thức này không, trước hết ta lập giả thuyết H 0 vaø H1 · Giả thuyết H0: Không có mối liên hệ giữa hai tiêu thức. · Giả thuyết H1: Tồn tại mối liên hệ giữa hai tiêu thức. Nguyên tắc của kiểm định ở đây cũng giống như kiểm định sự phù hợp (Goodness-of- Fitness) đã nói ở phần trước. Điểm khác biệt duy nhất là khi tính giá trị kiểm định phải lấy tổng số cho tất cả các ô gồm (r) hàng và (c) cột trong bảng tiếp liên, nghĩa là: Giá trị kiểm định: với số lượng quan sát lý thuyết (theo giả thuyết H0):Eij = RiCj / n. Ri và C j là tổng tần số của hàng thứ i và cột thứ j. với (r-1)(c-1): số bậc tự do. Ví dụ: Để nghiên cứu mối liên hệ giữa tuổi tác và kết quả học tập của sinh viên tại chức ở một trường đại học, người ta lấy mẫu ngẫu nhiên 1140 sinh viên tại chức. Kết quả phân nhóm theo hai tiêu thức kết quả học tập và tuổi tác được trình bày trong bảng sau: Bảng 4.3: Tuổi và kết quả học tập của sinh viên phân theo nhóm Kết quả học tập Tuổi Tốt Không tốt Tổng cộng (Ri) 25 198 90 288 26 - 35 114 97 211 36 - 45 166 211 377 46 92 172 264 Tổng cộng (Ci) 570 570 1140 · Giả thuyết H0: Không có mối liên hệ giữa tuổi và kết quả học tập.
  57. · Giả thuyết H1: Tồn tại mối liên hệ giữa tuổi tác và kết quả học tập. Số lượng quan sát lý thuyết (theo giả thuyết H0) Eij được tính toán và được để trong dấu ngoặc đơn bên phải giá trị Oij. Chẳng hạn, E11 = R1C1 / n = (288)(570) / 1140 = 144 Tương tự cách tính như trên ta có: E42 = R4C2/n = (264) (570)/1140 = 132 Bảng 4.4: Bảng kết quả các Oij và Eij Tuổi Kết quả học tập Tốt Không tốt 25 198 (144) 90 (144) 26 - 35 114 (105,5) 97 (105,5) 36 - 45 166 (188,5) 211 (188,5) 46 92 (132) 172 (132) Giá trị kiểm định: Vôùi r = 4, c = 2, số bậc tự do là: (r - 1)(c - 1) = (4 - 1)(2 - 1) = 3 2 2 Tra bảng phân phối  , ta có  3, 0,5% = 12,84 < 71,5 Do vậy, ở mức ý nghĩa 0,5%, giả thuyết H 0 bị bát bỏ, nghĩa là có tồn tại mối liên hệ giữa tuổi tác và kết quả học tập. Điều đó có thể nhận thấy khi quan sát bảng (9.4) tính toán ở trên, nói chung nhóm tuổi thấp có kết quả học tập cao hơn so với nhóm tuổi lớn hơn. Bài tập 1. Kết quả sau đây cho thấy mức độ hài lòng về thu nhập của nhân viên nam và nữ trong một cuộc điều tra về các yếu tố ảnh hưởng đến kết quả công việc. Hãy kiểm định giả thuyết về mối liên hệ giữa giới tính và sự hài lòng về thu nhập ở mức ý nghĩa 5%? Giới tính Mức độ hài lòng Thấp Trung bình cao Nam 46 61 53 Nữ 8 9 12 2. Quản đốc một phân xưởng sản xuất ghi nhận rằng trong điều kiện sản xuất bình thường 93% sản phẩm không có lỗi nào, 5% có một lỗi và 2% có hơn một lỗi. Từ một mẫu 500 sản phẩm được
  58. lấy ngẫu nhiên từ sản phẩm được sản xuất ra trong tuần, người Quản đốc thấy có 458 sản phẩm không có lỗi. Ông cho rằng chất lượng của những sản phẩm sản xuất ra trong tuần giống như trong điều kiện sản xuất bình thường. Hãy kiểm định nhận định trên của ông ở mức ý nghĩa 5%? 3. Một công ty đang xem xét việc đặt tên cho một sản phẩm mới. Trước khi quyết định chọn một trong 5 tên được đề nghị, giám đốc muốn kiểm định xem phải chăng cả 5 tên đều có sức hấp dẫn bằng nhau đối với khách hàng. Mẫu 100 khách hàng được chọn ngẫu nhiên và được yêu cầu cho biết ý kiến về một tên cho sản phẩm mà họ thích nhất, kết quả như dưới đây. Hãy kiểm định giả thuyết nói trên ở mức ý nghĩa 5%? Tên sản phẩm: A B C D E Lượng khách hàng chọn: 4 12 34 40 10 4. Một nhà phân tích thống kê muốn xem xét mối quan hệ giữa giới tính và việc chọn lựa các nhãn hiệu nước giải khát. Một mẫu 330 người được chọn ngẫu nhiên và kết quả như sau: Sự chọn lựa nhãn hiệu Giới tính Coke Pepsi 7up Tribeco Tổng cộng Nam 55 32 47 21 155 Nữ 60 43 35 37 175 Tổng cộng 115 75 82 58 330 Hãy kết luận về mối quan hệ nói trên ở mức ý nghĩa 5%? 5. Một công ty nước giải khát Coca-cola hoạt động trên toàn cầu đang mở một chiến dịch quảng cáo với mục đích cần đạt tới là nhãn hiệu của nó sẽ ở trong tiềm thức của khách hàng. Một mẫu ngẫu nhiên gồm 500 người ở mỗi thành phố của 10 quốc gia được phỏng vấn về 5 nhãn hiệu giải khát trước và sau chiến dịch quảng cáo. Nhãn hiệu Coca-Cola được khách hàng nhắc tới theo bảng dưới đây. Hãy sử dụng kiểm định Wilcoxon để kiểm định giả thuyết H0 tương ứng giả thuyết H1 cho rằng nhãn hiệu Coca-Cola được nhận biết bởi khách hàng tốt hơn sau chiến dịch quảng cáo ở mức ý nghĩa 5%? Thành phố Trước quảng cáo Sau quảng cáo 1 95 123 2 151 160 3 192 180 4 71 93 5 86 99 6 215 193 7 254 311 8 123 121 9 97 131
  59. 10 153 169 6. Một nhà phân tích thị trường chứng khoán đã đưa ra đầu năm một danh sách chứng khoán để mua và một danh sách khác để bán. Một mẫu ngẫu nhiên gồm 10 chứng khoán từ danh sách mua và 10 chứng khoán từ danh sách bán. Phần trăm tăng lên (%) qua một năm về số lượng chứng khoán mua và bán như sau: Mua: 9,6 5,8 13,8 17,2 11,6 4,2 3,1 11,7 13,9 12,3 Bán: -2,7 6,2 8,9 11,3 2,1 3,9 -2,4 1,3 7,9 10,2 Sử dụng kiểm định Mann-Whitney cho trường hợp trên và giải thích? 7. Lương khởi điểm của sinh viên tốt nghiệp bằng MBA từ hai trường kinh doanh nổi tiếng được đem ra so sánh. Những mẫu ngẫu nhiên độc lập gồm 30 sinh viên từ mỗi trường được chọn ra để phỏng vấn. Sáu mươi mức lương được đánh giá xếp hạng. Tổng hạng được xếp của một trong hai trường này là 1243. Hãy kiểm định giả thuyết H0 rằng phân phối của hai tổng thể thì bằng nhau?
  60. CHƯƠNG 5: PHÂN TÍCH PHƯƠNG SAI (Analysis of Variance) I. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU 1. Trường hợp k tổng thể được giả định có phân phối chuẩn và có phương sai bằng nhau 2. Trường hợp các tổng thể được giả định có phân phối bất kỳ II. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU 1. Trường hợp có một quan sát mẫu trong một ô 2. Trường hợp có hơn một quan sát trong một ô III. PHÂN TÍCH SÂU ANOVA IV. THỰC HIỆN ANOVA TRÊN PHẦN MỀM EXCEL BÀI TẬP Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung bình mẫu và thông qua kiểm định giả thuyết để kết luận. Trong chương này chúng ta đề cập đến hai mô hình phân tích phương sai: phân tích phương sai một chiều và phân tích phương sai hai chiều. I. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU (One-Way Analysis of Variance) Top Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố (Single factor). 1. Trường hợp k tổng thể được giả định có phân phối chuẩn và có phương sai bằng nhau: Top Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể có phương sai bằng nhau dựa trên những mẫu ngẫu nhiên độc lập gồm n1, n2 , , nk quan sát từ k tổng thể khác nhau có phân phối chuẩn. Nếu trung bình của các tổng thể được kí hiệu là (1 , (2 , . , (k thì mô hình phân tích phương sai một chiều được mô tả dưới dạng kiểm định giả thuyết như sau: H0: 1 = 2 = = k Nghĩa là giả thuyết H0 cho rằng trung bình của k tổng thể khác nhau thì bằng nhau. Ðể kiểm định giả thuyết này cần thực hiện các bước sau: Bước 1: Trước tiên, tính các trung bình mẫu từ những quan sát của các mẫu ngẫu nhiên độc lập Ĩ) và trung bình chung của tổng thể Ĩ) từ trường hợp tổng quát như sau:
  61. Bảng 5.1: Bảng số liệu tổng quát Tổng thể 1 2 k x11 x21 xk1 x12 x22 xk2 x1n1 x2n2 xknk Tính trung bình mẫuĠ: (i=1,2, ,k) Và trung bình chung của k tổng thểĠ: Bước 2: Tính trung bình bình phương giữa các nhóm trong tổng thể (MSG) từ tổng bình phương giữa các nhóm (SSG), trung bình bình phương trong từng nhóm riêng biệt (MSW) từ tổng bình phương trong từng nhóm (SSW), và tính tổng bình phương của toàn mẫu quan sát (SST). Tính tổng bình phương trong từng nhóm riêng biệt.- SSW (Sum of Squares within-groups): Tính cho nhóm thứ nhất: ĉ · Tính cho nhóm thứ hai: Tương tự như vậy ta có thể tính cho nhóm thứ k. Vậy tổng bình phương trong từng nhóm được tính như sau: SSW = SS1 + SS2 + + SSk Tương tự như vậy ta có thể tính cho nhóm thứ k. Vậy tổng bình phương trong từng nhóm được tính như sau: SSW = SS1 + SS2 + + SSk
  62. Hoặc ĉ Suy ra trung bình bình phương của mỗi nhóm:ĉ Tính tổng bình phương giữa các nhóm - SSG (Sum of Squares between-groups): Suy ra trung bình bình phương giữa các nhóm:ĉ Tính tổng bình phương của toàn mẫu quan sát - SST (Total Sum of Squares): SST = SSW + SSG Hoặc: ĉ Bước 3: Cuối cùng kiểm định giả thuyết được quyết định dựa trên tỉ số F - là thương số giữa trung bình bình phương giữa các nhóm (MSG) và trung bình bình phương trong từng nhóm (MSW). Bác bỏ giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau khi: F > F k-1 , n-k , Biến ngẫu nhiên F k-1 , n-k theo một phân phối F được kí hiệu F v1 , v2 khi tra bảng. Sau đây là biểu bảng tổng quát của ANOVA. Bảng 5.2: bảng tổng quát của ANOVA Source of Sum of Degree of Mean Squares F Variation Squares Freedom (MS) (SS) (D.f) ratio Between-Groups SSG k - 1 Within-Groups SSW n - k Total SST n - 1 Ví dụ: Một quản trị Marketing muốn xem xét chi phí bán hàng trung bình trên tháng (1000đồng) của một sản phẩm điện tử ở ba cửa hàng khác nhau: A, B và C. Số liệu của chỉ tiêu trên được thu thập trong 7 tháng cho cửa hàng A, 7 tháng cho cửa hàng B và 6 tháng cho cửa hàng C như trong bảng sau:
  63. Ðặt giả thuyết H0: Chi phí bán hàng trung bình/sản phẩm của ba cửa hàng A, B và C đều bằng nhau: H0 : (1=(2 =(3 1. Tính trung bình mỗi nhóm (mỗi cửa hàng): * Chi phí bán hàng trung bình/sản phẩm của cửa hàng A: * Chi phí bán hàng trung bình/sản phẩm của cửa hàng B: * Chi phí bán hàng trung bình/sản phẩm của cửa hàng C: * Chi phí bán hàng trung bình/sản phẩm tính chung cho ba cửa hàng: 2. Tính tổng bình phương của cả 3 nhóm: SSW = SS1 + SS2 + SS3 Tương tự: 2 2 2 SS2 = (24,6 - 23,2) + (23,1- 23,2 ) + + (23,5- 23,2) = 4,96
  64. 2 2 2 SS3 = (22,7 - 22,9) + (21,9 - 22,9) + + (23,4 - 22,9) = 3,46 SSW = 3,76 + 4,96 + 3,46 = 12,18 Suy ra, trung bình phương trong từng nhóm: 3. Tổng bình phương giữa các nhóm: SSG Suy ra, trung bình bình phương giữa các nhóm: 4. Tính tổng bình phương chung : SST SST = SSW + SSG = 12,18 + 21,55 = 33,73 5. Tính tỉ số F:ĉ Tra bảng phân phối F với mức ý nghĩa ( =1%, ta có: Vì F = 15,04 > 6,11 cho nên nguồn số liệu cho phép bác bỏ giả thuyết H0 rằng chi phí bán hàng trung bình ở ba cửa hàng thì bằng nhau ở mức ý nghĩa 1%. Nghĩa là ở mức ý nghĩa 1% thì chi phí bán hàng trung bình/ sản phẩm ở ba cửa hàng thì khác nhau. Sau đây là bảng kết quả phân tích phương sai một chiều từ ví dụ trên. Bảng 5.3: Bảng kết quả ANOVA một chiều 2. Trường hợp các tổng thể được giả định có phân phối bất kỳ (phương pháp phi tham số) Top
  65. Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm n1, n2, , nk quan sát từ k tổng thể có phân phối bất kỳ. Ta sử dụng kiểm định KRUSKAL- WALLIS bằng cách xếp hạng các quan sát mẫu. Mặc dù số quan sát của nk mẫu là khác nhau nhưng khi xếp hạng thì được sắp xếp một cách liên tục từ nhỏ đến lớn, nếu giá trị quan sát trùng nhau thì hạng xếp giống nhau bằng cách dùng số trung bình cộng các hạng của chúng để chia đều. Ðặt n = n1 + n2 + + nk là tổng các quan sát thuộc các mẫu, và R1 , R2, , Rk là tổng của các hạng được xếp theo thứ tự của k mẫu. Kiểm định giả thuyết ở mức ý nghĩa ( cho trường hợp này là: H0 : (1 = (2 = = (k : Trung bình của k tổng thể đều bằng nhau. Ở đây ta sử dụng biến W thay cho tỉ số F trong phần tính toán giá trị kiểm định. Tra bảng phân phối (2 (Chi-Square) để so sánh, và giả thuyết H0 bị bác bỏ khi: 2 W >  k-1, Trở lại ví dụ chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng ta có kết quả xếp hạng như trong bảng 10.4. Trong cách xếp hạng này, chi phí nhỏ nhất trong ba cửa hàng là 19,9 (ngàn đồng) được xếp hạng 1, tương tự hạng được xếp cho đến chi phí lớn nhất là 24,6 (ngàn đồng) được xếp hạng 20. Những chi phí trùng nhau sẽ có hạng bằng nhau, chẳng hạn như có hai chi phí là 20,3 (ngàn đồng) trong cửa hàng A, hạng thứ tự của chúng là 2 và 3. Vì vậy, hai giá trị 20,3 có hạng bằng nhau và bằng (2+3)/2 = 2,5. Bảng 5.4: Xếp hạng liên tục các dữ liệu ở ba cửa hàng. Ðvt: 1000 đồng Suy ra: = 11,10
  66. Ở đây chúng ta có bậc tự do (k -1) = 2 và nếu kiểm định ở mức ý nghĩa 0,5%, khi tra bảng phân phối (2 ta tìm được: (22;0,5% = 10,6 Bởi vì W = 11,10 > (22;0,5% = 10,6 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 0,5%, nghĩa là chi phí bán hàng trung bình / sản phẩm ở ba cửa hàng không bằng nhau. II. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU (Two -Way Analysis of Variance) Top Phân tích phương sai hai chiều là xét đến hai yếu tố (hai nguyên nhân) ảnh hưởng đến hiện tượng nghiên cứu. Ví dụ như trong phân tích phương sai một chiều cho ta biết kết quả chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng là khác nhau mà ở đây ta chưa nghiên cứu đến trình độ tiếp cận của người bán hàng đến khách hàng hoặc kỹ năng đặc biệt của từng nhân viên khi bán hàng Phân tích phương sai hai chiều sẽ có ý nghĩa trong trường hợp này. 1. Trường hợp có một quan sát mẫu trong một ô: (One observation per cell) Top Giả sử xij là một quan sát thấy được ở cột thứ i và hàng thứ j trong một mẫu, như vậy nếu có k cột và h hàng thì ta kí hiệu tổng số quan sát là n = k.h Dạng tổng quát của quan sát mẫu trên k cột và h hàng như sau: Bảng 5.5: Quan sát mẫu của phương sai hai chiều Ðể phát triển một kiểm định giả thuyết cho rằng trung bình của các tổng thể thì bằng nhau cho k cột . Ta thực hiện theo các bước sau: Bước 1: Tính trung bình của riêng từng cột (từng tổng thể): group (i=1, 2, , k) Bước 2: Tính trung bình riêng cho từng hàng: block (j = 1, 2, , h) Bước 3: Tính trung bình chung của toàn mẫu quan sát :
  67. Bước 4 : Tính 1. Tổng bình phương chung: SST = SSG + SSB + SSE 2. Tổng bình phương giữa các cột: between-groups 3. Tổng bình phương giữa các hàng: between-blocks 4. Tổng bình phương sai số: error Bước 5: Tính các trung bình bình phương: 1. Trung bình bình phương giữa các cột:ĉ 2. Trung bình bình phương giữa các hàng:ĉ 3. Trung bình bình phương sai số: ĉ Bước 6 : Tính giá trị kiểm định từ hai tỉ số F tương ứng cho hai cặp giả thuyết H0: ĉ và ĉ Bước 7 : Có 2 trường hợp trong quyết định bác bỏ giả thuyết H0 của ANOVA hai chiều một quan sát trong một ô: 1. Ðối với F1, ở mức ý nghĩa (, giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu cột thì bằng nhau (nếu F1 trong bảng kết quả là chỉ tiêu theo cột) có thể bị bác bỏ khi: F1 > F k -1,(k-1)(h-1),
  68. 2. Ðối với F2, ở mức ý nghĩa (, giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu hàng thì bằng nhau (nếu F1 trong bảng kết quả là chỉ tiêu theo hàng) có thể bị bác bỏ khi: F2 > F h -1,(k-1)(h-1), Chú ý: F k -1,(k-1)(h-1), ( hay F h -1,(k-1)(h-1), ( là giá trị trong bảng phân phối F (phân phối Fisher ở sau sách) có dạng F v1, v2, ( . Bảng kết quả phân tích phương sai hai chiều được xử lý từ phần mềm Excel. hoặc SPSS, Kết quả được in ra có dạng tổng quát như sau: Bảng 5.6: Bảng kết quả tổng quát ANOVA hai chiều Ví dụ: Trở lại ví dụ về chi phí bán hàng trung bình/sản phẩm nhưng có một số nội dung thay đổi. Trước tiên, người bán hàng được xếp theo 6 nhóm tuổi: Nhóm 1: ( 25 tuổi 2: 26 - 35 3: 36 - 45 4: 46 - 55 5: 56 - 65 6: > 65 Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có tuổi khác nhau ở 3 của hàng được thu thập trong bảng sau: Bảng 5.7: Chi phí bán hàng trung bình/sản phẩm theo nhóm tuổi
  69. Ðặt giả thuyết H0: 1. Chi phí bán hàng trung bình/sản phẩm ở các cửa hàng khác nhau đều bằng nhau (giả thuyết H0 theo chỉ tiêu cột). 2. Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì bằng nhau (giả thuyết H0 theo chỉ tiêu hàng). Bước 1 : Tính chi phí bán hàng trung bình/sản phẩm của 3 cửa hàng:  Cửa hàng A:ĉ =Ġ = 24,7  Cửa hàng B: Ġ2 = Ġ = 23,9  Cửa hàng C: Ġ3 =Ġ = 25,2 Bước 2 : Tính chi phí bán hàng trung bình /sản phẩm cho từng loại tuổi nhân viên: Nhóm 1: Ġ=Ġ = 25 Nhóm 2: Ġ2 =Ġ = 24,Ķ Nhóm 3: Ġ3 =Ġ = 25,4 Nhóm 4: Ġ4 =Ġ = 24 Nhóm 5: Ġ5 =Ġ = 23,9 Nhóm 6: Ġ6 =Ġ = 24,7 Bước 3 : Tính chi phí bán hàng trung bình/sản phẩm chung của 18 mẫu quan sát. Ta có: n = k x h = 3 x 6 = 18 Và Ġ =Ġ = 24,6
  70. Bước 4 :Tính các tổng bình phương: SST = (25,1-24,6)2 + (24,7-24,6) 2 + + (25,4-24,6) 2 = 11,88 SSG = 6 [(24,7-24,6) 2 + (23,9-24,6) 2 + (25,2-24,6) 2] = 5,16 SSB = 3[ (25-24,6) 2 + + (24,7-24,6) 2 ] = 4,98 SSE = SST - SSG - SSB = 11,88 - 5,16 - 4,98 = 1,74 Bước 5 : Tính trung bình bình phương: Bước 6 : Tính các tỉ số F và kết luận Tương ứng với giả thuyết H0 thứ nhất (trang 173) ta có: Nếu kiểm định ở mức ý nghĩa ( =1%, tra bảng phân phối F thì giá trị Fk -1,(k-1)(h-1),( = F2,10,1% = 7,56. Vậy F1 > F2,10,1% ta bác bỏ giả thuyết H0, nghĩa là chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng khác nhau thì khác nhau. Tương ứng với giả thuyết H0 thứ hai (trang 173) ta có: Tra bảng ta có: F5,10,1% = 5,64. Bởi vì F2 > F5,10,1% ta có thể bác bỏ giả thuyết H0 ở mức ý nghĩa 1%, nghĩa là chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì khác nhau. Sau đây là bảng kết quả ANOVA của ví dụ trên. Bảng 5.8: Bảng kết quả ANOVA hai chiều
  71. 2. Trường hợp có hơn một quan sát trong một ô: (More than one obserration per cell) Top Phát triển thêm từ trường hợp một quan sát trong một ô. Ðể tăng tính chính xác khi suy rộng một vấn đề nào đó của mẫu cho một tổng thể, ta tăng mẫu quan sát (n) trong điều kiện cho phép. Gọi (l) là số quan sát trong một ô, ta có dạng tổng quát của (l) quan sát trong một ô như sau: Bảng 5.9: Quan sát mẫu tồng quát của ANOVA nhiều quan sát trong một ô Có ba giả thuyết H0 trong trường hợp phân tích phương sai hai chiều nhiều quan sát trong một ô tương ứng với ba tỉ số F (F1,F2 và F3). Hai giả thuyết H0 tương ứng với tỉ số F1 và F2 giống như trong trường hợp phân tích phương sai hai chiều một quan sát trong một ô (trang 173). Nghĩa là, trung bình chỉ tiêu nghiên cứu của chỉ tiêu theo cột và theo hàng thì bằng nhau. Giả thuyết H0 tương ứng với tỉ số F3: không có sự ảnh hưởng qua lại giữa các chỉ tiêu theo cột và hàng đến chỉ tiêu nghiên cứu. Cũng từ ví dụ chi phí bán hàng (chỉ tiêu nghiên cứu), thay vi thu thập một quan sát trong một ô, ta tiến hành thu thập ba quan sát trong một ô nhằm để tăng khả năng chính xác của việc suy rộng cho tổng thể. Bảng sau đây thể hiện dữ liệu thu thập ba quan sát trong một ô: Nhóm tuổi Cửa hàng nhân viên A B C 1 25,0 25,4 25,2 24,0 24,4 23,9 25,9 25,8 25,4 2 24,8 24,8 24,5 23,5 23,8 23,8 25,2 25,2 25,4 3 26,1 26,3 26,2 24,6 24,9 24,9 25,7 25,9 25,5 4 24,1 24,4 24,4 23,9 24,0 23,8 24,0 23,6 23,5 5 24,0 23,6 24,1 24,4 24,4 24,1 25,1 25,2 25,3 Ðặt các giả thuyết H0:
  72. 1. Giả thuyết H0 trong trường hợp F1: Chi phí bán hàng trung bình/sản phẩm ở các cửa hàng khác nhau đều bằng nhau. 2. Giả thuyết H0 trong trường hợp F2: Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì bằng nhau. 3. Giả thuyết H0 trong trường hợp F3: không có tương tác giữa độ tuổi khác nhau của nhân viên bán hàng bán ở ba cửa hàng khác nhau. Bước 1 : Tính trung bình nhóm (group means): Bước 2 : Tính trung bình theo hàng (block means): Bước 3: Tính trung bình trong một ô (cell means)
  73. Tương tự ta cũng tính được: Bước 4 : Tính trung bình chung (overall mean): Ðể đơn giản ta có thể tính trung bình chung theo công thức như dưới đây với điều kiện số quan sát trong mỗi nhóm đềubằng nhau. Ġ Ľ (Tổng các trung bình theo nhóm chia cho số nhóm) Theo ví dụ ta có: Bước 5 : Tính các tổng bình phương (SS) và các trung bình bình phương (MS):
  74. Chú ý: ở đây xuất hiện thêm một chỉ tiêu SSI (sums of squares for interaction) là tổng bình phương của sự tác động qua lại giữa chỉ tiêu cột và hàng. Bước 6: Tỉ số F 1. F1 =Ġ được so sánh với Fk-1 ,k h (l-1),( hay còn được kí hiệu Fv1,v2, ( trong bảng phân phối F. Quyết định bác bỏ giả thuyết H0 tương ứng với F1 khi: F1 > Fk-1 ,k h (l-1),( 2. F2 =Ġ được so sánh với Fh-1 ,k h (l-1),( trong bảng phân phối F. Ta có thể bác bỏ giả thuyết H0 tương ứng với F2 khi: F2 > Fh-1 ,k h (l-1), 3. F3 =Ġ được so sánh với F (k-1)(h-1), k h (l-1),( .Quyết định bác bỏ giả thuyết H0 tương ứng với F3 khi: F3 > F (k-1)(h-1), k h (l-1),( Sau đây là bảng kết quả ANOVA tổng quát: Bảng 5.10: Bảng kết quả ANOVA hai chiều tổng quát Nguồn biến động Tổng bình Ðộ tự do Trung bình Tỉ số phương bình F phương Giữa các nhóm SSG (k-1) MSG F1 Giữa cãc hàng SSB (h-1) MSB F2 Giữa các nhóm và hàng SSI (k-1)(h-1) MSI F3 Sai số SSE k.h(l-1) MSE Tổng cộng SST khl -1 Và bảng kết quả ANOVA trong ví dụ trên là: Nguồn biến động Tổng bình Ðộ tự Trung bình Tỉ số phương do bình F phương Các cửa hàng (A,B và C) 7,1565 2 3,5783 92,46
  75. Lọai tuổi nhân viên 13,1517 4 3,2879 84,96 Interaction 6,6045 8 0,8256 21,33 Error 1,1600 30 0,0387 Total 28,0727 44 Nhận xét: Ta có k = 3 h = 5 l = 3 và ( = 1% 1. F1 = 96,42 và khi tra bảng phân phối F, ta có Fk-1 ,k h (l-1),( = F2,30,1% = 5,39. Vì: F1 = 96,42 > F2,30,1% = 5,39 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là chi phí bán hàng trung bình / sản phẩm ở các cửa hàng khác nhau thì khác nhau. 2. F2 = 84,96 và khi tra bảng phân phối F, ta có Fh-1 ,k h (l-1),( = F4,30,1% = 4,02. Vì: F2 = 84,96 > F4,30,1% = 4,02 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là chi phí bán hàng trung bình / sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì khác nhau. 3. F3 = 21,33 và khi tra bảng phân phối F, ta có F (k-1)(h-1), k h (l-1),( = F8,30,1% = 3,17. Vì: F3 = 21,33 > F8,30,1% = 3,17 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là có liên hệ và ảnh hưởng qua lại giữa độ tuổi khác nhau của nhân viên bán hàng bán ở ba cửa hàng khác nhau đến chi phí bán hàng trung bình/sản phẩm. Chú ý: Khi thực hiện ANOVA trên máy vi tính, trong bảng kết quả cho ta thêm một cột mang tên F Critical, cột này sẽ là kết quả tra bảng dùng để so sánh với cột F ratio để quyết định bác bỏ hay chấp nhận giả thuyết H0. III. PHÂN TÍCH SÂU ANOVA (Further analysis of ANOVA) Top Như đã trình bày, mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của các tổng thể thì bằng nhau. Tuy nhiên, sau khi phân tích và kết luận, có thể có một trong hai khả năng xảy ra là chấp nhận giả thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0 thì mong đợi của chúng ta về kiểm định đã được thực hiện, việc phân tích kết thúc.
  76. Nếu bác bỏ giả thuyết H0, có nghĩa là trung bình của các tổng thể không bằng nhau. Vì vậy, vấn đề cần được phân tích sâu hơn với giả thuyết mới được giả định, hoặc chọn khoảng tin cậy thích hợp để xác định sự khác nhau xuất hiện ở đâu, trên phương diện nào và tầm quan trọng của sự khác nhau đó. Sơ đồ phân tích ANOVA được tóm tắt như sau: Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0, chẳng hạn như phương pháp so sánh trực giao (Orthogonal comparison), phương pháp Student- Newman-Keuls, phương pháp Tukey, kiểm định đa khoảng Duncan (Duncans Multiple Range Test), kiểm định Scheffé (Scheffé Test) hay phương pháp khác biệt nhỏ nhất có ý nghĩa (Least-Significant Difference: LSD) Nói chung, tất cả các phương pháp này đều sử dụng trung bình mẫu Ĩ) là tham số ước lượng cho trung bình tổng thể ((i) và trung bình bình phương sai số (MSE) là tham số ước lượng cho phương sai tổng thể ((2). Trong phạm vi giáo khoa này chỉ đề cập đến phương pháp khá thông dụng đó là phương pháp Tukey (Tukey method), phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Mục đích của phương pháp này là so sánh từng cặp các trung bình tổng thể ở mức ý nghĩa ( nào đó cho toàn bộ các cặp kiểm định. Phương pháp Tukey dùng phân phối khoảng (phân phối q) trên cơ sở phân phối Student t (Studentized range distribution: q) - là phân phối xác suất với độ tự do (r) và (n - r) để kiểm định trong đó r là số tổng thể. Thực hiện kiểm định này trước hết ta tìm số cặp so sánh. Trường hợp tổng quát với r tổng thể ta tính số cặp so sánh như sau: Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0, chẳng hạn như phương pháp so sánh trực giao (Orthogonal comparison), phương pháp Student-Newman- Keuls, phương pháp Tukey, kiểm định đa khoảng Duncan (Duncans Multiple Range Test), kiểm định Scheffé (Scheffé Test) hay phương pháp khác biệt nhỏ nhất có ý nghĩa (Least-Significant Difference: LSD) Nói chung, tất cả các phương pháp này đều sử dụng trung bình mẫu Ĩ) là tham số ước lượng cho trung bình tổng thể ((i) và trung bình bình phương sai số (MSE) là tham số ước lượng cho phương sai tổng thể ((2). Trong phạm vi giáo khoa này chỉ đề cập đến phương pháp khá thông dụng đó là phương pháp Tukey (Tukey method), phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Mục đích của phương pháp này là so sánh từng cặp các trung bình tổng thể ở mức ý nghĩa ( nào đó cho toàn bộ các cặp kiểm định. Phương pháp Tukey dùng phân phối khoảng (phân phối q) trên cơ sở phân phối Student t (Studentized range distribution: q) - là phân phối xác suất với độ tự do (r) và (n - r) để kiểm định trong đó r là số tổng thể.
  77. Thực hiện kiểm định này trước hết ta tìm số cặp so sánh. Trường hợp tổng quát với r tổng thể ta tính số cặp so sánh như sau: Ví dụ: ta có r = 3, thì số cặp so sánh trong kiểm định là 3, nói cách khác có 3 giả thuyết H0 tương ứng với ba cặp so sánh. Giá trị kiểm định: T = q( Ġ Trong đó: q( là giá trị tra bảng HSD MSE là giá trị trong bảng kết quả phân tích ANOVA n là tổng số quan sát mẫu (n = (ni) Quyết định bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T. Chẳng hạnĠ( T Ước lượng khoảng tin cậy cho sự khác biệt hai trung bình tổng thể: Trong đó t là giá trị tra bảng phân phối Student t với (n - r) độ tự do. Ví dụ: Cho r = 3, ( = 5%, n = 200 và MSE = 593,2 Ta có: Giá trị tra bảng HSD q5% = 3,31 Giá trị kiểm định T = 3,31Ġ Giả sử độ lệch tuyệt đối các cặp trung bình mẫu như sau: