Bài giảng môn Xác suất thống kê

doc 142 trang phuongnguyen 2330
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng môn Xác suất thống kê", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • docbai_giang_mon_xac_suat_thong_ke.doc

Nội dung text: Bài giảng môn Xác suất thống kê

  1. Bài giảng Xác suất thống kê 1
  2. MỤC LỤC Chương I 1 GIỚI THIỆU MÔN HỌC 1 1.2. Đối tượng nghiên cứu của thống kê 1 1.2.1. Thống kê học là một môn khoa học xã hội 1 1.3.2. Các phương pháp chuyên môn của thống kê 4 1.4.2 Mẫu 4 1.4.3 Tiêu thức thống kê 4 1.4.4 Tham số thống kê 5 1.4.5 Tham số mẫu 5 1.5.2 Các loại thang đo 5 1.6.2. Chất lượng thông tin 10 1.6.3.Các phương pháp thu thập thông tin 10 Chương II 12 TỔNG HỢP VÀ TRÌNH BÀY DỮ LIỆU 12 2.2. Các loại phân tổ và cách thức tiến hành phân tổ 12 2.2.1. Phân tổ theo một tiêu thức 12 2.3.2 Kết cấu của bảng thống kê 15 Tên bảng: 16 Chú thích của bảng : 16 Nguồn: Niên giám thống kê 2003 17 Nguồn: Thực trạng lao động – việc làm ở Việt Nam năm 2000 20 2.4 Phương pháp đồ thị thống kê 21 2.4.1 Biểu đồ hình cột 21 Biểu đồ 3.2.1: Hình cột phản ánh số lượng cán bộ khoa học công nghệ 22 2.4.2. Biểu đồ diện tích 22 Bảng 3.2.1: Học sinh phổ thông phân theo cấp học 23 Biểu đồ 3.2.3: Biểu đồ tượng hình, phản ánh số lượng học sinh phổ thông 25 Đồ thị 3.2.5. Đồ thị hình màng nhện về kết quả xuất khẩu 28 Chương III 29 ĐIỀU TRA CHỌN MẪU VÀ SAI SỐ TRONG ĐIỀU TRA CHỌN MẪU 29 3.1.1. Khái niệm điều tra chọn mẫu 29 3.1.2. Ưu điểm của điều tra chọn mẫu 29 3.1.3. Hạn chế của điều tra chọn mẫu 30 3.1.4. Điều kiện vận dụng của điều tra chọn mẫu 31 3.2.2. Ước lượng 33 3.2.3. Sai số chọn mẫu và phạm vi sai số chọn mẫu 34 3.2.4. Đơn vị chọn mẫu và dàn chọn mẫu 35 3.2.6. Các phương pháp tổ chức chọn mẫu 36 3.3. Xác định cỡ mẫu, phân bổ mẫu và tính sai số chọn mẫu 38 3.3.2. Phân bổ mẫu 41 3.3.3. Cách tính sai số chọn mẫu 44 Bảng 1.1. Danh sách những bản, làng với số hộ có đầu tư sản xuất, kinh doanh 45 N* = 216 : 20 11 50 Gọi xij: VĐT của hộ thứ i thuộc chùm j 50 3.4. Sai số trong điều tra thống kê 52 3.4.2 Sai số trong quá trình tổ chức điều tra 56 3.4.3. Sai số liên quan đến quá trình xử lý thông tin 58 2
  3. Chương IV 60 CÁC MỨC ĐỘ CỦA HIỆN TƯỢNG KINH TẾ XÃ HỘI 60 4.2.1. Số tương đối động thái 61 4.2.2. Số tương đối so sánh 62 4.2.3. Số tương đối kế hoạch 62 4.2.4. Số tương đối kết cấu 62 4.2.5. Số tương đối cường độ 62 4.3. Số bình quân trong thống kê 63 4.3.1. Số bình quân số học 64 4.3.2. Số bình quân điều hoà 65 4.3.3. Số bình quân nhân 66 5 x 1,775.1,289.1,322.1,307.1,222 1, 367 hoặc 136,7% 67 10 5 3 2 x (1,1) .(1,15) .(1,25) 1, 144 hoặc 114,4% 67 4.4. Mốt 67 Bảng 2.3.1: Lương của công nhân trong doanh nghiệp 68 4.5. Số trung vị 69 4.6. Độ biến thiên của tiêu thức 71 4.6.1. Khoảng biến thiên 71 Bảng 2.4.1: Thu nhập của hộ gia đình 72 4.6.2. Độ lệch tuyệt đối bình quân 72 Bảng 2.4.2: Năng suất lao động của công nhân trong doanh nghiệp 73 Trường hợp có quyền số 74 Hình 2.4.1: Đường biểu diễn phân phối chuẩn 75 4.6.5. Hệ số biến thiên 76 Quyền số của chỉ số có thể giải quyết hai nhiệm vụ: 79 4.7.2.2. Chỉ số tổng hợp 80 Bảng 3.5.1: Giá và lượng hàng tiêu thụ tương ứng của hàng hoá 81 30 10 8 30 I = 1, 688 hoặc 168,8% 81 p 20 10 4 30 30 12 8 20 I = 1, 625 hoặc 162,5% 81 p 20 12 4 20 I p 1,688 1,625 = 1, 656 hoặc 165,6% 82 Bảng 3.5.2: Giá và lượng hàng ở địa phương A và B 82 4 2500 2 3000 16000 I = 0, 9846 hoặc 98,46% 82 p 3,5 2500 2,5 3000 16250 20 12 4 20 320 I = 1, 00 hoặc 100,0% 83 q 20 10 4 30 320 30 12 8 20 520 I = 0, 963 hoặc 96,3% 83 q 30 10 4 20 540 Iq 1,00 0,963 = 0, 981 hoặc 98,1% 83 3,7 1000 2,166 2000 8032 I = 1, 041 hoặc 104,1% 84 q 3,7 1500 2,166 1000 7716 4.7.3. Chỉ số bình quân 85 1,5 200 2 120 I = 1, 688 hoặc 168,8% 85 p 200 120 3
  4. 1,2 200 0,67 120 I = 1, 000 hoặc 100,0% 85 q 200 120 320 160 I = 1, 636 hoặc 163,6% 86 p 320 160 1,5 2,0 320 160 I = 0, 963 hoặc 96,3% 86 q 320 160 1,2 2,0 4.7.4.2. Chỉ số định gốc 87 (238 12000) (550 21000) (35 7000) I ' = 1, 0808 hoặc 108,08% 90 q (238 10000) (550 20000) (35 5000) 1,2785 I " 1,0715 hoặc 107,15% 91 q 1,1932 1,0808 1,0715 = 1, 1581 hoặc 115,81% 91 4.7.6. Hệ thống chỉ số 92 4.7.6.1. Hệ thống chỉ số tổng hợp 92 4.7.6.2. Hệ thống chỉ số nghiên cứu biến động chỉ tiêu bình quân 94 PHÂN PHỐI VÀ PHÂN PHỐI MẪU 96 Nếu X là biến liên tục có hàm mật độ f(x), x R, thì 96 Kỳ vọng là trị trung bình của biến ngẫu nhiên 96 5.1.2.2 Phương sai 96 5.1.2.3 Độ lệch chuẩn 97 Dạng hàm mật độ xác xuất của phân phối chuẩn như sau 97 Hình 2.3. Hàm mật độ xác suất phân phối chuẩn 98  a a P ( X  ) =   98   Đường cong mật độ phân phối F, giống như phân phối  2 100 Phân phối của trung bình mẫu để ước lượng trung bình của tổng thể 101 Phân phối của tỷ lệ mẫu để ước lượng tỷ lệ của tổng thể 101 5.3.3 Các tính chất của phân phối mẫu 101 Chương VI 102 ƯỚC LƯỢNG KHOẢNG TIN CẬY 102 6.2. Khoảng tin cậy cho kỳ vọng 102 Khoảng tin cậy đối xứng 102 1 Với ( 102 b) 2 1 Với ( 102 b) 2 1 Với ( 102 b) 2 Khoảng tin cậy của a 103 Với b t(n 1; ) 103 Khoảng tin cậy trái 103 4
  5. 1 Với ( ) 103 1 2 1 Với ( ) 103 1 2 Khoảng tin cậy (1 ) cho  2 là 104 Khoảng tin cậy phải 104 Khoảng tin cậy trái 104 Khoảng tin cậy (1 ) cho  2 là 104 Khoảng tin cậy phải 105 Khoảng tin cậy trái 105 Chọn thống kê 105 1 Trong đó   i 106 i 2 1 Vơi   106 i 2 Lựa chọn thống kê 106 Trong đó 106 Khoảng tin cậy (1 ) cho hiệu hai kỳ vọng là 106 Chọn thống kê 106 Thống kê T phân phối Stiuđơn với số bậc tự do là 106 p1(1 p1) p2 (1 p2 ) f1(1 f1) f2 (1 f2 ) Trong đó : s f 107 n1 n2 n1 n2 1 Trong đó   i 107 i 2 Chương VII 108 KIỂM ĐỊNH GIẢ THUYẾT 108 7.1.2 Quy tắc kiểm định giả thuyết 108 Ta chọn tiêu chuẩn 109 B ( ; zb ) hoặc B (zb ; ) 110 Nếu H1 : a a0 , miền tới hạn sẽ lệch sang phải 110 Ta chọn tiêu chuẩn 110 Nếu H1 : a a0 ; tìm zb K tn 1, và miền tới hạn sẽ là 110 Nếu H1 : a a0 ; tìm zb K tn 1,1 và miền tới hạn sẽ là 111 Nếu H1 : p p0 , miền tới hạn là B Ktn : Ktn zb ,(zb ) 0,5 111 7.2.3 Kiểm định phương sai 111 Thống kê này có phân phối N(0,1) 112 Nếu H1 : a1 a2 , miền tới hạn là B Ktn : Ktn z  với (zb ) 0,5 112 Nếu H1 : p1 p2 thì B Ktn : Ktn zb với (zb ) 0,5 / 2 113 Nếu H1 : p1 p2 thì B Ktn : Ktn zb với (zb ) 0,5 113 Nếu H : 2  2 thì B {K : K F hoặc K F } 113 1 1 2 tn tn n1 1;n2 1; /2 tn n1 1;n2 1;1 /2 Nếu H : 2  2 thì B {K : K F } 114 1 1 2 tn tn n1 1;n2 1;1 Chương VIII 115 5
  6. PHÂN TÍCH HỒI QUY 115 8.1.2 Hệ số tương quan mẫu 115 Từ đó suy ra 116 Thì miền tới hạn của quy tắc là 117 E(Y/X=x)= ax+b 117 EY=ax+b 117 Để ước lượng các hệ số a và b ta dùng định nghĩa sau 118 2 Và  có thể được ước lượng bằng phương sai mẫu của Yi 119 Thêm giả thiết chuẩn của i 119 Phân phối đồng thời của a,b là 120 a a Ta có : N(0,1) 120 2  / (xi X ) i Miền tới hạn với mức 121 Tương tự cho kiểm định với tham số b và  2 121 8.2.4 Hệ số xác định 121 2 µ 2  2 Ta có (yi Y ) (yi yi ) (yi Y ) 121 Chương IX 122 DÃY SỐ THỜI GIAN 122 9.2.1. Mức độ bình quân theo thời gian 122 9.2.2. Lượng tăng tuyệt đối 122 35,6 T 2,482 hoặc 248,2% 122 8 /1 17,7 t 8 1 2,482 =1, 139 hoặc 113,9% 122 Nếu tính bằng số lần: Tốc độ tăng = Tốc độ phát triển – 1 122 i = 1,139 – 1 = 0,139 122 9.2.5. Giá trị tuyệt đối của 1% tăng lên 122 4,9 i = 0, 1596 hoặc 15,96% 122 8 / 7 30,7 9.3.1. Phương pháp mở rộng khoảng cách thời gian 122 9.3.2. Phương pháp số bình quân trượt 122 9.3.3. Phương pháp điều chỉnh bằng phương trình toán học 122 Bảng 3.3.1: Bảng tính toán các tham số của hệ phương trình chuẩn tắc 122 a0 29,6 Giải ra ta được: 122 a1 0,8 n n 2  yt yt  yt  t 1 và y t 1 122 y n n 9.3.4. Phân tích biến động thời vụ 122 Bảng 3.3.2: Tính toán chỉ số thời vụ 122 3 12 12   y ij  y i 28272 28703 28523 y j 1 i 1 i 1 2375 triệu đồng 122 0 36 36 36 6
  7. Chương I GIỚI THIỆU MÔN HỌC 1.1 Khái niệm thống kê Khái niệm: Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định Thống kê thường được phân chia thành 2 lĩnh vực: - Thống kê mô tả: là các phương pháp có liên quan đến việc thu thập số liệu, tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh một cách tổng quát đối tượng nghiên cứu. - Thống kê suy luận: là bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu. 1.2. Đối tượng nghiên cứu của thống kê Các nhà thống kê học nổi tiếng trên thế giới đều thống nhất đưa ra nhận định sau đây về đối tượng nghiên cứu của thống kê. Thống kê học là môn khoa học xã hội, nghiên cứu mặt lượng trong mối liên hệ chặt chẽ với mặt chất của các hiện tượng kinh tế- xã hội số lớn, trong điều kiện thời gian và địa điểm cụ thể. Từ nhận định này, chúng ta cần hiểu đúng đối tượng nghiên cứu của thống kê ở các điểm chính sau. 1.2.1. Thống kê học là một môn khoa học xã hội Thống kê học là một môn khoa học xã hội, bởi vì thống kê nghiên cứu các hiện tượng kinh tế - xã hội hay quá trình kinh tế xã hội. Các hiện tượng và quá trình đó thường là: * Các hiện tượng về quá trình tái sản xuất mở rộng như cung cấp nguyên liệu, quy trình công nghệ, chế biến sản phẩm * Các hiện tượng về phân phối, trao đổi, tiêu dùng sản phẩm (marketing) như giá cả, lượng hàng xuất, nhập hàng hoá, nguyên liệu 8
  8. * Các hiện tượng dân số, lao động như tỷ lệ sinh, tử, nguồn lao động, sự phân bố dân cư, lao động * Các hiện tượng về văn hoá, sức khoẻ như trình độ văn hoá, số người mắc bệnh, các loại bệnh, phòng chống bệnh * Các hiện tượng về đời sống chính trị, xã hội, bầu cử, biểu tình * Ngoài ra thống kê còn nghiên cứu ảnh hưởng của các hiện tượng tự nhiên đến sự phát triển của các hiện tượng kinh tế xã hội, như ảnh hưởng của khí hậu, thời tiết, của các biện pháp kỹ thuật tới quá trình sản xuất nông nghiệp, kết quả sản xuất nông nghiệp và đời sống nhân dân. 1.2.2. Thống kê nghiên cứu mặt lượng trong mối liên hệ chặt chẽ với mặt chất của số lớn hiện tượng và quá trình kinh tế xã hội a) Mặt lượng (những biểu hiện cụ thể, đo lường được) * Quy mô của hiện tượng: Các mức độ to nhỏ, lớn bé, rộng hẹp. Ví dụ: Diện tích canh tác của 1 doanh nghiệp nông nghiệp A năm 2005 là 500 ha, dân số trung bình của Việt Nam 2003 là 80,90 triệu người (Niên giám thống kê 2003), tổng số sinh viên của 1 lớp năm học 2005 - 2006 là 80 người. * Kết cấu của hiện tượng: Hiện tượng tạo nên từ các bộ phận nào, mỗi bộ phận chiếm bao nhiêu %; Ví dụ: Lớp có 50 học sinh, nam là 40 học sinh, chiếm 80%, nữ là 10, chiếm 20%. * Tốc độ phát triển của hiện tượng: So sánh mức độ của hiện tượng theo thời gian để thấy mức độ tăng hay giảm của hiện tượng; * Trình độ phổ biến của hiện tượng: Tính cụ thể phạm vi xảy ra hiện tượng, cá biệt hay phổ biến từ đó thấy được ảnh hưởng của nó tới hiện tượng lớn hơn. Ví dụ: Tỷ lệ tai nạn giao thông xe máy năm 2004 là 2%, có nghĩa là cứ 100 người đi xe máy thì có 2 người tai nạn * Mối quan hệ tỷ lệ giữa các hiện tượng hoặc giữa các tiêu thức của cùng một hiện tượng. b) Liên hệ chặt chẽ với mặt chất của số lớn hiện tượng 9
  9. * Thông qua các mặt lượng của hiện tượng để đánh giá bản chất của hiện tượng như quy mô to nhỏ, bộ phận nào nhiều hay ít, xu hướng tiến lên hay giảm đi, mức độ phổ biến của hiện tượng thế nào nhưng để đánh giá một cách khách quan bản chất của hiện tượng thì mặt lượng của hiện tượng phải được thể hiện ở số lớn đơn vị chứ không phải ở từng đơn vị cá biệt. Ví dụ, đánh giá kết quả học tập 2 sinh viên A, B cần dựa vào kết quả học tập nhiều học kỳ, nhiều môn; dựa vào ý thức phấn đấu, sự tham gia các phong trào đoàn, quan hệ bạn bè Việc làm như vậy người ta gọi là nghiên cứu mặt lượng ở số lớn . Nhưng để hiểu sâu sắc hơn bản chất của hiện tượng, người ta cũng nghiên cứu những đơn vị tiên tiến, hoặc lạc hậu là những biểu hiện cá biệt. * Thống kê không nghiên cứu bản chất và quy luật của hiện tượng, mà thông qua mặt lượng có thể đánh giá được bản chất và tính quy luật của hiện tượng. 1.2.3. Thống kê nghiên cứu các hiện tượng và quá trình kinh tế xã hội trong điều kiện địa điểm và thời gian cụ thể Mỗi hiện tượng, hay quá trình kinh tế xã hội ở thời gian, địa điểm khác nhau thì mặt lượng cũng khác nhau. Do đó, đối tượng nghiên cứu của thống kê học cũng cần cụ thể hoá ở thời gian nào, địa điểm nào hay trả lời câu hỏi bao giờ ? và ở đâu ? 1.3 Phương pháp nghiên cứu 1.3.1. Phương pháp luận của thống kê - Khái niệm: Tổng hợp về mặt lý luận các phương pháp chuyên môn của thống kê gọi là phương pháp luận của thống kê học - Cơ sở phương pháp luận: Dựa vào định luật số lớn trong lý thuyết xác suất đã xác định. Định luật này được vận dụng và thể hiện là quan sát số lớn các đơn vị cá biệt đến mức đủ lớn để có thể tổng hợp, phân tích, đánh giá bản chất khách quan và tính quy luật của hiện tượng. Vì từ sự kiện cá biệt, ngẫu nhiên quan sát số lớn giúp chúng ta suy ra sự kiện chung. Qua tổng hợp số lớn, sự kiện cá biệt sẽ bù trừ cho nhau. - Mức độ lớn phụ thuộc vào hiện tượng và mục đích nghiên cứu. Phương pháp luận này của thống kê được thể hiện rất rõ trong các phương pháp chuyên 10
  10. môn của thống kê. 1.3.2. Các phương pháp chuyên môn của thống kê - Điều tra thống kê: Điều tra toàn bộ, điều tra chọn mẫu, điều tra trực tiếp, điều tra gián tiếp; - Tổng hợp thống kê: Hệ thống hoá các tài liệu, phân tổ thống kê. - Phân tích thống kê: Phân tích mức độ, động thái, mối liên hệ 1.4. Các khái niệm thường dùng trong thống kê 1.4.1 Tổng thể thống kê Tổng thể thống kê là một tập hợp các đơn vị cá biệt về sự vật, hiện tượng trên cơ sở một đặc điểm chung nào đó cần được quan sát, phân tích mặt lượng của chúng. Các đơn vị, phần tử tạo nên hiện tượng gọi là các đơn vị tổng thể. Như vậy để xác định được tổng thể thống kê cần phải xác định được tất cả các đơn vị tổng thể của nó. Thực chất của việc xác định tổng thể thống kê là việc xác định các đơn vị tổng thể. Nếu các đơn vị của tổng thể được thể hiện một cách rõ ràng, dễ xác định thì tổng thể đó được gọi là tổng thể bộc lộ. Ngược lại đơn vị của tổng thể không được nhận biết một cách trực tiếp, ranh giới của tổng thể không rõ ràng được gọi là tổng thể tiềm ẩn. Đối với tổng thể tiềm ẩn, việc tìm đầy đủ và chính xác gặp nhiều khó khăn. Dó đó dễ bị nhầm lẫn, bỏ sót các đơn vị trong tổng thể. 1.4.2 Mẫu Mẫu là một bộ phận của tổng thể, đảm bảo được tính đại diện và được chọn ra để quan sát và dùng để suy diễn cho toàn bộ tổng thể. Như vậy tất cả các phần tử của mẫu đều phải thuộc tổng thể, nhưng các phần tử của tổng thể chưa chắc đã thuộc mẫu. Việc chọn mẫu đại diện cho tổng thể không phải dễ dàng, trên thực tế chỉ cố gắng giảm sự sai biệt giữa mẫu và tổng thể chứ không thể khắc phục hoàn toàn. 1.4.3 Tiêu thức thống kê Các đơn vị tổng thể thường có nhiều đặc điểm khác nhau, song trong thống kê người ta chỉ chọn một số đặc điểm để nghiên cứu, các đặc điểm này người ta gọi là tiêu thức thống kê. Như vậy, tiêu thức thống kê là các đặc điểm của đơn vị tổng thể. Mỗi tiêu thức thống kê đều có giá trị biểu hiện của nó. 11
  11. Phân loại tiêu thức thông kê dựa vào sự biểu hiện : + Tiêu thức thuộc tính : là tiêu thức phản ánh loại hoặc tính chất của đơn vị + Tiêu thức số lượng : là đặc trưng của đơn vị tổng thể được biểu hiện bằng con số. Gồm 2 loại: Loại rời rạc: là loại các giá trị có thể của nó là hữu hạn hay vô hạn và có thể đếm được. Loại liên tục: là loại mà giá trị của nó có thể nhận bất kỳ một trị số nào trong một khoảng nào đó. 1.4.4 Tham số thống kê Là giá trị quan sát được của tổng thể và dùng để mô tả đặc trưng của hiện tượng nghiên cứu. Ví dụ: trung bình tổng thể, tỷ lệ tổng thể 1.4.5 Tham số mẫu Là giá trị tính toán được của một mẫu và được dùng để suy rộng cho tham số tổng thể. Ví dụ: trung bình mẫu, tỷ lệ mẫu 1.5.Các loại thang đo 1.5.1 Khái niệm - Số đo: là việc gán những dữ kiện lượng hoá hay những ký hiệu cho những hiện tượng quan sát - Thang đo: là tạo ra một thang điểm để đánh giá đặc điểm của đối tượng được nghiên cứu thể hiện qua sự đánh giá, nhận xét. 1.5.2 Các loại thang đo - Thang đo danh nghĩa: là loại thang đo sử dụng cho các dữ liệu thuộc tính mà các biểu hiện của dữ liệu không có sự hơn kém, khác biệt về thứ bậc. Các con số không có quan hệ hơn kém, không thực hiện được các phép tính đại số. - Thang đo thứ bậc: là loại thang đo dành cho các dữ liệu thuộc tính. Trường hợp này biểu hiện dữ liệu có sự so sánh, không thực hiện được các phép tính đại số. - Thang đo khoảng: là loại thang đo dành cho các dữ liệu số lượng. Đây là loại thang đo được dùng để xếp hạng các đối tượng nghiên cứu nhưng khoảng cách bằng nhau trên thang đo đại diện cho khoảng cách bằng nhau trong đặc điểm của đối tượng. Thang đo này có thể thực hiện phép tính đại số, trừ phép chia ( : ) không có ý nghĩa 12
  12. - Thang đo tỷ lệ: là loại thang đo có thể dùng dữ liệu số lượng. Ngoài đặc tính của thang đo khoảng, trong thang đo này phép chia có thể thực hiện. 1.6. Thu thập thông tin thống kê 1.6.1. Các loại thông tin cần thu thập Có nhiêu tiêu chí để phân loại thông tin. Tuỳ thuộc vào mục đích, ý nghĩa và phạm vi ứng dụng mà người ta có thể lựa chọn những tiêu thức phù hợp. ở đây trình bày một số phân loại thông tin được sử dụng chủ yếu trong nghiên cứu thống kê. a) Căn cứ tính chất của thông tin Có hai loại dữ liệu chủ yếu là dữ liệu định tính và dữ liệu định lượng. * Dữ liệu định tính là dữ liệu phản ánh tính chất và sự hơn kém về tính chất của đối tượng nghiên cứu. Thí dụ như giới tính của sinh viên (nam, hay nữ); thời gian tự học ở nhà dài hay ngắn (dưới 2 giờ; từ 2 đến 4 giờ; trên 4 giờ). Dữ liệu định tính được thu thập dễ hơn và thường dùng các thang đo định danh hay thứ bậc để xác định. * Dữ liệu định lượng là dữ liệu phản ánh mức độ hay mức độ hơn, kém theo một tiêu thức số lượng nào đó của đối tượng nghiên cứu. Thí dụ như độ tuổi của sinh viên, thời gian tự học 1 ngày, 1 tuần. Dữ liệu định lượng trong nghiên cứu thống kê thường gặp nhiều hơn, dễ áp dụng những phương pháp tính toán, phân tích hơn. Khi xác định các dữ liệu định tính, người ta thường dùng thang đo khoảng cách hay thứ bậc. Mục đích của cách phân loại này nhằm giúp cho người nghiên cứu xác định trước các phương pháp xử lý, tổng hợp và phân tích cần sử dụng cho từng loại dữ liệu sao cho phù hợp và đáp ứng mục tiêu nghiên cứu đặt ra.cấp. b) Căn cứ nguồn cung cấp Theo nguồn cung cấp thông tin có hai loại dữ liệu: dữ liệu thứ cấp và dữ liệu sơ cấp * Dữ liệu thứ cấp là dữ liệu thu thập từ những nguồn có sẵn. Những dữ liệu này đã qua tổng hợp, xử lý công bố hay xuất bản. Thí dụ: Những dữ liệu về kết quả học tập của sinh viên có thể lấy ở phòng đào tạo hay trợ lý đào tạo của từng khoa là dữ liệu thứ cấp. 13
  13. Dữ liệu thứ cấp có ưu điểm là thu thập nhanh, rẻ nhưng thiếu chi tiết và đôi khi không đáp ứng đúng yêu cầu nghiên cứu. Nguồn dữ liệu thứ cấp khá phong phú thường gặp ở các nguồn chủ yếu sau: - Nội bộ: Các số liệu báo cáo về tình hình sản xuất, tiêu thụ, tài chính, vật tư, nhân sự của các phòng ban, bộ phận; các số liệu báo cáo từ các cuộc điều tra khảo sát trước đây ở từng đơn vị (doanh nghiệp, cơ quan, ban, ngành ). - Cơ quan thống kê nhà nước: Các số liệu do các cơ quan thống kê nhà nước (Tổng cục Thống kê, Cục Thống kê, Phòng Thống kê ) cung cấp trong các niên giám thống kê. - Cơ quan chính phủ: Số liệu do các cơ quan trực thuộc Chính phủ (Bộ, cơ quan ngang bộ, Uỷ ban nhân dân các cấp) công bố hay cung cấp. Các số liệu này thường chi tiết hơn, mang tính chất đặc thù của ngành hay địa phương. - Sách, báo, tạp chí đã xuất bản. Các số liệu này thường mang tính thời sự và cập nhật cao, mức độ tin cậy tuỳ thuộc vào nguồn số liệu của từng tờ báo hay tạp chí; - Các tổ chức, hiệp hội, viện nghiên cứu, trường đại học; - Các công ty nghiên cứu và cung cấp thông tin. * Dữ liệu sơ cấp (thông tin gốc) là dữ liệu không có sẵn, dữ liệu ban đầu thu thập trực tiếp từ đối tượng nghiên cứu. Thí dụ: Các dữ liệu có liên quan đến việc tự học của sinh viên là các dữ liệu sơ cấp, không có sẵn mà chúng ta muốn có phải điều tra từ sinh viên. - Dữ liệu sơ cấp có ưu điểm là chi tiết, độ tin cậy cao đối với các tình huống cụ thể. Song hạn chế của nó là thu thập tốn kém, phụ thuộc vào trình độ chủ quan của người nghiên cứu (nhất là những tình huống dự báo). - Dữ liệu sơ cấp được thu thập bằng các cuộc điều tra khảo sát khác nhau. Dựa vào tính chất liên tục hay không liên tục của thu thập dữ liệu sơ cấp, người ta chia thành 2 loại là điều tra thường xuyên và điều tra không thường xuyên. + Điều tra thường xuyên là loại điều tra nhằm thu thập các thông tin ban đầu về hiện tượng cần nghiên cứu một cách có hệ thống theo sát với sự biến động của hiện tượng. Thí dụ: Ghi chép tình hình sinh, tử, chuyển đến, chuyển đi trong theo dõi và quản lý 14
  14. nhân khẩu của một địa phương. Việc theo dõi, ghi chép hàng ngày về số lượng công nhân đi làm, số lượng sản phẩm bán ra, mua vào trong công ty thương mại (Bách hoá Trâu Quỳ). Dữ liệu của điều tra thường xuyên làm cơ sở để lập báo cáo thống kê định kỳ. + Điều tra không thường xuyên là loại điều tra thống kê nhằm thu thập các dữ liệu ban đầu về hiện tượng nghiên cứu một cách không thường xuyên, không liên tục mà chỉ tiến hành khi có nhu cầu cần nghiên cứu. Thí dụ: Điều tra dân số, điều tra thị trường, điều tra đất đai nông nghiệp, điều tra lao động và việc làm . Dữ liệu của điều tra không thường xuyên phản ánh trạng thái của hiện tượng tại một thời điểm nhất định. Nó có thể được tiến hành định kỳ (3 tháng, 6 tháng, 2 năm, 5 năm, 10 năm) hoặc không theo định kỳ. Dựa theo phạm vi điều tra thống kê người ta chia thành 2 loại: Điều tra toàn bộ và điều tra không toàn bộ. + Điều tra toàn bộ là điều tra thống kê nhằm thu thập dữ liệu ban đầu ở tất cả các đơn vị tổng thể hiện tượng nghiên cứu (còn gọi là tổng điều tra, tổng kiểm kê). Ví dụ tổng điều tra dân số, tổng kiểm kê tài chính cuối năm, báo cáo kết quả học từng môn tất cả sinh viên học kỳ I, II. Ưu điểm của điều tra toàn bộ là cung cấp dữ liệu khá đầy đủ, phong phú và đảm bảo tin cậy. Các dữ liệu này giúp ta tính toán các chỉ tiêu thể hiện quy mô, cơ cấu, biến động và dự đoán xu hướng biến động của hiện tượng. Nhược điểm của điều tra toàn bộ là chi phí tốn kém, thời gian kéo dài, không áp dụng cho mọi trường hợp được và mức độ chính xác không đồng đều. Điều tra không toàn bộ là điều tra thống kê nhằm thu thập dữ liệu ban đầu ở một số đơn vị của tổng thể hiện tượng nghiên cứu. Yêu cầu của điều tra không toàn bộ cần xác định rõ 3 vấn đề: - Số đơn vị điều tra: Tuỳ theo yêu cầu và điều kiện nghiên cứu, người ta có thể chọn từ tổng thể hiện tượng nghiên cứu một số đơn vị để điều tra là nhiều hay ít. - Phương pháp chọn số đơn vị mẫu điều tra: Chọn ngẫu nhiên hay phi ngẫu nhiên (lí thuyết xác suất). 15
  15. - Các đơn vị được chọn ra phải đáp ứng được mục đích và yêu cầu nghiên cứu để kết quả điều tra có thể suy rộng cho tổng thể chung. Ưu điểm của điều tra không toàn bộ là chi phí ít tốn kém, thời gian nhanh, khả năng thu thập tài liệu cũng tỉ mỉ, đảm bảo chính xác, kịp thời và áp dụng cho những trường hợp nghiên cứu mà hiện tượng đó không thể áp dụng điều tra toàn bộ. Nhược điểm chủ yếu là tài liệu nếu thu thập từ các đơn vị điều tra được chọn không đáp ứng yêu cầu, mục đích nghiên cứu thì phản ánh không đúng thực tế khách quan. Vì vậy khâu chọn đơn vị điều tra rất quan trọng. Ví dụ: Điều tra năng suất, sản lượng cây trồng, gia súc, điều tra chi phí, giá thành sản phẩm, điều tra mức sống, điều tra chất lượng sản phẩm. Tuỳ theo cách chọn đơn vị điều tra mà điều tra không toàn bộ được chia thành 3 loại sau: - Điều tra chọn mẫu: Loại điều tra chỉ tiến hành thu thập dữ liệu ở một số đơn vị được chọn ra từ tổng thể hiện tượng nghiên cứu. Các đơn vị này phải mang tính chất đại biểu cho tổng thể. Kết quả điều tra chọn mẫu có thể suy ra kết quả chung cho cả tổng thể. Hiện nay đây là loại điều tra không toàn bộ khoa học nhất được áp dụng nhiều nhất trong nghiên cứu kinh tế - xã hội. Ví dụ: Điều tra mức sống dân cư, điều tra kinh tế hộ, điều tra năng suất cây trồng - Điều tra trọng điểm: Loại điều tra chỉ tiến hành điều tra ở bộ phận tập trung lớn nhất của tổng thể hiện tượng nghiên cứu. Kết quả điều tra của bộ phận này không có ý nghĩa suy rộng mà chỉ dùng làm căn cứ để nhận định, đánh giá chung về các đặc điểm, nội dung chủ yếu của tổng thể. Ví dụ: Điều tra tình hình sản xuất cây ăn quả đặc sản như nhãn lồng, vải thiều thì thực hiện chủ yếu ở vùng Hưng Yên, Lục Ngạn; cà phê, hạt tiêu chủ yếu ở Đắc Lắc. - Điều tra chuyên đề: Loại điều tra chỉ tiến hành điều tra ở một hoặc một số đơn vị tổng thể điển hình (thường là một đơn vị tiên tiến hay lạc hậu) về một đặc tính nào đó, nghiên cứu tỉ mỉ và nhiều khía cạnh. Kết quả điều tra nhằm rút ra kinh nghiệm và phổ biến kinh nghiệm để có thể vận dụng chung cho các điều kiện tương tự. Ví dụ: Điều tra báo cáo kết quả học tập, kinh nghiệm học tập, người tốt, việc tốt. 16
  16. 1.6.2. Chất lượng thông tin Thông tin có ích là những thông tin có độ chính xác cao, độ bất định thấp. Thông tin có ích là thông tin có chất lượng phải đảm bảo 3 yêu cầu: đầy đủ, chính xác và kịp thời. * Đầy đủ: Đủ, đúng các nội dung, các đơn vị hoặc các hiện tượng thuộc phạm vi nghiên cứu. * Chính xác: Phản ánh đúng thực tế tình hình các đơn vị, các nội dung mà con người cần biết * Kịp thời: Thông tin phản ảnh đúng lúc mà con người cần sử dụng. 1.6.3.Các phương pháp thu thập thông tin a) Phương pháp trực tiếp Theo phương pháp này, người làm công tác điều tra phải tự mình trực tiếp quan sát, phỏng vấn thực tế, cân, đong, đo đếm và tự ghi chép tài liệu.  Quan sát: là phương pháp thu thập dữ liệu bằng cách quan sát hành động, hành vi, thái độ của đối tượng được điều tra. Phương pháp này tỏ ra có hiệu quả trong trường hợp đối tượng khó tiếp cận và tăng tính khách quan của đối tượng. Song phương pháp này khá tốn kém và thu thập được ít thông tin.  Phỏng vấn trực tiếp: Phương pháp này phù hợp cho những cuộc điều tra cần thu thập nhiều thông tin, nội dung thông tin cần thu thập tương đối phức tạp, cần chi tiết. Phương pháp này có 2 hình thức: + Phỏng vấn cá nhân: Nhân viên điều tra phỏng vấn đối tượng cung cấp thông tin tại nhà riêng hoặc nơi làm việc. + Phỏng vấn nhóm: Nhân viên điều tra phỏng vấn từng nhóm để thảo luận về một vấn đề nào đó. Trường hợp này thường được sử dụng khi điều tra thử để kiểm tra lại nội dung của bảng câu hỏi được hoàn chỉnh chưa, hay để tìm hiểu một vấn đề phức tạp mà bản thân người nghiên cứu chưa nắm được một cách đầy đủ cần phải có ý kiến cụ thể của những người am hiểu. Ví dụ: Trong điều tra dân số, theo dõi thí nghiệm, điều tra năng suất cây trồng, khối lượng gia súc người điều tra đều phải trực tiếp phỏng vấn, đo, đếm để thu thập dữ liệu. Ưu điểm của phương pháp này là tài liệu đảm bảo chính xác nên thường được áp dụng 17
  17. phổ biến. Tuy nhiên phương pháp này có nhược điểm chủ yếu là tốn nhiều kinh phí (cả về nhân lực và thời gian). b) Phương pháp gián tiếp Theo phương pháp này, người điều tra thu thập tài liệu theo các nội dung cần nghiên cứu phải thông qua một phương tiện trung gian như điện thoại, thư tín, hoặc các chứng từ sổ sách đã ghi chép ở thời gian trước. Ví dụ điều tra thu chi trong doanh nghiệp, điều tra tình hình sinh tử, điều tra tài sản Ưu điểm của phương pháp này là đỡ tốn kém, nhưng có nhược điểm là mức độ đầy đủ và chính xác không cao, nên chỉ áp dụng trong những trường hợp khó khăn hoặc không có điều kiện thu thập trực tiếp. Gửi thư: Theo phương pháp này nhân viên điều tra gửi bảng câu hỏi đến đối tượng cung cấp thông tin qua đường bưu điện. Phương pháp này có thể thu thập được khối lượng thông tin lớn, tiết kiệm chi phí. Song nhược điểm lớn nhất của phương pháp này là tỷ lệ trả lời thấp. Phỏng vấn qua điện thoại: Phương pháp này thu thập thông tin bằng cách phỏng vấn qua điện thoại. Phương pháp này cho phép thu thập thông tin một cách nhanh chóng. Nhược điểm của phương pháp này là tốn kém, nội dung thu thập thông tin bị hạn chế. 18
  18. Chương II TỔNG HỢP VÀ TRÌNH BÀY DỮ LIỆU 2.1. Khái niệm phân tổ thống kê và tiêu thức phân tổ Phân tổ thống kê là căn cứ vào một (hay một số) tiêu thức nào đó để phân chia tổng thể thống kê thành các tổ (tiểu tổ) có tính chất khác nhau. Ví dụ, phân chia nhân khẩu trong nước thành các tổ nam và nữ (căn cứ vào giới tính), thành các tổ có độ tuổi khác nhau (căn cứ vào độ tuổi), v.v Một ví dụ khác: Phân chia chỉ tiêu giá trị tăng thêm của sản xuất công nghiệp thành các tổ là kinh tế nhà nước và kinh tế ngoài nhà nước (căn cứ vào hình thức sở hữu), thành các ngành công nghiệp riêng biệt (căn cứ vào hoạt động sản xuất công nghiệp), v.v Phân tổ thống kê là phương pháp cơ bản của tổng hợp thống kê, là một trong những phương pháp quan trọng của phân tích thống kê, đồng thời là cơ sở để vận dụng các phương pháp phân tích thống kê khác như phương pháp chỉ số, phương pháp tương quan, phương pháp cân đối, Tiêu thức thống kê (đặc điểm của đơn vị tổng thể để nhận thức hiện tượng nghiên cứu) được chọn làm căn cứ để phân tổ thống kê gọi là tiêu thức phân tổ. Tiêu thức phân tổ thống kê được chia thành 2 loại: Tiêu thức số lượng và tiêu thức thuộc tính. Tiêu thức số lượng là tiêu thức có thể biểu diễn được bằng con số, ví dụ độ tuổi, thu nhập bình quân của hộ gia đình, trình độ văn hoá, mức năng suất lao động, tiền lương bình quân, Tiêu thức thuộc tính là tiêu thức không thể biểu hiện được bằng con số, ví dụ giới tính, nghề nghiệp, dân tộc, tôn giáo, 2.2. Các loại phân tổ và cách thức tiến hành phân tổ Trong thống kê, có thể phân tổ theo một tiêu thức (gọi là phân tổ đơn) hoặc phân tổ theo hai hay nhiều tiêu thức (gọi là phân tổ kết hợp). 2.2.1. Phân tổ theo một tiêu thức Phân tổ theo một tiêu thức là cách phân tổ đơn giản nhất và cũng thường được sử dụng nhất. 19
  19. Cách tiến hành phân tổ, thường theo các bước sau: + Chọn tiêu thức phân tổ: Chọn tiêu thức để phân tổ là vấn đề mang tính cốt lõi của phân tổ thống kê, vì phân tổ theo các tiêu thức khác nhau sẽ đáp ứng những mục đích nghiên cứu khác nhau, biểu hiện các khía cạnh khác nhau của tập hợp thông tin. Phải căn cứ vào mục đích nghiên cứu và bản chất của hiện tượng để xác định tiêu thức phân tổ cho phù hợp, đồng thời cần phải xét đến điều kiện cụ thể của hiện tượng. + Xác định số tổ và khoảng cách tổ: Số lượng tổ phụ thuộc vào số lượng thông tin và phạm vi biến động của tiêu thức nghiên cứu. Lượng thông tin càng nhiều, phạm vi biến động của tiêu thức càng lớn thì càng phải phân làm nhiều tổ. - Phân tổ theo tiêu thức thuộc tính. Ở đây sự khác nhau giữa các tổ được biểu hiện bằng sự khác nhau giữa các loại hình. Nếu các loại hình tương đối ít, ta có thể coi mỗi loại hình là một tổ, tức là có bao nhiêu loại hình sẽ có bấy nhiêu tổ. Trường hợp số loại hình thực tế có nhiều, nếu như coi mỗi loại hình là một tổ thì số tổ sẽ quá nhiều, không thể khái quát chung được, cũng như không nêu được đặc điểm khác nhau giữa các tổ, cho nên cần phải ghép những loại hình giống nhau hoặc gần giống nhau vào cùng một tổ. - Phân tổ theo tiêu thức số lượng. Phân tổ theo tiêu thức số lượng là phân các đơn vị của tổng thể có lượng biến tương ứng với trị số khác nhau của tiêu thức phân tổ vào các tổ khác nhau. Trường hợp sự biến thiên về lượng giữa các đơn vị không chênh lệch nhau nhiều và l- ượng biến thiên của tiêu thức phân tổ chỉ thay đổi trong phạm vi hẹp và biến động rời rạc như số lượng người trong gia đình, số điểm kết quả học tập của học sinh, số máy do công nhân phụ trách, v.v thì có thể mỗi lượng biến là cơ sở để hình thành một tổ, hoặc ghép một số lượng biến vào một tổ tùy theo đặc tính của hiện tượng và mục đích nghiên cứu. Ví dụ: Phân tổ học sinh theo điểm kết quả học tập, ta có thể phân thành 10 tổ hoặc phân thành 5 tổ: Yếu, kém, trung bình, khá và giỏi. Trường hợp lượng biến của tiêu thức biến thiên lớn, nếu mỗi lượng biến hình thành một 20
  20. tổ thì số tổ sẽ quá nhiều, đồng thời không nói rõ sự khác nhau về chất giữa các tổ. Trong tr- ường hợp này cần chú ý tới mối liên hệ giữa lượng và chất trong phân tổ. Nghĩa là phải xem sự thay đổi về lượng đến mức độ nào thì bản chất của hiện tượng mới thay đổi và làm nảy sinh ra tổ khác. Như vậy mỗi tổ sẽ bao gồm một phạm vi lượng biến, có hai giới hạn: Giới hạn dưới là lượng biến nhỏ nhất và giới hạn trên là lượng biến lớn nhất của tổ; nếu vượt quá giới hạn này thì chất lượng thay đổi và chuyển sang tổ khác. Trị số chênh lệch giữa giới hạn trên và giới hạn dưới của mỗi tổ gọi là khoảng cách tổ (khoảng cách tổ có thể bằng nhau hoặc không bằng nhau). Việc xác định khoảng cách tổ đều nhau hay không đều nhau là phải căn cứ vào đặc điểm của hiện tượng nghiên cứu. Phân tổ phải đảm bảo các đơn vị phân phối vào một tổ đều có cùng một tính chất và sự khác nhau về lượng giữa các tổ phải nêu rõ sự khác nhau về chất giữa các tổ. Trong thực tế, sự thay đổi về lượng của các bộ phận trong hiện tượng thường không diễn ra một cách đều đặn. Do đó trong rất nhiều trường hợp nghiên cứu phải phân tổ theo khoảng cách tổ không đều nhau. Riêng đối với các hiện tượng tương đối đồng nhất và lượng biến trên các đơn vị thay đổi một cách đều đặn, thì thường phân tổ với khoảng cách tổ đều nhau. Cách phân tổ này tạo điều kiện thuận lợi cho việc vận dụng các công thức toán học và dễ dàng trình bày số liệu trên các đồ thị thống kê. Việc phân tổ với khoảng cách tổ đều nhau tương đối đơn giản và trị số khoảng cách tổ được xác định như sau: Lượng biến lớn nhất – Lượng biến nhỏ nhất Khoảng cách tổ = Số tổ cần thiết + Phân các đơn vị vào các tổ tương ứng: Căn cứ vào lượng biến của từng đơn vị để phân đơn vị đó vào tổ có trị số của tiêu thức theo khoảng cách tổ phù hợp đã được xác định ở trên. + Xác định tần số phân phối: Trên cơ sở số liệu đã phân tổ dễ dàng xác định được số đơn vị (tần số) của từng tổ. Hiện nay máy tính có thể giúp ta xác định các đại lượng trong phân tổ một cách rất thuận tiện và nhanh chóng. 21
  21. 2.2.2. Phân tổ theo nhiều tiêu thức Phân tổ theo nhiều tiêu thức (còn gọi là phân tổ kết hợp) cũng được tiến hành giống như phân tổ theo một tiêu thức. Trước tiên phải xác định cần phân tổ theo những tiêu thức nào. Muốn chọn tiêu thức phân tổ phù hợp phải căn cứ vào mục đích nghiên cứu, vào bản chất của hiện tượng, vào mối liên hệ giữa các tiêu thức Sau đó tiếp tục xác định xem tiêu thức nào phân trước, tiêu thức nào phân sau và theo mỗi tiêu thức sẽ phân làm bao nhiêu tổ. Có thể phân tổ theo 2, 3, 4 tiêu thức hoặc nhiều hơn nữa. Song khi phân tổ phải căn cứ vào mục đích nghiên cứu và điều kiện số liệu để chọn bao nhiêu tiêu thức phân tổ cho phù hợp và chọn những tiêu thức nào cho có ý nghĩa nhất. Trong thực tế công tác thống kê phân tổ theo hai hoặc ba tiêu thức là thường gặp nhất; ví dụ dân số phân theo độ tuổi và giới tính, GDP phân theo khu vực và ngành kinh tế, (2 tiêu thức); cán bộ khoa học công nghệ phân theo trình độ chuyên môn, giới tính và lĩnh vực hoạt động khoa học; khách du lịch phân theo quốc tịch, mục đích du lịch và giới tính, (theo 3 tiêu thức). 2.3. Bảng thống kê 2.3.1 Khái niệm, ý nghĩa * Khái niệm:Bảng thống kê là một hình thức trình bày kết quả tổng hợp số liệu thống kê theo từng nội dung riêng biệt nhằm phục vụ cho yêu cầu của quá trình nghiên cứu thống kê. * Ý nghĩa: - Phản ánh đặc trưng cơ bản của từng tổ và của cả tổng thể; - Mô tả mối liên quan mật thiết giữa các số liệu thống kê; - Làm cơ sở áp dụng các phương pháp phân tích thống kê khác nhau một cách dễ dàng 2.3.2 Kết cấu của bảng thống kê + Về hình thức - Bảng thống kê bao gồm các hàng ngang và cột dọc, các tiêu đề và các tài liệu con số. - Hàng ngang cột dọc phản ánh quy mô của bảng thống kê, thường được đánh số thứ tự. 22
  22. - Ô của bảng dùng để điền số liệu thống kê. - Tiêu đề của bảng: Phản ánh nội dung của bảng và của từng chỉ tiêu trong bảng. Có 2 loại tiêu đề: Tiêu đề chung: Tên bảng. Tiêu đề nhỏ (mục): Tên hàng, cột. - Các số liệu được ghi vào các ô của bảng, mỗi số liệu phản ánh đặc trưng về mặt lượng của hiện tượng nghiên cứu. - Hình thức của bảng được mô tả qua sơ đồ sau: Tên bảng: Tên cột (Phần giải thích) Tên hàng 1 2 3 4 k Cộng cột A.(Phần chủ đề) B. C. Cộng hàng Chú thích của bảng : * Về nội dung: chia thành 2 phần: Phần chủ để và phần giải thích. - Phần chủ để: Nội dung phần chủ đề nhằm nêu rõ tổng thể nghiên cứu được phân thành những bộ phận nào, hoặc mô tả đối tượng nghiên cứu là những đơn vị nào, loại hình gì, tên địa phương hoặc các thời gian nghiên cứu khác nhau. Hay nói cách khác, phân chủ đề thể hiện tiêu thức phân tổ các đơn vị tổng thể thành các tổ. Vị trí của phần này thường để ở bên phải phía dưới của bảng (tên của các hàng- tiêu đề hàng). - Phần giải thích: Nội dung phần này gồm các chỉ tiêu giải thích về các đặc điểm của đối tượng nghiên cứu (giải thích phần chủ đề của bảng). Vị trí của phần này thường để ở bên trái phía trên của bảng (tên của các cột- tiêu đề cột). 23
  23. 2.3.3 Nguyên tắc lập bảng thống kê Khi sử dụng bảng thống kê để trình bày các số liệu thống kê cần tôn trọng những vấn đề mang tính nguyên tắc như sau: - Quy mô của bảng thống kê không nên quá lớn. Nếu bảng thống kê quá lớn (nhiều hàng, cột) có thể tách thành 2 hoặc 3 bảng nhỏ hơn; - Các tiêu đề, tiêu mục nên ngắn gọn, chính xác và dễ hiểu; - Các hàng và các cột được ghi kí hiệu và đánh số; - Các chỉ tiêu giải thích sắp xếp hợp lí; - Cách ghi số liệu vào bảng thống kê theo quy ước sau: (-): Không có tài liệu; ( ): Biểu thị số liệu còn thiếu có thể bổ sung; (x) Biểu thị hiện tượng không có liên quan đến chỉ tiêu đó; Các đơn vị có cùng 1 đơn vị tính toán giống nhau phải ghi theo mức độ chính xác như nhau (0,1 hay 0,01 ) theo nguyên tắc làm tròn số. - Cuối bảng cần có ghi chú giải thích tài liệu trong bảng như nguồn tài liệu trích, cách tính 2.3.4 Các loại bảng thống kê * Bảng đơn giản: Bảng thống kê mà phần chủ đề không phân tổ, chỉ liệt kê các đơn vị tổng thể, tên gọi các địa phương hoặc các thời gian khác nhau của quá trình nghiên cứu. Thí dụ: Bảng 9.3. Hiện trạng đất đai và dân số trung bình của vùng Tây Nguyên năm 2002 Diện tích Dân số trung bình Bình quân đất/người Các tỉnh đất(1000 ha) (1000 người) (ha/người) Kon 961,5 339,5 2,83 Tum Gia Lai 1549,6 1064,6 1,46 Đắk Lăk 1959,9 1938,8 1,01 Lâm 976,5 1064,3 0,92 ĐồngCộng 5447,5 4407,2 1,24 Nguồn: Niên giám thống kê 2003 24
  24. * Bảng tần số (bảng phân tổ): Là bảng thống kê mà tổng thể đối tượng nghiên cứu ghi trong phần chủ để được chia thành các tổ theo 1 tiêu thức nào đó. Bảng phân tổ thường bao gồm 2 cột tính toán là tần số và tần suất. Khi phân tổ theo tiêu thức thuộc tính hay tiêu thức số lượng, người ta thường đếm xem có bao nhiêu đơn vị có cùng một biểu hiện và so với tổng số quan sát thì số đơn vị có cùng biểu hiện này chiếm bao nhiêu phần trăm. Thí dụ: Bảng 10.3. Dân số trung bình của Việt Nam phân theo giới tính năm 2003 Giới tính Tần số Tần suất (1000 người) (%) Nam 39.755,4 49,14 Nữ 41.147,0 50,86 Cộng 80.902,4 100,00 Bảng phân tổ được dùng để: - Nêu rõ kết cấu và biến động kết cấu của hiện tượng nghiên cứu; - Phân tích mối liên hệ giữa các hiện tượng. * Bảng kết hợp: Là bảng trong đó tổng thể đối tượng nghiên cứu ghi ở phần chủ đề được phân tổ theo 2 tiêu thức trở lên. Bảng kết hợp giúp ta phân tích sâu hơn về đối tượng đang nghiên cứu. Bảng kết hợp thường gặp ở các dạng sau: - Bảng kết hợp 2 tiêu thức thuộc tính. Thí dụ: 25
  25. Bảng 13.3. Số người đủ 15 tuổi trở lên hoạt động kinh tế thường xuyên đã qua các trình độ đào tạo ở Việt Nam năm 2000 Tổng số Thành thị Nông thôn Diễn giải Tần số Tỷ lệ Tần số Tỷ lệ Tần số Tỷ lệ (Số (% (Số (%) (Số (% 2. Trung1. hHọọcc chuyên nghề 2256 25, 1718 26, 538 23, ngư ) ngườ ngư ) nghiệp 484859 55,1869 327180 50,2438 157679 69,3570 ời) i) ời) 3. Cao đẳng 7602 8,6 6528 10, 107 4,7 4. Đại học 90995 10, 859202 13, 4 507 2 2,2 5. Thạc sĩ 83 36 0,0 83 19 0,1 3 0,0 6. Tiến sĩ 22 9 0,0 22 3 0,0 0 0,0 NguCộngồn: Thực trạng lao độ8786ng -3 việc10 làm ở Việt6512 Nam3 nă100m 2000 227 0 10 0 0.00 3 ,00 37 0,00 Bảng 13.3 cho biết người ta đã kết hợp 2 tiêu thức định tính là trình độ đào tạo và khu vực (thành thị, nông thôn). - Bảng kết hợp 3 tiêu thức định tính Thí dụ: Số người lao động phân theo tình trạng việc làm của Hà Nội năm 2000 người ta đã kết hợp 3 tiêu thức định tính như tình trạng việc làm, tuổi quy định và giới tính ở bảng 14.3. 26
  26. Bảng 14.3. Số lượng lao động phân theo tình trạng việc làm của Hà Nội năm 2000 Thiếu việc và thất Tổng số Đủ việc làm nghiệp Diễn giải Tần số Tỷ lệ Tần số Tỷ lệ Tần số Tỷ ệ(%) (người) (%) (người) (%) (người) 1. Trong độ tuổi lao động 1300704 100 894392 68,76 406312 31,24 Nữ 638456 100 450569 70,57 187887 29,43 Nam 662248 100 443823 67,02 218425 32,98 2. Ngoài tuổi quy định 1376585 100 935056 67,93 441529 32,07 Nữ 682719 100 478168 70,04 204551 29,96 Nam 693866 100 456888 65,85 236978 34,15 Nguồn: Thực trạng lao động – việc làm ở Việt Nam năm 2000 - Bảng kết hợp giữa tiêu thức số lượng với tiêu thức thuộc tính Thí dụ: Số người lao động phân theo tình trạng việc làm của Hà Nội năm 2000 người ta đã kết hợp 3 tiêu thức, trong đó 2 tiêu thức định tính như tình trạng việc làm và giới tính, 1 tiêu thức số lượng là độ tuổi như sau (bảng 15.3). Bảng 15.3. Số lượng lao động phân theo tình trạng việc làm của Hà Nội năm 2000 Thiếu việc và thất Tổng số Đủ việc làm Nhóm tuổi nghiệp (tuổi) Tần số Tỷ lệ Tần số Tỷ lệ Tần số Tỷ lệ (người) (%) (người) (%) (người) (%) Từ 15 - 24 225517 100 138608 61,46 86909 38,54 Từ 25 - 34 382976 10 283396 74,00 99580 26,00 Từ 35 - 44 408847 100 291292 71,25 117555 28,75 Từ 45 - 54 252854 100 165248 65,35 87606 34,65 Từ 55 - 60 45227 100 26336 58,23 18891 41,77 Trên 60 61148 100 30170 49,34 30978 50,66 Nguồn: Thực trạng lao động – việc làm ở Việt Nam năm 2000 27
  27. 2.4 Phương pháp đồ thị thống kê Phương pháp đồ thị thống kê là phương pháp trình bày và phân tích các thông tin thống kê bằng các biểu đồ, đồ thị và bản đồ thống kê. Phương pháp đồ thị thống kê sử dụng con số kết hợp với các hình vẽ, đường nét và màu sắc để trình bày các đặc điểm số lượng của hiện tượng. Chính vì vậy, ngoài tác dụng phân tích giúp ta nhận thức được những đặc điểm cơ bản của hiện tượng bằng trực quan một cách dễ dàng và nhanh chóng, đồ thị thống kê còn là một phương pháp trình bày các thông tin thống kê một cách khái quát và sinh động, chứa đựng tính mỹ thuật; thu hút sự chú ý của người đọc, giúp người xem dễ hiểu, dễ nhớ nên có tác dụng tuyên truyền cổ động rất tốt. Đồ thị thống kê có thể biểu thị: - Kết cấu của hiện tượng theo tiêu thức nào đó và sự biến đổi của kết cấu. - Sự phát triển của hiện tượng theo thời gian. - So sánh các mức độ của hiện tượng. - Mối liên hệ giữa các hiện tượng. - Trình độ phổ biến của hiện tượng. - Tình hình thực hiện kế hoạch. Trong công tác thống kê thường dùng các loại đồ thị: Biểu đồ hình cột, biểu đồ tượng hình, biểu đồ diện tích (hình vuông, hình tròn, hình chữ nhật), đồ thị đường gấp khúc và biểu đồ hình màng nhện. 2.4.1 Biểu đồ hình cột Biểu đồ hình cột là loại biểu đồ biểu hiện các tài liệu thống kê bằng các hình chữ nhật hay khối chữ nhật thẳng đứng hoặc nằm ngang có chiều rộng và chiều sâu bằng nhau, còn chiều cao tương ứng với các đại lượng cần biểu hiện. Biểu đồ hình cột được dùng để biểu hiện quá trình phát triển, phản ánh cơ cấu và thay đổi cơ cấu hoặc so sánh cũng như biểu hiện mối liên hệ giữa các hiện tượng. Ví dụ: Biểu diễn số lượng cán bộ khoa học công nghệ chia theo nam nữ của 4 năm: 2000, 2001, 2002 và 2003 qua biểu đồ 3.2.1. 28
  28. Biểu đồ 3.2.1: Hình cột phản ánh số lượng cán bộ khoa học công nghệ Người 250 Chung Nam 200 N÷ 150 100 50 0 2000 2001 2002 2003Năm Đồ thị trên vừa phản ánh quá trình phát triển của cán bộ KHCN vừa so sánh cũng như phản ánh mối liên hệ giữa cán bộ là nam và nữ. 2.4.2. Biểu đồ diện tích Biểu đồ diện tích là loại biểu đồ, trong đó các thông tin thống kê được biểu hiện bằng các loại diện tích hình học như hình vuông, hình chữ nhật, hình tròn, hình ô van, Biểu đồ diện tích thường được dùng để biểu hiện kết cấu và biến động cơ cấu của hiện tượng. Tổng diện tích của cả hình là 100%, thì diện tích từng phần tương ứng với mỗi bộ phận phản ánh cơ cấu của bộ phận đó. Biểu đồ diện tích hình tròn còn có thể biểu hiện được cả cơ cấu, biến động cơ cấu kết hợp thay đổi mức độ của hiện tượng. Trong trường hợp này số đo của góc các hình quạt phản ánh cơ cấu và biến động cơ cấu, còn diện tích toàn hình tròn phản ánh quy mô của hiện tượng. Khi vẽ đồ thị ta tiến hành như sau: - Lấy giá trị của từng bộ phận chia cho giá trị chung của chỉ tiêu nghiên cứu để xác định tỷ trọng (%)của từng bộ phận đó. Tiếp tục lấy 360 c (360 0) chia cho 100 rồi nhân với tỷ trọng của từng bộ phận sẽ xác định được góc độ tương ứng với cơ cấu của từng bộ phận. - Xác định bán kính của mỗi hình tròn có diện tích tương ứng là S: R = S : vì diện 29
  29. tích hình tròn: S = .R2. Khi có độ dài của bán kính mỗi hình tròn, ta sẽ dễ dàng vẽ được các hình tròn đó. Ví dụ: Có số lượng về học sinh phổ thông phân theo cấp học 3 năm 2001, 2002 và 2003 như bảng 3.2.1: Bảng 3.2.1: Học sinh phổ thông phân theo cấp học 2001 2002 2003 Số lượng Cơ cấu Số lượng Cơ cấu Số lượng Cơ cấu (Người) (%) (Người) (%) (Người) (%) Tổng số học sinh 1000 100,0 1140 100,0 1310 100,0 Chia ra: Tiểu học 500 50,0 600 53,0 700 53,5 Trung học cơ sở 300 30,0 320 28,0 360 27,5 Trung học phổ thông 200 20,0 220 19,0 250 19,0 Từ số liệu bảng 3.2.1 ta tính các bán kính tương ứng: Năm 2001: R 1000 / 3,14 17,84 Năm 2002: R 1140 / 3,14 19,05 Năm 2003: R 1310 / 3,14 20,42 Nếu năm 2001 lấy R = 1,00 Thì năm 2002 có R = 19,05 : 17,84 = 1,067 Năm 2003 có R = 20,42 : 17,84 = 1,144 Ta vẽ các hình tròn tương ứng với 3 năm (2001, 2002 và 2003) có bán kính là 1,00; 1, 067 và 1, 144 rồi mỗi hình tròn chia diện tích các hình tròn theo cơ cấu học sinh các cấp tương ứng như số liệu ở bảng trên lên các biều đồ. Kết quả 3 hình tròn được vẽ phản ánh cả quy mô học sinh phổ thông lẫn cơ cấu và biến động cơ cấu theo cấp học của học sinh qua các năm 2001, 2002 và 2003. 30
  30. Biều đồ 3.2.2: Biểu đồ diện tích hình tròn phản ánh số lượng và cơ cấu học sinh phổ thông 53,5% 19% 19% 20% 53% 27,5% 50% 28% 30% N¨m 2001 N¨m 2002 N¨m 2003 2.4.3 Biểu đồ tượng hình Biểu đồ tượng hình là loại đồ thị thống kê, trong đó các tài liệu thống kê được thể hiện bằng các hình vẽ tượng trưng. Biểu đồ tượng hình được dùng rộng rãi trong việc tuyên truyền, phổ biến thông tin trên các phương tiện sử dụng rộng rãi. Biểu đồ hình tượng có nhiều cách vẽ khác nhau, tuỳ theo sáng kiến của người trình bày mà lựa chọn loại hình vẽ tượng hình cho phù hợp và hấp dẫn. Tuy nhiên khi sử dụng loại biểu đồ này phải theo nguyên tắc: cùng một chỉ tiêu phải được biểu hiện bằng cùng một loại hình vẽ, còn chỉ tiêu đó ở các trường hợp nào có trị số lớn nhỏ khác nhau thì sẽ biểu hiện bằng hình vẽ có kích thước lớn nhỏ khác nhau theo tỷ lệ tương ứng. Trở lại ví dụ trên số lượng học sinh phổ thông được biểu diễn bằng các cậu bé cắp sách, năm 2002 có số lượng lớn hơn năm 2001 và năm 2003 có số lượng lớn hơn năm 2002 thì cậu bé ứng với năm 2002 phải lớn hơn cậu bé ứng với năm 2001 và cậu bé ứng với năm 2003 phải lớn hơn cậu bé ứng với năm 2002 (xem biểu đồ 3.2.3). 31
  31. Biểu đồ 3.2.3: Biểu đồ tượng hình, phản ánh số lượng học sinh phổ thông Người 1400 1310 1200 1140 1000 1000 800 600 400 200 0 2001 2002 20N03ăm 2.4.4. Đồ thị đường gấp khúc Đồ thị đường gấp khúc là loại đồ thị thống kê biểu hiện các tài liệu bằng một đường gấp khúc nối liền các điểm trên một hệ toạ độ, thường là hệ toạ độ vuông góc. Đồ thị đường gấp khúc được dùng để biểu hiện quá trình phát triển của hiện tượng, biểu hiện tình hình phân phối các đơn vị tổng thể theo một tiêu thức nào đó, hoặc biểu thị tình hình thực hiện kế hoạch theo từng thời gian của các chỉ tiêu nghiên cứu. Trong một đồ thị đường gấp khúc, trục hoành thường được biểu thị thời gian, trục tung biểu thị mức độ của chỉ tiêu nghiên cứu. Cũng có khi các trục này biểu thị hai chỉ tiêu có liên hệ với nhau, hoặc lượng biến và các tần số (hay tần suất) tương ứng. Độ phân chia trên các trục cần được xác định cho thích hợp vì có ảnh hưởng trực tiếp đến độ dốc của đồ thị. Mặt khác, cần chú ý là trên mỗi trục toạ độ chiều dài của các khoảng phân chia tương ứng với sự thay đổi về lượng của chỉ tiêu nghiên cứu phải bằng nhau. Ví dụ: Sản lượng cà phê xuất khẩu của Việt Nam qua các năm từ 1996 đến 2003 (nghìn tấn) có kết quả như sau: 283,3; 391,6; 382,0; 482,0; 733,9; 931,0; 722, 0 và 749,0. Số liệu trên được biểu diễn qua đồ thị đường gấp khúc 3.2.4. 32
  32. Đồ thị 3.2.4: Đường gấp khúc phản ánh biến động của sản lượng cà phê xuất khẩu qua các năm của Việt Nam Nghìn tấn 1.000,00 900,00 800,00 700,00 600,00 500,00 400,00 300,00 200,00 100,00 - 1996 1997 1998 1999 2000 2001 2002 2003 Năm 2.4.5. Biểu đồ hình màng nhện Biểu đồ hình màng nhện là loại đồ thị thống kê dùng để phản ánh kết quả đạt được của hiện tượng lặp đi lặp lại về mặt thời gian, ví dụ phản ánh về biến động thời vụ của một chỉ tiêu nào đó qua 12 tháng trong năm. Để lập đồ thị hình màng nhện ta vẽ một hình tròn bán kính R, sao cho R lớn hơn trị số lớn nhất của chỉ tiêu nghiên cứu (lớn hơn bao nhiêu lần không quan trọng, miễn là đảm bảo tỷ lệ nào đó để hình vẽ được cân đối, kết quả biểu diễn của đồ thị dễ nhận biết). Sau đó chia đường tròn bán kính R thành các phần đều nhau theo số kỳ nghiên cứu (ở đây là 12 tháng) bởi các đường thẳng đi qua tâm đường tròn. Nối các giao điểm của bán kính cắt đường tròn ta được đa giác đều nội tiếp đường tròn. Đó là giới hạn phạm vi của đồ thị. Độ dài đo từ tâm đường tròn đến các điểm xác định theo các đường phân chia đường tròn nói trên chính là các đại lượng cần biểu hiện của hiện tượng tương ứng với mỗi thời kỳ. Nối các điểm xác định sẽ được hình vẽ của đồ thị hình màng nhện. Ví dụ: Có số liệu về trị giá xuất, nhập khẩu hải sản của tỉnh "X" 2 năm (2002 và 2003) như sau: 33
  33. Bảng 3.2.2: Giá trị xuất khẩu hải sản trong 12 tháng của năm 2002 và 2003 ĐVT: Triệu đồng NămN NămN NămN 2002 2003 2002 2003 2002 2003 Tháng Tháng Tháng A 1 2 A 1 2 A 1 2 1 10,7 14,0 5 17,4 18,4 9 20,5 22,2 2 7,0 10,5 6 18,9 19,8 10 21,1 24,4 3 13,1 15,4 7 19,1 21,3 11 17,7 21,8 4 14,8 16,5 8 21,2 22,5 12 16,8 22,1 Từ số liệu ta nhận thấy tháng 10 năm 2003 tỉnh "X" có trị giá xuất khẩu lớn nhất (24, 4 triệu USD). Ta xem 1 triệu USD là một đơn vị và sẽ vẽ đường tròn có bán kính R = 25 > 24, 4 đơn vị. Chia đường tròn thành 12 phần đều nhau, vẽ các đường thẳng tương ứng cắt đường tròn tại 12 điểm. Nối các điểm lại có đa giác đều 12 cạnh nội tiếp đường tròn. Căn cứ số liệu của bảng ta xác định các điểm tương ứng với giá trị xuất khẩu đạt được của các tháng trong từng năm rồi nối các điểm đó lại thành đường liền ta được đồ thị hình màng nhện biểu diễn kết quả xuất khẩu qua các tháng trong 2 năm của tỉnh "X" (xem đồ thị 3.2.5). 34
  34. Đồ thị 3.2.5. Đồ thị hình màng nhện về kết quả xuất khẩu 25 12 2 20 15 11 3 10 5 10 0 4 9 5 8 6 2002 2003 7 Sự mô tả của đồ thị hình màng nhện cho phép ta quan sát và so sánh không chỉ kết quả xuất khẩu giữa các tháng khác nhau trong cùng một năm, mà cả kết quả sản xuất giữa các tháng cùng tên của các năm khác nhau cũng như xu thế biến động chung về xuất khẩu của các năm. 35
  35. Chương III ĐIỀU TRA CHỌN MẪU VÀ SAI SỐ TRONG ĐIỀU TRA CHỌN MẪU TRONG THỐNG KÊ 3.1. Điều tra chọn mẫu, ưu điểm, hạn chế và điều kiện vận dụng 3.1.1. Khái niệm điều tra chọn mẫu Điều tra chọn mẫu (ĐTCM) là loại điều tra không toàn bộ, trong đó người ta chọn một cách ngẫu nhiên một số đủ lớn đơn vị đại diện trong toàn bộ các đơn vị của tổng thể chung để điều tra rồi dùng kết quả thu thập được tính toán, suy rộng thành các đặc điểm của toàn bộ tổng thể chung. Ví dụ, để có năng suất và sản lượng lúa của một địa bàn điều tra nào đó (huyện A chẳng hạn) người ta chỉ tiến hành thu thập số liệu về năng suất và sản lượng lúa thu trên diện tích của một số hộ gia đình được chọn vào mẫu của huyện để điều tra thực tế, sau đó dùng kết quả thu được tính toán và suy rộng cho năng suất và sản lượng lúa của toàn huyện A. ĐTCM được ứng dụng rất rộng rãi trong thống kê kinh tế - xã hội như: Điều tra năng suất, sản lượng lúa; Điều tra lao động - việc làm; Điều tra thu nhập, chi tiêu của hộ gia đình; Điều tra biến động thường xuyên dân số; Điều tra chất lượng sản phẩm công nghiệp. Ngoài ra, trong tự nhiên, trong đời sống sinh hoạt của con người, trong y học, v.v chúng ta cũng đã gặp rất nhiều ví dụ thực tế đã áp dụng ĐTCM; chẳng hạn: Khi đo lượng nước mưa của một khu vực nào đó người ta chỉ chọn ra một số điểm trong khu vực và đặt các ống nghiệm (các mẫu) để đo lượng nước mưa qua các trận mưa trong từng tháng và cả năm, sau đó dựa vào kết quả nước mưa đo được từ mẫu là các ống nghiệm để tính toán suy rộng về lượng nước trung bình các tháng và cả năm cho cả khu vực; khi nghiên cứu ảnh hưởng của hút thuốc lá đối với sức khoẻ con người, người ta chọn ra một số lượng cần thiết người hút thuốc lá để kiểm tra sức khoẻ và dùng kết quả kiểm tra từ một số người đó để kết luận về ảnh hưởng của hút thuốc lá tới sức khoẻ cộng đồng, v.v 3.1.2. Ưu điểm của điều tra chọn mẫu Do chỉ tiến hành điều tra trên một bộ phận đơn vị mẫu trong tổng thể chung nên ĐTCM có những ưu điểm cơ bản sau: 36
  36. - Tiến hành điều tra nhanh gọn, bảo đảm tính kịp thời của số liệu thống kê. - Tiết kiệm nhân lực và kinh phí trong quá trình điều tra. - Cho phép thu thập được nhiều chỉ tiêu thống kê, đặc biệt đối với các chỉ tiêu có nội dung phức tạp, không có điều kiện điều tra ở diện rộng. Nhờ đó kết quả điều tra thu được sẽ phản ánh được nhiều mặt, cho phép nghiên cứu các mối quan hệ cần thiết của hiện tượng nghiên cứu. - Làm giảm sai số phi chọn mẫu (sai số do cân, đong, đo, đếm, khai báo, ghi chép, v.v ). Trong thực tế công tác thống kê sai số phi chọn mẫu luôn luôn tồn tại và ảnh hưởng không nhỏ đến chất lượng số liệu thống kê, nhất là các chỉ tiêu có nội dung phức tạp, việc tiếp cận để thu thập số liệu khó khăn, tốn nhiều thời gian trong quá trình phỏng vấn, ghi chép và đặc biệt hơn là đối với các chỉ tiêu điều tra không có sẵn thông tin mà đòi hỏi phải hồi tưởng để nhớ lại. Đối với những loại thông tin như trên, chỉ có tiến hành điều tra mẫu mới có điều kiện tuyển chọn điều tra viên tốt hơn; hướng dẫn nghiệp vụ kỹ hơn, thời gian dành cho một đơn vị điều tra nhiều hơn, tạo điều kiện cho các đối tượng cung cấp thông tin trả lời chính xác hơn, tức là làm cho sai số phi chọn mẫu ít hơn. - Cho phép nghiên cứu các hiện tượng kinh tế - xã hội, môi trường, không thể tiến hành theo phương pháp điều tra toàn bộ: Ví dụ như nghiên cứu trữ lượng khoáng sản, thuỷ sản, 3.1.3. Hạn chế của điều tra chọn mẫu - Do ĐTCM chỉ tiến hành thu thập số liệu trên một số đơn vị, sau đó dùng kết quả để suy rộng cho toàn bộ tổng thể chung nên kết quả điều tra chọn mẫu luôn tồn tại cái gọi là "Sai số chọn mẫu" - Sai số do tính đại diện. Sai số chọn mẫu phụ thuộc vào độ đồng đều của chỉ tiêu nghiên cứu, vào cỡ mẫu và phương pháp tổ chức chọn mẫu. Có thể làm giảm sai số chọn mẫu bằng cách tăng cỡ mẫu ở phạm vi cho phép và lựa chọn phương pháp tổ chức chọn mẫu thích hợp nhất. - Kết quả ĐTCM không thể tiến hành phân nhỏ theo mọi phạm vi và tiêu thức nghiên cứu như điều tra toàn bộ, mà chỉ thực hiện được ở mức độ nhất định tuỳ thuộc vào cỡ mẫu, phương pháp tổ chức chọn mẫu và độ đồng đều giữa các đơn vị theo các chỉ tiêu được điều tra. 37
  37. 3.1.4. Điều kiện vận dụng của điều tra chọn mẫu Điều tra chọn mẫu thường được vận dụng trong các trường hợp sau: - Thay thế cho điều tra toàn bộ trong những trường hợp quy mô điều tra lớn, nội dung điều tra cần thu thập nhiều chỉ tiêu, thực tế ta không đủ kinh phí và nhân lực để tiến hành điều tra toàn bộ, hơn nữa nếu điều tra toàn bộ sẽ mất quá nhiều thời gian, không đảm bảo tính kịp thời của số liệu thống kê như điều tra thu nhập, chi tiêu hộ gia đình, điều tra năng suất, sản lượng lúa, điều tra vốn đầu tư của các đơn vị ngoài quốc doanh ; hoặc không tiến hành được điều tra toàn bộ vì không thể xác định được tổng thể chung như điều tra đánh giá mức độ ô nhiễm môi trường nước của một số sông, hồ nào đó (tổng thể chung phải là toàn bộ lượng nước có trong các sông, hồ được xác định là đã bị ô nhiễm), - Quá trình điều tra gắn liền với việc phá huỷ sản phẩm như điều tra đánh giá chất lượng thịt hộp, cá hộp, đánh giá chất lượng đạn dược, y tá lấy máu của bệnh nhân để xét nghiệm, v.v Các trường hợp trên đây nếu điều tra toàn bộ thì sau khi điều tra toàn bộ sản phẩm sản xuất ra hoặc lượng máu có trong cơ thể của bệnh nhân sẽ bị phá huỷ hoàn toàn. Đây là điều không bao giờ cho phép thực hiện trong thực tế. - Để thu thập những thông tin tiên nghiệm trong những trường hợp cần thiết nhằm phục vụ cho yêu cầu của điều tra toàn bộ. Ví dụ, để thăm dò mức độ tín nhiệm của các ứng cử viên vào một chức vị nào đó thì chỉ có thể ĐTCM ở một lượng cử tri nhất định và phải được tiến hành trước khi bầu cử chính thức thì mới có ý nghĩa (Bỏ phiếu bầu cử chính thức chính là điều tra toàn bộ). - Thu thập số liệu để kiểm tra, đánh giá và chỉnh lý số liệu của điều tra toàn bộ. Trong thực tế có những cuộc điều tra toàn bộ có quy mô lớn hoặc điều tra rất phức tạp như Tổng Điều tra Dân số và Nhà ở, Tổng Điều tra Nông thôn, Nông nghiệp và Thuỷ sản, thì sai số do khai báo, thu thập thông tin thường xuyên tồn tại và ảnh hưởng đáng kể đến chất lượng số liệu. Vì vậy cần có ĐTCM với quy mô nhỏ hơn để xác định mức độ sai số này, trên cơ sở đó tiến hành đánh giá độ tin cậy của số liệu và nếu ở mức độ cần thiết có thể phải chỉnh lý lại số liệu thu được từ điều tra toàn bộ. 38
  38. 3.2. Một số khái niệm và định nghĩa dùng trong điều tra chọn mẫu 3.2.1. Tổng thể chung và tổng thể mẫu (1) a. Các tham số của tổng thể chung Tổng thể chung là toàn bộ các đơn vị thuộc đối tượng điều tra của một cuộc ĐTCM. Gọi Ui (i = 1, 2, N) là các đơn vị thuộc đối tượng điều tra với X i là trị số tiêu thức nghiên cứu của từng đơn vị tổng thể, thì toàn bộ các U i là tổng thể chung. Và khi đó sẽ có công thức tính các tham số: - Giá trị của tổng thể chung: N X X1 X2 XN Xi ; (1.1.1) i 1 - Đại lượng bình quân của tổng thể chung: X 1 N X  Xi ; (1.1.2) N N i 1 - Phương sai của tổng thể chung: N 2 1 2 S  Xi X ; (1.1.3) N i 1 b. Các tham số của tổng thể mẫu Tổng thể mẫu là bộ phận của tổng thể chung gồm những đơn vị được lựa chọn để trực tiếp thu thập thông tin trong một cuộc điều tra chọn mẫu. Gọi ui (i = 1, 2, n) là các đơn vị thuộc đối tượng điều tra được chọn vào mẫu, với x i là trị số tiêu thức nghiên cứu từng đơn vị mẫu, thì toàn bộ u i là tổng thể mẫu và n là số đơn vị tổng thể mẫu. Tổng thể mẫu có các tham số tính theo phạm vi tổng thể mẫu như sau: - Giá trị của tổng thể mẫu: n x x1 x2 xn xi ; (1.1.4) i 1 - Đại lượng bình quân mẫu: (1) Ở đây chỉ đề cập trường hợp điều tra nghiên cứu chỉ tiêu bình quân làm ví dụ. 39
  39. 1 n x x xi ; (1.1.5) n i 1 n - Phương sai mẫu điều chỉnh (gọi tắt là phương sai mẫu): n 2 1 2 s  x i x ; (1.1.6) n 1 i 1 3.2.2. Ước lượng Nội dung cơ bản của phương pháp điều tra chọn mẫu là dựa vào sự hiểu biết về tham số ' nào đó của tổng thể mẫu đã điều tra để suy luận thành tham số  của tổng thể chung. Việc suy luận đó gọi là ước lượng. a. Tiêu chuẩn của ước lượng Có ước lượng chệch và ước lượng không chệch. Tham số ' của tổng thể mẫu được gọi là ước lượng không chệch của tham số  của tổng thể chung nếu M (') =  (kỳ vọng toán của ' bằng ). Nếu ước lượng không thoả mãn điều kiện trên được gọi là ước lượng chệch. Thống kê toán đã chứng minh và rút ra một số kết luận sau: + Vì số bình quân mẫu x là ước lượng không chệch, hiệu quả và vững của số bình quân tổng thể chung x , do đó nếu chưa biết x có thể dùng x để ước lượng. + Vì phương sai điều chỉnh mẫu s 2 là ước lượng không chệch, hiệu quả và vững của phương sai chung S2, do đó nếu chưa biết phương sai S2 có thể dùng s2 để ước lượng. b. Các phương pháp ước lượng Có 2 phương pháp sử dụng ' để ước lượng : Phương pháp ước lượng điểm và phương pháp ước lượng bằng khoảng tin cậy. - Phương pháp ước lượng điểm là dùng một tham số của mẫu để suy luận cho tham số  chưa biết của tổng thể chung vì bản thân  là một số xác định. - Phương pháp ước lượng bằng khoảng tin cậy là từ một tham số ' của tổng thể mẫu xây dựng một khoảng giá trị ('1, '2) sao cho với một xác suất cho trước, tham số  sẽ rơi vào khoảng (' 1, '2) đó, hay nói cách khác là khoảng ('1, '2) sẽ chứa đựng giá trị  với một xác suất cho trước. Khoảng ('1, '2) của tham số tổng thể mẫu được gọi là khoảng tin cậy của tham số tổng thể chung  40
  40. nếu với xác suất bằng (1 – ) cho trước thoả mãn điều kiện: P ('2 <  < 'l) = 1 – ; (1 – ) được gọi là xác suất tin cậy của ước lượng, I = 2' – 'l được gọi là khoảng tin cậy. 3.2.3. Sai số chọn mẫu và phạm vi sai số chọn mẫu a. Sai số chọn mẫu Sai số chọn mẫu (SSCM) là sự khác nhau giữa giá trị ước lượng của mẫu và giá trị của tổng thể chung. Sai số chọn mẫu còn gọi là sai số do tính đại diện. Sai số này chỉ xảy ra trong điều tra chọn mẫu do chỉ điều tra một số ít đơn vị mà kết quả lại suy cho cả tổng thể. Sai số chọn mẫu có hai loại: - Sai số có hệ thống: Sai số xảy ra khi áp dụng phương pháp chọn có hệ thống, làm cho kết quả điều tra luôn bị lệch so với số thực tế về một hướng. - Sai số ngẫu nhiên: Sai số chỉ xuất hiện trong trường hợp các đơn vị của tổng thể được chọn theo nguyên tắc ngẫu nhiên, không phụ thuộc vào ý định của người điều tra. b. Phạm vi sai số chọn mẫu Phạm vi SSCM (ký hiệu là x) bằng tích của hệ số tin cậy (t) và SSCM (x) x = t.x ; (1.1.7) Trong đó: Hệ số tin cậy (tương ứng với độ tin cậy  t,) là xác suất để giá trị thực tế của chỉ tiêu nghiên cứu (X ) còn nằm trong khoảng tin cậy (x t.x đến x t.x ). Theo chứng minh của toán học thì t tương ứng với hàm xác suất ( t) đã được Li -a-pu- nôp tính sẵn và lập thành bảng. Ý nghĩa của hàm xác suất này được biểu hiện như sau: P x X x  (t) 1 Sau đây là một vài trị số tiêu biểu: t = 1 thì t = 0,6827; t = 2 thì t = 0,9545; t = 3 thì t = 0,9973 Như vậy, có thể ước lượng tham số của tổng thể chung bằng khoảng tin cậy với công thức như sau: X x x x x X x x ; (1.1.8) 41
  41. c. Ý nghĩa của việc tính toán sai số chọn mẫu - Sai số chọn mẫu dùng để ước lượng chỉ tiêu nghiên cứu theo khoảng tin cậy, điều này thể hiện qua công thức 1.1.8. - Sai số chọn mẫu dùng để đánh giá tính đại diện của chỉ tiêu nghiên cứu qua tính toán tỷ lệ SSCM (H) như sau:  H 100 ; (1.1.9) x H càng nhỏ thì chỉ tiêu có tính đại diện càng cao và ngược lại. - Là cơ sở để xác định cỡ mẫu cho các cuộc điều tra được tiến hành về sau. 3.2.4. Đơn vị chọn mẫu và dàn chọn mẫu a. Đơn vị chọn mẫu Đơn vị chọn mẫu là các đơn vị cơ bản hoặc nhóm đơn vị cơ bản được xác định rõ ràng, tương đối đồng đều và có thể quan sát được, thích hợp cho mục đích chọn mẫu. Ví dụ: Doanh nghiệp, hộ gia đình, đơn vị diện tích gieo trồng, xã, phường, xóm, bản Nếu chọn mẫu một cấp thì có một loại đơn vị chọn mẫu, còn nếu chọn mẫu nhiều cấp thì sẽ có nhiều loại đơn vị chọn mẫu. Tức là lược đồ chọn mẫu theo bao nhiêu cấp thì có bấy nhiêu loại đơn vị chọn mẫu. b. Dàn chọn mẫu Dàn chọn mẫu có thể là danh sách các đơn vị chọn mẫu với những đặc điểm nhận dạng của chúng hoặc là bản đồ chỉ ra ranh giới của các đơn vị được dùng làm căn cứ để tiến hành chọn mẫu. Khi tổ chức điều tra thống kê. Trong tổng thể nghiên cứu, tùy thuộc vào lược đồ chọn mẫu mà sẽ có các loại dàn chọn mẫu khác nhau. Nếu điều tra mẫu một cấp (giả định điều tra các hộ trên địa bàn huyện) thì dàn chọn mẫu là danh sách các hộ gia đình của tất cả các xã trong huyện. Còn nếu điều tra mẫu hai cấp, cấp I là xã và cấp II là hộ gia đình thì có hai loại dàn chọn mẫu: Dàn chọn mẫu cấp I là danh sách tất cả các xã trong huyện, còn dàn chọn mẫu cấp II là danh sách các hộ gia đình của những xã được chọn ở mẫu cấp I. 42
  42. 3.2.5. Chọn mẫu ngẫu nhiên, chọn mẫu hệ thống và chọn theo phương pháp phân tích chuyên gia - Chọn mẫu ngẫu nhiên là chọn các đơn vị từ tổng thể vào mẫu hoàn toàn hú hoạ. Cách đơn giản nhất của chọn mẫu ngẫu nhiên là rút thăm hoặc sử dụng bảng số ngẫu nhiên. - Chọn mẫu hệ thống là chọn các đơn vị từ tổng thể vào mẫu theo một khoảng cách cố định sau khi đã chọn ngẫu nhiên một nhóm nào đó trên cơ sở các đơn vị điều tra được sắp xếp thứ tự theo một tiêu thức nhất định. Ví dụ: Trường đại học "X" có 2000 sinh viên (N = 2000). Cần chọn 100 sinh viên (n = 100) để điều tra mức sống của họ. Nếu chọn hệ thống sẽ tiến hành như sau: + Lập danh sách 2000 sinh viên của trường theo thứ tự nào đó, chẳng hạn theo vần A, B, C của tên gọi. + Chia tổng số sinh viên của trường thành 100 nhóm đều nhau và sẽ có số sinh viên mỗi nhóm là 20 sinh viên: (K = N: n = 2000 : 100). + Chọn ngẫu nhiên một sinh viên ở nhóm thứ nhất, chẳng hạn rơi vào sinh viên có số thứ tự 15. + Mỗi nhóm khác còn lại sẽ chọn 1 sinh viên có số thứ tự: nhóm 2: (15+K), nhóm 3: (15+2K), ; nhóm 100: (15+99K). Kết quả chọn được 100 sinh viên như vậy được gọi là chọn hệ thống. - Chọn mẫu theo phương pháp phân tích chuyên gia là chọn mẫu trên cơ sở phân tích xem xét chủ quan của người điều tra. Cách chọn này thường áp dụng cho tổng thể có ít đơn vị mẫu hoặc trị số của chỉ tiêu nghiên cứu giữa các đơn vị mẫu chênh lệch nhau nhiều. 3.2.6. Các phương pháp tổ chức chọn mẫu Có nhiều phương pháp, tổ chức chọn mẫu khác nhau. Mỗi phương pháp có những ưu, nhược điểm riêng và được áp dụng trong những điều kiện nhất định. Tuy nhiên gọi là phương pháp này hay phương pháp kia là đứng trên những giác độ khác nhau và cũng chỉ có ý nghĩa tương đối. - Xét theo cấp chọn mẫu có phương pháp tổ chức chọn mẫu một cấp và tổ chức chọn 43
  43. mẫu hai cấp hay nhiều cấp: + Chọn mẫu một cấp là từ một loại danh sách của tất cả các đơn vị thuộc tổng thể chung, tiến hành chọn mẫu một lần trực tiếp đến các đơn vị điều tra không qua một phân đoạn nào khác. Chọn mẫu một cấp chỉ có một loại đơn vị chọn mẫu và một dàn chọn mẫu. Đối với mẫu một cấp có thể dùng cách chọn ngẫu nhiên, nhưng cũng có thể dùng cách chọn hệ thống hoặc chọn theo phương pháp chuyên gia. Tuy nhiên, trong thực tế nếu là điều tra mẫu một cấp thì phổ biến là dùng cách chọn ngẫu nhiên và thường được gọi tắt là "chọn mẫu ngẫu nhiên đơn giản". Chọn mẫu ngẫu nhiên đơn giản đảm bảo số mẫu được rải trên toàn địa bàn điều tra nên SSCM sẽ nhỏ. Song khó khăn là việc lập danh sách các đơn vị (dàn chọn mẫu) để tiến hành chọn mẫu khá lớn, tốn nhiều thời gian và công sức. Hơn nữa khi tổ chức điều tra phải thực hiện ở địa bàn rất rộng. + Chọn mẫu nhiều cấp là tiến hành điều tra theo nhiều công đoạn, trong đó mỗi công đoạn là một cấp chọn mẫu. Có bao nhiêu cấp điều tra thì có bấy nhiêu loại đơn vị chọn mẫu cũng như có bấy nhiêu loại dàn chọn mẫu. Phương pháp tổ chức chọn mẫu nhiều cấp thuận tiện cho việc lập dàn chọn mẫu và tổ chức điều tra: Ở cấp sau chỉ phải lập dàn chọn mẫu cho cấp đó trong phạm vi mẫu cấp trước được chọn, phạm vi điều tra được thu hẹp sau mỗi cấp điều tra. Tuy nhiên, với phương pháp tổ chức chọn mẫu nhiều cấp số liệu thu thập được thường có độ tin cậy thấp hơn so với chọn mẫu ngẫu nhiên đơn giản. - Nếu trước khi chọn mẫu, tiến hành phân chia tổng thể thành những tổ khác nhau theo một hay một số tiêu thức nào đó liên quan đến tiêu thức điều tra, sau đó phân bổ cỡ mẫu cho từng tổ và trong mỗi tổ lập một danh sách riêng và chọn đủ số mẫu phân bổ cho tổ đó. Cách chọn như vậy gọi là chọn mẫu phân tổ. Với phương pháp chọn mẫu phân tổ, nếu việc phân tổ được tiến hành khoa học thì tổng thể mẫu sẽ có kết cấu gần tổng thể chung, do đó SSCM sẽ giảm đi, tính chất đại diện của tổng thể mẫu được nâng cao. Tuy nhiên, chọn mẫu phân tổ cũng khó khăn trong việc lập dàn chọn mẫu như chọn mẫu ngẫu nhiên đơn giản. Hơn nữa tổ chức điều tra phải tiến hành trên địa bàn rộng, thậm 44
  44. chí còn phức tạp hơn cả chọn mẫu ngẫu nhiên đơn giản. - Nếu điều tra chia thành nhiều cấp, các cấp tiến hành trước thì chọn từng đơn vị mẫu, nhưng ở cấp cuối cùng không chọn ra từng đơn vị, mà chọn cả nhóm các đơn vị để điều tra. Cách chọn như vậy gọi là chọn mẫu chùm (hay chọn mẫu cả khối). Nếu cùng cỡ mẫu như nhau, chọn mẫu chùm so với các phương pháp tổ chức chọn mẫu nêu trên sẽ thuận tiện nhất cho việc lập dàn chọn mẫu và tổ chức điều tra. Tuy nhiên, độ tin cậy của số liệu thu thập được sẽ thấp hơn; tức là có SSCM lớn nhất. 3.3. Xác định cỡ mẫu, phân bổ mẫu và tính sai số chọn mẫu 3.3.1. Xác định cỡ mẫu (số đơn vị mẫu) Xác định cỡ mẫu (số đơn vị mẫu) chính là xác định số lượng đơn vị điều tra trong tổng thể mẫu để tiến hành thu thập số liệu. Yêu cầu của cỡ mẩu là vừa đủ để vừa đảm bảo độ tin cậy cần thiết của số liệu điều tra vừa đảm bảo phù hợp với điều kiện về nhân lực và kinh phí và có thể thực hiện được, tức là có tính khả thi. Dưới đây sẽ trình bày cách xác định cỡ mẫu đơn thuần theo lý thuyết và việc xác định cỡ mẫu trong thực tế các cuộc điều tra thống kê ở Việt Nam. a. Xác định cỡ mẫu theo các công thức lý thuyết. Một tổng thể khi tiến hành điều tra không chia thành các tổng thể nhỏ (các tổ) thì chỉ có một cách xác định cỡ mẫu trên cơ sở thông tin về quy mô và phương sai của tổng thể chung. Đối với một tổng thể khi điều tra có chia thành các tổng thể nhỏ có hai cách xác định cỡ mẫu: Cách thứ nhất xác định cỡ mẫu như trường hợp không phân tổ, sau đó phân bổ số mẫu chung cho các tổ theo nguyên tắc phân bổ mẫu. Cách thứ hai xác định cỡ mẫu trên cơ sở quy mô và phương sai của từng tổ. Sau đây sẽ giới thiệu công thức xác định cỡ mẫu theo hai cách nói trên nhưng chỉ cho trường hợp tổ chức chọn mẫu ngẫu nhiên đơn giản hoặc có phân tổ và được áp dụng cho nghiên cứu chỉ tiêu bình quân với cách chọn không lặp làm ví dụ. + Cách thứ nhất xác định cỡ mẫu trên cơ sở các thông tin về quy mô và phương sai của tổng thể chung: N.t2.S2 n 2 2 2 ; (1.1.10) N. x t .S Trong đó: 45
  45. N - Số đơn vị tổng thể chung; n - Số đơn vị mẫu; t - Hệ số tin cậy; x - Phạm vi sai số chọn mẫu; S2 - Phương sai của tổng thể chung. + Cách thứ hai xác định cỡ mẫu trên cơ sở các thông tin về quy mô và phương sai của các tổ t: K 2  wtSt n t 1 ; (1.1.11) 2 1 K x w S2 2  t t t N t 1 Trong đó: N - Số đơn vị tổng thể chung; n - Số đơn vị mẫu; t - Hệ số tin cậy; x - Phạm vi sai số chọn mẫu; wt - Tỷ trọng số đơn vị của tổ t trong tổng thể chung; K - Số lượng tổ (t = 1, 2, K); 2 St - Phương sai tổng thể chung của tổ t. Từ các công thức trên, để xác định cỡ mẫu trong quá trình chuẩn bị phương án điều tra phải có được những thông tin sau: - N: Số đơn vị tổng thể. Chỉ tiêu này có đầy đủ ở phần lớn các cuộc điều tra thống kê; - wt: Tỷ trọng số đơn vị của tổ t trong tổng thể. Đại lượng này xác định được trên cơ sở so sánh số đơn vị từng tổ (Nt) với số đơn vị toàn bộ tổng thể (N); - t , x: Hệ số tin cậy và phạm vi sai số chọn mẫu là những thông tin của chỉ tiêu điều tra và được ấn định từ trước do yêu cầu thuộc chủ quan của những người quản lý và tổ chức điều tra; 2 - St : Phương sai của từng tổ t. Số liệu để tính các phương sai trên, cần có trước khi 46
  46. điều tra, song thực tế lại không có, do vậy thường phải dùng số liệu điều tra toàn bộ của các cuộc điều tra trước (nếu có). Trường hợp không có số liệu của các cuộc điều tra trước thì phải tiến hành điều tra mẫu nhỏ. Tuy nhiên, việc điều tra mẫu nhỏ cũng khá phức tạp, mất nhiều thời gian, nhiều khi còn ảnh hưởng đến tiến độ thực hiện của cuộc điều tra chính. Một khó khăn nữa là trong một cuộc ĐTCM thường tiến hành thu thập thông tin về nhiều chỉ tiêu. Các chỉ tiêu khác nhau sẽ có quy luật phân phối và độ biến thiên khác nhau, tức là có phương sai khác nhau. Và do vậy, mỗi chỉ tiêu tính ra sẽ có một cỡ mẫu riêng (mặc dù yêu cầu về độ tin cậy (t) của các chỉ tiêu điều tra như nhau). Nói cách khác, có bao nhiêu chỉ tiêu điều tra thì phải tính bấy nhiêu cỡ mẫu, sau đó sẽ chọn ra cỡ mẫu lớn nhất dùng chung cho điều tra tất cả các chỉ tiêu. Với nhiều cỡ mẫu đòi hỏi phải tính nhiều phương sai nên công việc tính toán càng trở nên phức tạp, tốn nhiều công sức, khó thực hiện. Vì những đặc điểm trên đây, trong thực tế điều tra chọn mẫu ở nước ta còn ít khi áp dụng một cách trực tiếp các công thức trên để xác định cỡ mẫu. Ngành Thống kê trong những năm gần đây đã có một số cuộc điều tra chọn mẫu mà các chuyên gia chọn mẫu đã dựa vào thông tin của các cuộc điều tra có liên quan trước đó để xác định cỡ mẫu theo công thức lý thuyết. Song kết quả thu được còn khiêm tốn. b. Xác định cỡ mẫu theo kinh nghiệm điều tra thực tế. Trong thực tế nhiều khi các chuyên gia thống kê thường căn cứ vào cỡ mẫu của các cuộc điều tra có điều kiện và quy mô tương tự đã thực hiện thành công trước đó ở trong nước hoặc trên thế giới để xác định cỡ mẫu cho cuộc điều tra sau. Có nhiều cách xác định cỡ mẫu nhưng phổ biến nhất vẫn dựa vào tỷ lệ mẫu chung đã được điều tra và bổ sung thêm một tỷ lệ mẫu dự phòng nào đó. Cách làm này đơn giản, nhanh chóng và dễ thực hiện, tức là có tính khả thi cao. Tuy nhiên làm như vậy chủ yếu vẫn là theo chủ nghĩa kinh nghiệm và gần như chưa tính đến mức độ biến động của các chỉ tiêu nghiên cứu. c. Xác định cỡ mẫu cũng dựa theo cỡ mẫu của cuộc điều tra nào đó (có điều kiện, quy mô tương tự và đã được tiến hành thành công), nhưng có điều chỉnh (tăng lên hoặc giảm đi) trên cơ sở phân tích tỷ lệ SSCM của một số chỉ tiêu chủ yếu. Quá trình này được tiến hành theo hai hướng: Trước hết liệt kê những chỉ tiêu chủ yếu cùng được tổ chức thu thập số liệu trong cả 2 47
  47. cuộc điều tra (cuộc điều tra trước đó đã hoàn chỉnh và cuộc điều tra lần này đang chuẩn bị); trong đó chọn ra một chỉ tiêu trong cuộc điều tra lần trước có tỷ lệ SSCM lớn nhất (từ đây chỉ tiêu được chọn gọi là chỉ tiêu nghiên cứu). Tiếp theo, tiến hành xem xét tỷ lệ SSCM của chỉ tiêu nghiên cứu tính được của cuộc điều tra lần trước và xử lý như sau: - Nếu tỷ lệ SSCM đó lớn hơn mức độ cho phép thì phải điều chỉnh cỡ mẫu của cuộc điều tra lần này tăng lên so với cuộc điều tra trước; - Nếu tỷ lệ SSCM đó nhỏ hơn mức độ cho phép thì có thể điều chỉnh cỡ mẫu giảm đi. Chú ý: + So sánh tỷ lệ SSCM là căn cứ quan trọng để điều chỉnh cỡ mẫu. Song đó không phải là căn cứ duy nhất, mà thực tế còn phải dựa vào một số yếu tố khác như sự thay đổi về quy mô tổng thể chung, thay đổi về số lượng chỉ tiêu điều tra, + Điều kiện để áp dụng cách điều chỉnh cỡ mẫu trên đây là trong cuộc điều tra kỳ trước phải tính được tỷ lệ SSCM cho các chỉ tiêu chủ yếu. Cách ước lượng này đơn giản và thuận tiện hơn nhiều so với cách tính cỡ mẫu theo lý thuyết, nhưng lại có cơ sở chắc chắn hơn so với cách xác định cỡ mẫu có tính chất ước đoán thuần tuý theo kinh nghiệm. d. Cách xác định cỡ mẫu chủ yếu dựa vào khả năng về kinh phí. Công thức xác định cỡ mẫu (n) trong trường hợp này như sau: C C n 0 ; (1.1.12) Z Trong đó: C - Tổng kinh phí được cấp; C0 - Kinh phí chi cho các khâu chuẩn bị, tập huấn nghiệp vụ thu thập, xử lý và các chi phí chung khác; Z - Chi phí cần thiết cho tất cả các khâu điều tra tính cho một đơn vị điều tra. 3.3.2. Phân bổ mẫu Nếu địa bàn điều tra được chia thành các khu vực hoặc các tổ khác nhau và tiến hành điều tra trên tất cả các khu vực hoặc các tổ thì phải thực hiện phân bổ mẫu cho từng khu vực 48
  48. hoặc từng tổ đó. Có nhiều cách phân bổ mẫu khác nhau, dưới đây chỉ giới thiệu một số cách phân bổ chủ yếu. a. Phân bổ mẫu tỷ lệ thuận với quy mô tổng thể Công thức xác định cỡ mẫu của từng tổ t (nt) như sau: N n t n N f ; (1.1.13) t N t Trong đó: t - Chỉ số thứ tự tổ (t = 1, 2 K) n - Số đơn vị mẫu chung; nt - Số đơn vị mẫu của tổ t; N - Số đơn vị của tổng thể; Nt - Số đơn vị của tổ t; n f - Tỷ lệ mẫu (f ) N Các phân bổ mẫu tỷ lệ thuận với quy mô thường được áp dụng khi quy mô của các tổ tương đối đồng đều, phương sai và chi phí cho các tổ không khác nhau nhiều. Cách phân bổ này có ưu điểm: Dễ làm, không phải tính lại theo quyền số thực tế khi suy rộng kết quả là chỉ tiêu bình quân hoặc tỷ lệ cho tổng thể. Tuy nhiên, khi quy mô của các tổ khác nhau nhiều thì phân bổ tỷ lệ thuận với quy mô dễ làm cho các tổ có quy mô nhỏ thường không đủ số lượng mẫu để đại diện cho tổ đó, ngược lại các tổ có quy mô lớn lại "thừa" cỡ mẫu. Mặt khác, việc tổ chức điều tra cũng như kinh phí cần thiết cho điều tra ở các tổ có quy mô lớn sẽ rất nặng nề, còn việc tổ chức điều tra cũng như kinh phí cần thiết cho điều tra ở các tổ có quy mô nhỏ lại quá nhẹ nhàng. b. Phân bổ mẫu tỷ lệ với căn bậc hai của quy mô tổng thể Công thức tính số đơn vị mẫu (nt) của tổ t như sau: nt = n . wt ; (1.1.14a) Trong đó: n - Số đơn vị của tổng thể 49
  49. wt - Tỷ lệ giữa căn bậc hai số đơn vị của tổ t (Nt ) và tổng căn bậc hai số đơn vị của K tất cả các tổ ( Nt ). t 1 Như vậy công thức (1.1.14a) sẽ biến đổi như sau: K nt n.wt n Nt :  Nt ; (1.1.14b) t 1 Cách phân bổ này sẽ khắc phục nhược điểm của phân bổ tỷ lệ với quy mô tổng thể nhưng khi suy rộng phải tính lại theo quyền số thực tế. c. Phân bổ Neyman Phân bổ Neyman được coi là phân bổ tối ưu theo nghĩa thống kê thuần tuý. Cỡ mẫu vừa tính theo tỷ lệ của quy mô, vừa tính đến sự khác nhau về độ biến động của chỉ tiêu nghiên cứu các tổ. Công thức xác định cỡ mẫu (nt) cho tổ t như sau: N S n n. t t với (t = 1, 2, K) ; (1.1.15) t K N tSt t 1 Trong đó: Nt - Tổng số đơn vị của tổ t; St - Độ lệch chuẩn của tổ thứ t. Công thức trên cho thấy quy mô mẫu của các tổ tỷ lệ thuận với quy mô và phương sai của chúng. Tổ có phương sai lớn sẽ được phân nhiều đơn vị mẫu hơn tổ có phương sai nhỏ, tổ có quy mô lớn sẽ được phân nhiều đơn vị hơn các tổ có quy mô nhỏ. d. Phân bổ mẫu tối ưu Đây là cách phân bổ mẫu tối ưu đầy đủ hơn vì nó không những đề cập tới sự khác biệt về quy mô, sự biến động của chỉ tiêu được nghiên cứu giữa các tổ mà còn đề cập tới khả năng kinh phí của từng tổ. Công thức phân bổ mẫu tối ưu có dạng: N S / c n n. t t t với t = 1, 2, K ; (1.1.16) t K NtSt / ct t 1 50
  50. Trong đó: ct - Chi phí điều tra cho tổ t. Công thức trên cho thấy quy mô mẫu của các tổ tỷ lệ thuận với quy mô và phương sai của chúng. Mặt khác tỷ lệ nghịch với căn bậc hai của chi phí có thể có để thực hiện điều tra trên phạm vi của tổ. Vì vậy, phương pháp phân bổ mẫu này thường được áp dụng khi quy mô, phương sai và khả năng kinh phí của các tổ tương đối khác nhau. e. Phân bổ mẫu có ưu tiên cho các tổ được đánh giá là quan trọng Cách phân bổ mẫu này thường được áp dụng khi có sự khác nhau đáng kể giữa các tổ về hàm lượng thông tin cần thiết. Theo nguyên tắc này, các tổ có hàm lượng thông tin thấp được phân bổ cỡ mẫu nhỏ. Tư tưởng này thường ứng dụng trong điều tra các doanh nghiệp. Các doanh nghiệp thuộc tổ có quy mô lớn (có sản lượng hoặc số lượng công nhân chiếm tỷ trọng lớn trong tổng sản lượng hoặc tổng số công nhân của các doanh nghiệp) thì phân bổ theo tỷ lệ mẫu lớn hơn. Ngược lại các doanh nghiệp có quy mô nhỏ hơn thì phân bổ tỷ lệ mẫu nhỏ hơn. Tóm lại, phân bổ mẫu trong thực tế cần dựa vào việc phân tích đặc điểm cụ thể của các chỉ tiêu thống kê cần thu thập ở từng tổ. Mặc khác, cũng cần xét tới điều kiện thực tế diễn ra ở từng tổ. Điều này đặc biệt cần lưu ý trong khi phân bổ cỡ mẫu cho điều tra nhiều cấp. 3.3.3. Cách tính sai số chọn mẫu Dưới đây sẽ trình bày công thức tính SSCM tương ứng với các phương pháp tổ chức chọn mẫu ngẫu nhiên đơn giản, mẫu phân tổ, mẫu 2 cấp và mẫu chùm Cách trình bày công thức tính SSCM được bắt đầu từ một ví dụ giả định về danh sách các làng, bản với số hộ gia đình có vốn đầu tư cho sản xuất, kinh doanh (viết tắt là VĐT) của một địa bàn "Y" thuộc tỉnh miền núi (xem số liệu bảng 1.1). 51
  51. Bảng 1.1. Danh sách những bản, làng với số hộ có đầu tư sản xuất, kinh doanh Vùng TT bản Tên bản Số hộ Vùng (*) TT bản Tên bản Số hộ (*) 1 A 9 1 11 N 10 2 2 I 10 2 12 E 13 1 3 D 11 3 13 P 11 3 4 B 11 1 14 F 11 2 5 K 12 1 15 G 12 1 6 Y 12 2 16 Q 9 3 7 C 9 3 17 Z 10 2 8 L 10 2 18 J 8 1 9 V 11 1 19 H 13 1 10 M 10 1 20 S 14 2 Tổng số 216 a. Phương pháp tổ chức chọn mẫu ngẫu nhiên đơn giản * Tổ chức chọn mẫu Khi tiến hành chọn mẫu ngẫu nhiên đơn giản chỉ việc lập danh sách các hộ gia đình có tên chủ hộ, địa chỉ và kèm theo số thứ tự từ 1 đến 216 của chung 20 làng, bản kể trên. Sau đó dùng bảng số ngẫu nhiên hoặc rút thăm chọn ngẫu nhiên không lặp lại từ danh sách được lập trong bảng để được số hộ cần điều tra (ở đây là chọn 20 hộ). * Cách tính sai số chọn mẫu Gọi i là số thứ tự của hộ gia đình trên địa bàn điều tra. i = 1, 2, . . . . . . . N (N = 216 - Tổng số hộ của địa bàn điều tra) (*)Ghi chú: 1: Vùng cánh đồng; 2: Vùng khe dọc; 3: Vùng cao. 52
  52. i = 1, 2, . . . . . . . n (n = 20 - Số hộ chọn mẫu trên địa bàn) xi: Vốn đầu tư sản xuất, kinh doanh của hộ thứ i Từ đó có công thức: + VĐT bình quân một hộ: 1 n x  xi ; (1.1.17) n i 1 + Phương sai mẫu: n 2 1 2 s  xi x ; (1.1.18) n 1 i 1 + Sai số chọn mẫu: s2 n  1 ; (1.1.19) n N b. Phương pháp tổ chức chọn mẫu phân tổ * Tổ chức chọn mẫu Trở lại ví dụ bảng 1.1 phân các bản thành 3 vùng địa hình, tức là 3 tổ (1: cánh đồng; 2: khe dọc; 3: vùng cao). Các vùng này có điều kiện kinh tế khác nhau và do đó có mức độ đầu tư cho sản xuất, kinh doanh của dân cư cũng khác nhau. Như vậy, việc phân chia các bản theo vùng địa hình sẽ liên quan nhiều đến VĐT cho SXKD của dân cư. Gọi t là số thứ tự của các tổ (t = 1, 2, K = 3 - Số tổ của địa bàn điều tra); Tổ 1: t = 1 (Vùng cánh đồng); Tổ 2: t = 2 (Vùng khe dọc); Tổ 3: t = 3 (Vùng núi cao) Nt - Số HGĐ của tổ (vùng) t K N - Tổng số hộ gia đình của địa bàn điều tra (N N t ) t 1 nt - Số hộ chọn mẫu của tổ (vùng) t K n - Tổng số hộ chọn mẫu của địa bàn (n n t ) t 1 Cỡ mẫu mỗi tổ (n t) có thể được chọn theo tỷ lệ đều nhau hoặc chọn không theo tỷ lệ 53
  53. n đều nhau. Nếu chọn theo tỷ lệ đều nhau thì tỷ lệ chọn mẫu ở các tổ đều bằng f (f ). N * Cách tính sai số chọn mẫu Gọi i là số thứ tự của HGĐ trong mỗi tổ i = 1,2,. . . . . . . Nt đối với tổng thể chung i = 1,2,. . . . . . . nt đối với tổng thể mẫu xit - VĐT của hộ thứ i thuộc tổ t Từ đó ta có công thức tính: + VĐT bình quân của các đơn vị thuộc tổ t: 1 nt xt  x it ; (1.1.20) n t i 1 + VĐT bình quân của tất cả các đơn vị điều tra: - Chọn theo tỷ lệ: 1 K x  xtnt ; (1.1.21.a) n t 1 - Chọn không theo tỷ lệ: 1 K x  xtNt ; (1.1.21.b) N t 1 + Phương sai mẫu của các đơn vị trong tổ t: nt 2 1 2 st  x it xt ; (1.1.22) n t 1 i 1 + Sai số chọn mẫu: - Chọn theo tỷ lệ: s 2 n  t 1 ; (1.1.23a) n N K 2 st nt Trong đó: s 2 t 1 t K nt t 1 54
  54. - Chọn không theo tỷ lệ: 1 K s2 n t t 2   1 Nt ; (1.1.23b) N t 1 nt Nt c. Phương pháp tổ chức chọn mẫu 2 cấp * Tổ chức chọn mẫu Cũng số liệu đã cho ở bảng 1.1 tiến hành chọn mẫu 2 cấp như sau: từ danh sách 20 làng bản chọn ngẫu nhiên không lặp lấy 4, tức là 20% số làng bản (chẳng hạn chọn được các bản số 1, 5, 12 và 19). Các bản được chọn là mẫu cấp I. Tiếp theo lập danh sách các HGĐ của 4 bản này, rồi từ các danh sách đó chọn ngẫu nhiên không lặp ra số hộ đều nhau cho mỗi bản (5 hộ) để tiến hành điều tra. Như vậy tổng số hộ được chọn là 20 (hộ là mẫu cấp II). * Cách tính sai số chọn mẫu Gọi j là số thứ tự của đơn vị mẫu cấp I (bản) j = 1, 2, 3, , M (M = 20 - Tổng số bản của địa bàn điều tra) j = 1, 2, 3, , m (m = 4 - Số bản được chọn vào mẫu cấp I) i - Số thứ tự của đơn vị cấp II (HGĐ) n - Tổng số đơn vị mẫu cấp II (HGĐ) n* - Số đơn vị mẫu cấp II trong mỗi đơn vị mẫu cấp I (các đơn vị mẫu cấp I có số đơn vị mẫu cấp II bằng nhau: n* = n : m) xij - Vốn đầu tư của HGĐ (đơn vị mẫu cấp II) thứ i thuộc bản (đơn vị mẫu cấp I) thứ j. Ta có công thức tính: + VĐT bình quân của các đơn vị mẫu cấp II thuộc mẫu cấp I thứ j: 1 n x x ; (1.1.24) j  ij n i 1 + VĐT bình quân của tất cả các đơn vị điều tra: 1 m 1 m n x  x j  xij ; (1.1.25) m j 1 n j 1 i 1 + Phương sai mẫu cấp II (hộ) thuộc từng đơn vị mẫu cấp I (bản) thứ j: 55
  55. n 2 1 2 sj  xij xj ; (1.1.26) (n 1) i 1 + Bình quân các phương sai mẫu cấp II: m 2 1 2 sj s j ; (1.1.27) m j 1 + Phương sai mẫu cấp I: m 2 1 2 sb  x j x ; (1.1.28) m 1 j 1 + Sai số chọn mẫu: 2 2 s m sj n  b 1 1 ; (1.1.29) m M m.n N Trong đó: Số đơn vị cấp II thực tế có bình quân trong mỗi đơn vị cấp I (N) : N* = N : M. d. Phương pháp tổ chức chọn mẫu chùm Trong mẫu chùm có hai loại: Mẫu chùm có kích thước bằng nhau và mẫu chùm có kích thước khác nhau. Sự khác nhau về kích thước của mẫu chùm liên quan đến sự khác nhau về cách tổ chức chọn mẫu và công thức tính các tham số chọn mẫu. * Tổ chức chọn mẫu Tiếp tục nghiên cứu ví dụ 1.1. Nếu xác định chùm là một bản và cũng tiến hành điều tra cỡ mẫu n = 20 hộ gia đình thì cách tiến hành như sau: + Với cỡ mẫu có kích thước các chùm bằng nhau (do người tổ chức điều tra ấn định) thì số chùm (m) cần chọn được xác định bằng cách chia tổng số mẫu cần điều tra (n) cho số mẫu qui định trong một chùm (n*), tức là n: n* = m. Cũng với ví dụ trên, cần điều tra 20 hộ (n = 20) và giả sử qui định mỗi chùm chọn 10 hộ (n* = 10) thì số chùm (bản) phải điều tra: m = 20 : 10 = 2 chùm. Sau khi xác định được số chùm cần chọn, ta lập danh sách tất cả các chùm rồi chọn ngẫu nhiên không lặp lại từ danh sách đã cho 2 chùm (bản) để tiến hành điều tra thực tế các đơn vị thuộc các chùm đó. 56
  56. + Với cỡ mẫu có kích thước các chùm khác nhau thì quá trình chọn mẫu được tiến hành qua các bước sau đây: - Chia tổng số HGĐ của địa bàn điều tra cho số bản để xác định số hộ bình quân có trong một chùm: N* = 216 : 20 11 - Chia số mẫu (HGĐ) cần chọn cho số hộ có trong một chùm để xác định số chùm cần điều tra (m): m = 20 : 11 2 chùm Trên cơ sở danh sách các bản ở bảng 1.1, tiến hành chọn 2 chùm, rồi tổ chức điều tra thực tế toàn bộ số HGĐ của 2 chùm đó. Khi chọn mẫu chùm có kích thước khác nhau để điều tra sẽ có những trường hợp sau đây: - Nếu ở 2 chùm có vừa đủ 20 HGĐ thì điều tra hết 20 hộ. - Nếu ở 2 chùm có số HGĐ lớn hơn (>)20 thì điều tra hết 20 hộ2, số dư ra bỏ lại không điều tra tiếp. - Nếu ở 2 chùm có số HGĐ nhỏ hơn (<)20 thì điều tra hết số 2GĐ của 2 bản đã chọn. Sau chọn thêm một bản thứ ba trong số 18 bản còn lại và điều tra thêm số hộ cho đủ 20. * Cách tính sai số chọn mẫu Gọi j là thứ tự các chùm (bản), ở đây: j = 1, 2, 3 , M (M = 20 - toàn bộ số bản có trong địa bàn điều tra) và j = 1, 2, 3, , m (m = 2 - số chùm chọn mẫu). Gọi i là số thứ tự của HGĐ, ở đây i = 1, 2, 3, , nj (nj là số hộ có của một chùm - bản). m Trong đó: n j n (n là số mẫu điều tra) j 1 Nếu chọn mẫu chùm có kích thước bằng nhau thì các n j bằng nhau và bằng n * (n* là số đơn vị trong một chùm) Gọi xij: VĐT của hộ thứ i thuộc chùm j Ta có công thức tính cho hai trường hợp: 57
  57. + Chùm có kích thước bằng nhau: - VĐT bình quân của các đơn vị trong mỗi chùm thứ j 1 n x x ; (1.1.30) j  ij n i 1 - VĐT bình quân của tất cả các đơn vị điều tra 1 m x  x j ; (1.1.31) m j 1 - Phương sai giữa các chùm m 2 1 2 sb  x j x ; (1.1.32) m 1 j 1 - Sai số chọn mẫu s2 m  b 1 ; (1.1.33) m M + Chùm có kích thước khác nhau: - VĐT bình quân của các đơn vị trong mỗi chùm thứ j 1 nj x j  xij ; (1.1.34) n j i 1 - VĐT bình quân của tất cả các đơn vị điều tra m  x jn j 1 m nj x j 1 x ; (1.1.35) m  ij n j 1 i 1 n j j 1 - Phương sai giữa các chùm: m 2 1 2 sb  x j x n j ; (1.1.36) n n j 1 m - Sai số chọn mẫu: Như công thức 1.1.33. 58
  58. 3.4. Sai số trong điều tra thống kê Trong điều tra thống kê có hai loại sai số: Sai số chọn mẫu (sai số do tính đại diện của số liệu vì chỉ chọn một bộ phận các đơn vị để điều tra) và sai số phi chọn mẫu (sai số thuộc về lỗi của các quy định, hướng dẫn, giải thích tài liệu điều tra, do sai sót của việc cân đong, đo đếm, cung cấp thông tin, ghi chép, đánh mã, nhập tin, ) từ đây gọi là "sai số điều tra". Sai số chọn mẫu (SSCM) chỉ phát sinh trong điều tra chọn mẫu khi tiến hành thu thập ở một bộ phận các đơn vị tổng thể (gọi là mẫu) rồi dùng kết quả suy rộng cho toàn bộ tổng thể chung. SSCM phụ thuộc vào cỡ mẫu (mẫu càng lớn thì sai số càng nhỏ), vào độ đồng đều của chỉ tiêu nghiên cứu (độ đồng đều cao thì sai số chọn mẫu càng nhỏ) và phương pháp tổ chức điều tra chọn mẫu. Còn sai số điều tra xảy ra cả trong điều tra chọn mẫu và điều tra toàn bộ. Trong thực tế công tác điều tra thống kê hiện nay, phương pháp chọn mẫu được áp dụng ngày càng nhiều và có hiệu quả. Số liệu thu được từ điều tra chọn mẫu ngày càng phong phú, đa dạng và phục vụ kịp thời các yêu cầu sử dụng. Bên cạnh đó chất lượng số liệu của điều tra chọn mẫu cũng còn những hạn chế nhất định. Có một số ý kiến hiện nay đánh giá không công bằng và thiếu khách quan về kết quả điều tra chọn mẫu, cho rằng số liệu chưa sát với thực tế vì chỉ điều tra một bộ phận rồi suy rộng cho tổng thể. Tất nhiên cũng phải thấy rằng đã là điều tra chọn mẫu thì không thể tránh khỏi sai số chọn mẫu nhưng mức độ sai số chọn mẫu của phần lớn những chỉ tiêu trong các cuộc điều tra thống kê hiện nay thường là ở phạm vi cho phép nên chấp nhận được. Hơn nữa khi cần thiết ta có thể chủ động giảm được sai số chọn mẫu bằng cách điều chỉnh cỡ mẫu và tổ chức chọn mẫu một cách khoa học, tuân thủ đúng nguyên tắc chọn mẫu. Điều đáng nói và cần quan tâm hơn trong điều tra thống kê chính là sai số phi chọn mẫu. Loại sai số này xảy ra ở cả ba giai đoạn điều tra, liên quan đến tất cả các đối tượng tham gia điều tra thống kê và ảnh hưởng đáng kể đến chất lượng số liệu thống kê. Dưới đây sẽ đi sâu nghiên cứu về sai số phi chọn mẫu - sai số điều tra, xảy ra trong cả ba giai đoạn nhưng chỉ đề cập đến sai số liên quan tới những công việc, những đối tượng thường gặp nhiều hơn. 59
  59. 3.4.1. Sai số trong quá trình chuẩn bị điều tra thống kê Trong công tác điều tra thống kê, chuẩn bị điều tra giữ một vai trò cực kỳ quan trọng. Chất lượng của khâu chuẩn bị điều tra sẽ ảnh hưởng cả đến quá trình thu thập số liệu và cuối cùng là đến chất lượng của số liệu điều tra. Một cuộc điều tra được chuẩn bị kỹ lưỡng, chu đáo và đầy đủ sẽ là cơ sở đầu tiên để giảm sai số điều tra nhằm nâng cao chất lượng của số liệu thống kê. a. Sai số điều tra liên quan tới việc xác định mục đích, nội dung và đối tượng điều tra Xác định mục đích điều tra là làm rõ yêu cầu của cuộc điều tra phải trả lời những câu hỏi gì, đạt được những mục tiêu nào của công tác quản lý. Yêu cầu của mục đích điều tra phải rõ ràng, dứt khoát và đó chính là căn cứ để xác định nội dung cũng như đối tượng điều tra một cách đúng đắn, đầy đủ, phù hợp, không bị chệch hướng. Cùng một đơn vị điều tra, nếu có mục đích điều tra khác nhau với cách tiếp cận thu thập thông tin khác nhau thì sẽ có nội dung cũng như đối tượng điều tra khác nhau. Xác định đúng nội dung và đối tượng điều tra, một mặt làm cho số liệu thu thập được sẽ đáp ứng những yêu cầu sử dụng, số liệu đảm bảo "vừa đủ". Mặt khác, xác định đúng nội dung và đối tượng điều tra là cơ sở để thiết kế bảng hỏi một cách khoa học và có điều kiện thuận lợi để tiếp cận với đối tượng cung cấp thông tin, đảm bảo thông tin thu được phù hợp và phản ánh đúng thực tế khách quan. Tóm lại việc xác định đúng mục đích, nội dung và đối tượng điều tra làm cho cuộc điều tra thực hiện đúng hướng, đúng yêu cầu là một trong những điều kiện tiên quyết để đảm bảo chất lượng số liệu, giảm sai số trong điều tra thống kê. b. Sai số liên quan tới việc xây dựng các khái niệm, định nghĩa dùng trong điều tra Khái niệm, định nghĩa dùng trong điều tra giúp cho hiểu rõ nội dung, bản chất cũng như phạm vi xác định thông tin của số liệu thống kê cần thu thập. Như ta đã biết thống kê nghiên cứu mặt lượng trong quan hệ mật thiết với mặt chất của hiện tượng kinh tế - xã hội số lớn. Chính các khái niệm, định nghĩa là phản ánh về mặt chất của hiện tượng, là cơ sở để nhận biết, phân biệt hiện tượng này với hiện tượng khác cũng 60
  60. như xác định phạm vi của hiện tượng nghiên cứu. Nếu khái niệm, định nghĩa chuẩn xác, rõ ràng, được giải thích đầy đủ, cặn kẽ là cơ sở để xác định và thu thập số liệu thống kê phản ánh đúng thực tế khách quan. Ngược lại nếu khái niệm, định nghĩa không đúng, mập mờ, thiếu rõ ràng thì việc xác định, đo tính (lượng hoá) hiện tượng sẽ bị sai lệch. Ví dụ: Khi điều tra cán bộ khoa học công nghệ có trình độ "trên đại học", xét về chất, trên đại học phải là những người đã tốt nghiệp và có bằng thạc sĩ, tiến sĩ và tiến sĩ khoa học. Trong thực tế có cuộc điều tra thống kê ở nước ta chỉ đưa ra khái niệm "trên đại học" chung chung, thiếu cụ thể. Điều này làm cho những người tham gia điều tra (kể cả điều tra viên lẫn đối tượng trả lời) hiểu khái niệm cán bộ khoa học công nghệ có trình độ trên đại học rất khác nhau. Một số ít người đã hiểu đúng với nghĩa trình độ trên đại học phải gồm những người có bằng thạc sĩ, tiến sĩ và tiến sĩ khoa học; phần đông còn lại đã hiểu không đúng và cho là trên đại học gồm những người đã tốt nghiệp đại học sau đó được đi thực tập sinh sau đại học và thậm chí còn cả những người đã tốt nghiệp đại học nhưng chỉ được đi tập trung để đào tạo bồi dưỡng thêm về nghiệp vụ một vài tháng. Thực tế này đã làm cho số liệu điều tra được về cán bộ khoa học công nghệ có trình độ "trên đại học" tăng lên hơn hai lần so với số thực tế có tại thời điểm điều tra. Như vậy, những lỗi trong việc xây dựng các khái niệm, định nghĩa và nội dung thông tin về tiêu thức, chỉ tiêu thống kê sẽ ảnh hưởng trực tiếp đến chất lượng số liệu thống kê. Đây là hiện tượng khá phổ biến trong điều tra thống kê ở nước ta hiện nay. Để có số liệu tốt, giảm bớt sai số điều tra, một vấn đề có tính chất nguyên tắc đó là phải chuẩn hoá các khái niệm, định nghĩa về các tiêu thức, chỉ tiêu của điều tra thống kê. Đồng thời phải giải thích rõ ràng, đầy đủ và cụ thể hoá các khái niệm, định nghĩa cho phù hợp với từng cuộc điều tra riêng biệt. c. Sai số điều tra liên quan tới thiết kế bảng hỏi, xây dựng các bảng danh mục và mã số dùng trong điều tra Trong điều tra thống kê, bảng hỏi là vật mang tin, là công cụ giúp điều tra viên điền thông tin hoặc đánh dấu, đánh mã vào các ô, dòng, cột phù hợp theo nội dung trả lời của các câu hỏi tương ứng với các tiêu thức ghi ở bảng hỏi dùng trong điều tra. Nếu các câu hỏi phức tạp, khó hiểu, khó trả lời, khó xác định hoặc khó điền thông tin 61
  61. thì khi đó thông tin thu được sẽ kém chính xác, không đáp ứng yêu cầu của số liệu điều tra. Cùng với bảng hỏi, các bảng danh mục và các mã số có vai trò quan trọng trong quá trình tổng hợp số liệu thống kê. Thông tin thu được dù đảm bảo độ tin cậy cần thiết, nhưng nếu bảng danh mục dùng cho điều tra không chuẩn xác, các mã số không rõ ràng, khó áp dụng dẫn tới việc đánh sai, đánh nhầm và tất nhiên như vậy số liệu tổng hợp sẽ bị sai lệch. Để giảm sai số điều tra, bảng hỏi phải được thiết kế một cách khoa học, đáp ứng đầy đủ nhu cầu thông tin theo nội dung điều tra đã được xác định, bảo đảm mối liên hệ logic và tính thống nhất giữa các câu hỏi. Mặt khác, các câu hỏi phải đơn giản, dễ hiểu, dễ trả lời, dễ ghi chép, phù hợp với trình độ của điều tra viên và đặc điểm về nguồn thông tin của từng loại câu hỏi. Thiết kế bảng hỏi còn phải đảm bảo thuận lợi cho việc áp dụng công nghệ thông tin. Các bảng danh mục phải có nội dung phù hợp với những thông tin cần thu thập và được mã hoá một cách khoa học theo yêu cầu tổng hợp của điều tra. Danh mục vừa phải phù hợp với yêu cầu của từng cuộc điều tra, vừa phải đáp ứng và thống nhất với danh mục phục vụ cho tổng hợp chung của công tác thống kê. Nội dung bảng danh mục và cách mã hoá phải được giải thích đầy đủ và hướng dẫn cụ thể. d. Sai số điều tra liên quan tới việc lựa chọn điều tra viên và hướng dẫn nghiệp vụ Điều tra viên là người trực tiếp truyền đạt mục đích, nội dung, yêu cầu điều tra đến các đối tượng cung cấp thông tin, đồng thời trực tiếp phỏng vấn, lựa chọn thông tin để ghi vào bảng hỏi (nếu là điều tra trực tiếp). Vì vậy, điều tra viên có vai trò rất quan trọng trong việc đảm bảo chất lượng số liệu trong điều tra. Nếu điều tra viên không nắm vững mục đích của cuộc điều tra, không hiểu hết nội dung thông tin cần thu thập thì sẽ truyền đạt không đúng các yêu cầu cần thiết cho đối tượng trả lời. Ngay cả khi điều tra viên nắm được nghiệp vụ, nhưng nếu thiếu ý thức trách nhiệm, chỉ phỏng vấn và ghi chép cho xong việc, hoặc cách tiếp cận với đối tượng điều tra không tốt thì cũng sẽ dẫn đến kết quả số liệu điều tra thu được không theo ý muốn. Như vậy, việc lựa chọn điều tra viên không tốt cũng là nguyên nhân không kém phần quan trọng làm cho sai số điều tra tăng lên, ảnh hưởng đến chất lượng số liệu. Vì vậy, muốn giảm bớt loại sai số điều tra này, cần tuyển chọn điều tra viên có trình độ nhất định, nắm được nghiệp vụ, có kinh nghiệm thực tế về điều tra thống kê, đồng thời phải có ý thức và 62
  62. tinh thần trách nhiệm cao. Sau khi lựa chọn được điều tra viên cần tổ chức tập huấn nghiệp vụ đầy đủ và thống nhất. Trong lớp tập huấn bên cạnh giải thích biểu mẫu điều tra cần cung cấp thêm những kiến thức về xã hội, phổ biến những kinh nghiệm thực tế và cách tiếp cận đối tượng điều tra, cách ứng xử trong thực tế. Đối với các cuộc điều tra thống kê có nội dung phức tạp và quy mô lớn, cần tiến hành điều tra thử để kịp thời rút kinh nghiệm, đảm bảo hướng dẫn nghiệp vụ gắn với điều tra thực địa. Trong điều tra chọn mẫu, khi hướng dẫn nghiệp vụ cần chỉ rõ lộ trình điều tra theo từng cấp chọn mẫu, xác định địa bàn điều tra, lập danh sách địa bàn và đối tượng điều tra chọn mẫu (có địa chỉ cụ thể), quy định rõ những trường hợp mất mẫu phải thay đổi như thế nào, thay đổi đến đâu để tránh tình trạng điều tra viên thay đổi mẫu tuỳ tiện theo ý chủ quan của họ, v.v 3.4.2 Sai số trong quá trình tổ chức điều tra a. Sai số điều tra liên quan đến quan hệ giữa yêu cầu về nội dung thông tin và quỹ thời gian, các điều kiện vật chất cần cho thu thập số liệu Nếu trong các cuộc điều tra thống kê phải thu thập quá nhiều chỉ tiêu có nội dung thông tin phức tạp, tốn nhiều thời gian để giải thích, phỏng vấn và ghi chép; trong khi đó quỹ thời gian và kinh phí dành cho công việc này lại không tương xứng, làm cho điều tra viên không đủ điều kiện để tiếp cận tìm hiểu tình hình thực tế, giải thích một cách đầy đủ, cặn kẽ về mục đích, yêu cầu và nội dung điều tra cho người cung cấp thông tin thì có thể họ sẽ không khai báo, hoặc khai báo qua loa, sai với thực tế. Đặc biệt có những loại thông tin phải hồi tưởng thì càng không đủ thời gian để nhớ lại Tất cả những điều đó làm cho số liệu thu thập được sai số nhiều, không phản ánh đúng thực tế khách quan. Để nâng cao chất lượng số liệu thống kê, giảm sai số khi tổ chức điều tra, phải cân đối giữa nhu cầu thu thập thông tin với khả năng về điều kiện kinh phí và quỹ thời gian dành cho điều tra. Không nên tổ chức một cuộc điều tra đòi hỏi thu thập quá nhiều chỉ tiêu; đặc biệt phải giới hạn những chỉ tiêu thu thập quá khó và tính toán phức tạp. Hơn nữa tuỳ thuộc vào đặc điểm và nội dung thông tin của các chỉ tiêu khác nhau, thuộc các đối tượng khác nhau để có cách tiếp cận thu thập thông tin cho hợp lý. Có thể chỉ tiêu này cần thu thập từ những nội 63
  63. dung chi tiết rồi tổng hợp chung lại, nhưng chỉ tiêu kia chỉ cần lấy số liệu khái quát. Không nên cho rằng bất kỳ chỉ tiêu nào, nội dung thông tin nào cũng phải lấy từ số liệu chi tiết mới là chính xác. b. Sai số điều tra liên quan đến điều tra viên Như trên đã nói để nâng cao chất lượng số liệu, giảm sai số điều tra, một trong những yêu cầu là phải chọn những người điều tra đủ tiêu chuẩn về chuyên môn và tinh thần trách nhiệm. Ngoài những yêu cầu trên, điều tra viên khi được phân công về địa bàn điều tra, còn đòi hỏi phải làm quen với địa bàn, tìm hiểu thực tế về phong tục, tập quán, về điều kiện đi lại, sinh hoạt của địa phương. Khi điều tra, điều tra viên phải kết hợp được kiến thức chuyên môn về điều tra đã được hướng dẫn với tình hình thực tế ở địa bàn điều tra, vừa phải giữ đúng nguyên tắc quy định cho điều tra, vừa phải có được những xử lý linh hoạt và hài hoà. Phần lớn những thắc mắc của đối tượng điều tra, điều tra viên phải tự mình tìm ra hướng giải đáp. Chỉ những trường hợp cần thiết mới ghi lại để xin ý kiến về cách xử lý của cấp chỉ đạo cao hơn. c. Sai số điều tra liên quan đến ý thức, tâm lý và khả năng hiểu biết của người trả lời Ở đây việc trả lời câu hỏi có thể không tốt do ba nguyên nhân thuộc người cung cấp thông tin như sau: - Về ý thức của người trả lời: Nếu họ không có tinh thần trách nhiệm cao, cho là cung cấp thông tin thế nào cũng được, nói cho xong việc thì có thể khi điều tra, người cung cung cấp thông tin sẽ lấy lý do này, lý do khác để không trả lời hoặc trả lời không hết, không đúng sự thật. Không ít trường hợp người trả lời còn cố tình khai không đúng vì lợi ích kinh tế và mục đích khác. - Về tâm lý, nhiều người cung cấp thông tin không muốn trả lời những câu hỏi liên quan đến đời tư, đến mức sống, đến sự bí mật kín đáo của họ, của đơn vị họ. Ví dụ, khi điều tra thu thập thông tin mức thu nhập của hộ gia đình, phần lớn các chủ hộ nhất là những người có thu nhập cao thường không muốn nói thật, nói hết mức thu nhập của mình. Một ví dụ khác một người phụ nữ đi nạo thai trong trường hợp giấu gia đình họ sẽ không muốn khai vì không muốn cho những người thân trong gia đình biết đến. 64