Bài giảng Nghiên cứu marketing - Chương 6: Phân tích dữ liệu - ThS. Trần Trí Dũng

pdf 62 trang phuongnguyen 4060
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Nghiên cứu marketing - Chương 6: Phân tích dữ liệu - ThS. Trần Trí Dũng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_nghien_cuu_marketing_chuong_6_phan_tich_du_lieu_th.pdf

Nội dung text: Bài giảng Nghiên cứu marketing - Chương 6: Phân tích dữ liệu - ThS. Trần Trí Dũng

  1. Chương 6: Phân tích dữ liệu 1 ThS. TrầnTríDũng
  2. Nộidung 1. Xử lý dữ liệu 2. Phân tích đơnbiến 3. Phân tích nhị biến 4. Tổng quát về phân tích đabiến 2
  3. 1. Xử lý dữ liệu z Hiệuchỉnh z Mã hóa z Tạotập tin dữ liệu 3
  4. 1. Xử lý dữ liệu(tt) z Hiệuchỉnh: – Mục đích nhằm đảmbảo: z Đúng thủ tục/đốitượng phỏng vấn (legibility) z Xử lý các phỏng vấn/trả lời không hoàn chỉnh (completeness) z Tính nhất quán củacáctrả lời (consistency) z Sự chính xác củacáctrả lời (accuracy) z Sự rõ ràng củacáctrả lời (clarification) 4
  5. 1. Xử lý dữ liệu(tt) z Hiệuchỉnh (tt): – Quá trình: z Hiệuchỉnh sơ bộ (field editing): – Thựchiệnbởi interviewer – Càng sớmcàngtốt sau khi phỏng vấnxong z Hiệuchỉnh cuối cùng (office editing): – Thựchiệnbởi editor – Saukhithuthập xong data – Đòi hỏingườihiệuchỉnh phải có nhiều kinh nghiệm, kiến thức. 5
  6. 1. Xử lý dữ liệu(tt) z Hiệuchỉnh (tt): – Xử lý khi phát hiệnlỗi: z Liên lạctrở lại để bổ sung hoặclàmrõ z Hiệuchỉnh, làm rõ hoặcbổ sung theo trí nhớ hoặccác cứ liệu/suy luận khác z Hủybỏ mộtsố câu trả lời (missing value) z Hủy hoàn toàn cuộcphỏng vấn/questionnaire 6
  7. 1. Xử lý dữ liệu(tt) z Mã hóa: – Khái niệm: z Là quá trình gán mã số (số hoặc nhãn) cho các biếnvà các trả lời. z Thang đocủabiếntùythuộc vào cách hỏivàbảnchất củabiến đượchỏi. 7
  8. 1. Xử lý dữ liệu(tt) z Mã hóa (tt): – Các bước mã hoá: z Đặt tên biến cho các câu hỏi: – Câu hỏi1 chọnlựa – Câu hỏi nhiềuchọnlựa z Chuyểntậpcácchọnlựatrả lờicủamỗicâuhỏi thành tậpcácsố/nhãn phù hợp, có ý nghĩa. – Câu hỏi đóng – Câu hỏimở – Câu hỏicóchọnlựa: “Khác” 8
  9. 1. Xử lý dữ liệu(tt) z Mã hóa (tt): – Bốn nguyên tắc khi mã hóa: z Tính phù hợp (appropriateness): Cách phân loại/nhóm phải phù hợpvớivấn đề/mục tiêu nghiên cứu. – TD: Thông tin cá nhân hoặc doanh nghiệp. – Tuổi <18 18-30 . ? – Tuổi <16 16-25 . ? 9
  10. 1. Xử lý dữ liệu(tt) z Mã hóa (tt): – Bốn nguyên tắc khi mã hóa (tt): z Tính toàn diện (exhaustiveness): Các mã số cầnthể hiệncácloạicầnNC. – Loại“trả lời khác” nên chiếmtỉ lệ nhỏ nhất. – TD: Tuổi 30 ?? 10
  11. 1. Xử lý dữ liệu(tt) z Mã hóa (tt): – Bốn nguyên tắc khi mã hóa (tt): z Tính loạitrừ nhau (mutual exclusivity): Mỗitrả lờichỉ tương ứng vớimộtmãsố. – TD: quốc doanh, tư nhân, TNHH, cổ phần?? z Tính đơn nguyên (unidimensionality): Mỗicâutrả lời ứng vớimộtthứ nguyên duy nhất. 11
  12. 1. Xử lý dữ liệu(tt) z Tạotập tin dữ liệu: – Nhậpdữ liệu vào file (SPSS) – Cảibiếntậpdữ liệu – Tạobiếnmới, biến trung gian, v.v. – Xử lý missing value 12
  13. 2. Phân tích đơnbiến z Tổng quan về phân tích dữ liệu: – Mục tiêu phân tích chỉ là mô tả hay suy đóan tổng thể – Chọnphương pháp tùy thuộcvào: z Có bao nhiêu biến được phân tích đồng thời z Các biến được đobằng thước đo gì: chỉ danh, thứ tự, khỏang hay tỷ lệ 13
  14. 2. Phân tích đơnbiến(tt) z Tổng quan về phân tích dữ liệu(tt): – Các phương pháp phân tích dữ liệu: 14
  15. 2. Phân tích đơnbiến(tt) z Phân tích đơnbiến: 15
  16. 2. Phân tích đơnbiến(tt) z Thống kê mô tả: – Biếnchỉ danh, thứ tự 16
  17. 2. Phân tích đơnbiến(tt) z Thống kê mô tả (tt): – Biếnchỉ danh, thứ tự (tt) 17
  18. 2. Phân tích đơnbiến(tt) z Thống kê mô tả (tt): – Lợi ích: z Trình bày phân phốidữ liệucủamộtbiến có thang đo nominal hoặcordinal. z Phát hiệnmộtsố dạng sai sót khi mã hoá. z So sánh với các phân phối/dữ liệu có liên quan. z Đề nghị những phương pháp biến đổi các biến z Kiểm tra sampling. 18
  19. 2. Phân tích đơnbiến(tt) z Thống kê mô tả (tt): – Biếnkhỏang (interval): 19
  20. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến: – Kiểmchứng xem những phát biểu nào đócó thích hợpchotổng thể nghiên cứu hay không. z Ví dụ: Bình quân tuổicủa 100 SV trong mẫulà24 (s=5). Nhà NC muốnkiểmchứng cho tổng thể: – Null hypothesis Ho: ì = 23 – Alternative hypothesis H1: ì ≠ 23 – Các phân tích liên quan đếnkiểm nghiệmgiả thuyếtgọi là phân tích suy luận (inferential analysis). 20
  21. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Các bướckiểm nghiệmgiả thuyết đơnbiến: z B1: Thiếtlậpgiả thuyếtH0 vàH1 z B2: Xác định phương pháp test phù hợp (statistical test). z B3: Chọntrướcmức ý nghĩa α(significance level) z B4: Tính (tra bảng) giá trị test tớihạn (critical value) ứng với α(one/two tailed) z B5: Tính giá trị kiểm nghiệmthống kê từ tậpsố liệu. z B6: Nếugiátrị tính được ở B5 lớnhơngiátrị tớihạn Î loạiHo. 21
  22. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đokhoảng: z Có thể dùng t Test hoặc Z Test để test giá trị trung bình củatổng thể khi biếtgiátrị trung bình củamẫu: z Z TEST: – Sử dụng khi: – Biếtphương sai sigma củatổng thể và cở mẫubấtkỳ. – Không biếtphương sai sigma củatổng thể và cở mẫu> 30 22
  23. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đokhoảng (tt): z t TEST: z Sử dụng khi – Không biếtphương sai sigma củatổng thể và cở mẫubất kỳ. – Khi cở mẫu n > 30 thì phân phối t = phân phốiz – Lưu ý: khi tra bảng tc thì dF = n-1 x − µ t = Sx 23
  24. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đokhoảng (tt): 24
  25. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đothứ tự: 25
  26. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đothứ tự (tt): 26
  27. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đothứ tự (tt): 27
  28. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đothứ tự (tt): z Ví dụ: Khảo sát 100 người đang sử dụng internet ở HCMC 28
  29. 2. Phân tích đơnbiến(tt) z Kiểm nghiệmgiả thuyết đơnbiến (tt): – Biến đobằng thang đothứ tự (tt): z Ví dụ: Khảo sát 100 người đang sử dụng internet ở HCMC 29
  30. 3. Phân tích nhị biến z Bảng 2 chiều (two – way tabulation) z Các lọai test nhị biến z Chi – Square contingency test z Hệ số tương quan Spearman và Pearson z Phân tích hồi quy tuyếntínhđơn 30
  31. 3. Phân tích nhị biến(tt) z Bảng 2 chiều (two – way tabulation) 31
  32. 3. Phân tích nhị biến(tt) z Bảng 2 chiều (two – way tabulation): – Khảosátmức độ và các mốiliênhệ (có thể có) giữacáccặpbiến. – Thích hợp cho các trường hợpsố loại trong mỗibiến không lớn, thang đo nominal hoặc ordinal. – Chỉđịnh hướng, không kếtluậnvề mối quan hệ nhân quả giữacácbiến. – Kếtquả có thể bị lệch nếu các ô có giá trị nhỏ. 32
  33. 3. Phân tích nhị biến(tt) z Các lọai test nhị biến: 33
  34. 3. Phân tích nhị biến(tt) z Chi – Square contingency test: – Hạnchế: z Chỉ xác định có quan hệ hay không, không cho biếtmức độ quan hệ. z Do đóthường dùng hệ số Contingency bổ sung vào kiểm nghiệm Chi-Square để biếtmức độ quan hệ giữa2 biến. 34
  35. 3. Phân tích nhị biến(tt) z Chi – Square contingency test (tt): – Thí dụ: Kếtquả khảo sát nhãn hiệuBiaưathích nhất phân theo mức thu nhập – Ghi chú: Con số trong ngoặcchỉ giá trị kỳ vọng củamỗi ô trong bảng. Chúng đượcxácđịnh theo tỉ lệ vớitổng về thu nhậpvàloạibiaưa thích. – (Ô 1-1 có giá trị kỳ vọng = 350 x 375 / 1200 = 109.38) 35
  36. 3. Phân tích nhị biến(tt) z Chi – Square contingency test (tt): – Thí dụ: Kếtquả khảo sát nhãn hiệuBiaưathích nhất phân theo mức thu nhập 36
  37. 3. Phân tích nhị biến(tt) z Hệ số tương quan Spearman và Pearson – Spearman: tương quan giữa2 biếnthứ tự (ordinal). – Pearson: tương quan giữacácbiếnkhoảng/ tỉ lệ. – Hệ số tương quan r = 0 Æ 1 (không kể dấu+/-) z r > 0.8 rấtmạnh z r = 0.6 – 0.8 mạnh z r = 0.4 – 0.6 có tương quan z r = 0.2 – 0.4 tương quan yếu z r < 0.2 không tương quan 37
  38. 3. Phân tích nhị biến(tt) z Hệ số tương quan Spearman và Pearson (tt) – Lưuý: Hai biếnphải có phân phốichuẩnnhị biến. z Phương sai của1 biếntạibấtkỳ giá trị nào củabiếnkia cũng phảibằng nhau. z Khi r nhỏ không có nghĩa là không tương quan, mà chỉ không tương quan tuyến tính. z Khi |r| lớnchỉ cho thấymốitương quan, nhưng không xác định quan hệ nhân quả. 38
  39. 3. Phân tích nhị biến(tt) z Phân tích hồi quy tuyếntínhđơn – Phân tích 2 biếnkhoảng/tỉ lệ: Hồi quy tuyến tính đơn: Y = aX + b – Sự khác biệtgiữahồi quy và tương quan: 39
  40. 4. Phân tích đabiến z Phân tích đabiếncóthể chia thành 2 nhóm: – Phân tích phụ thuộc: Xác định đượcbiến nào là phụ thuộc, biến nào là độclập. z Bao gồm các pp: Phân tích hồi quy đabiến, ANOVA, Conjoint, Discriminant, Canonical analysis – Phân tích tương tác (interdependent): Không xác định trướcbiến nào là phụ thuộc, biến nào là độc lập, chủ yếulàtìmkiếmcácmôthứctương quan. z Bao gồm các pp: Factor analaysis, Cluster, Multi- dimensional Scaling. 40
  41. 4. Phân tích đabiến z Các phương pháp phân tích phụ thuộc: Yêu cầuvề thang đo 41
  42. 4. Phân tích đabiến (tt) z Các phương pháp phân tích phụ thuộc: Yêu cầuvề thang đo(tt) 42
  43. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến: – Dạng mở rộng củahồiquyđơn. – Mộtbiếnphụ thuộc, nhiềubiến độclập – Tấtcảđược đobằng thang interval (ngoạilệ: dummy-variable multiple regression) 43
  44. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Đánh giá mô hình và kếtquả hồi quy theo 3 phần: z Mức độ phù hợpcủaphương trình hồi quy: – Dùng hệ số r2 (coefficient of determination) – r2 = 0 ÷ 1 Î đặctrưng cho % củabiến thiên trong biến phụ thuộc đượcgiải thích do sự biến thiên củabiến độc lập. 44
  45. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Đánh giá mô hình và kếtquả hồi quy theo 3 phần: z Kiểm nghiệmmức ý nghĩacủar2: – Dùng F – test (Với độ tự do: df = n – k – 1 cho mẫusố và df = k cho tử số) – (n: cỡ mẫu, k: số biến độclập) z Kiểm nghiệmmức ý nghĩacủacácđộ dốcai: – Dùng t – test với độ tự do df = n – k – 1 45
  46. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Kiểm nghiệmcácgiả thuyếtcủapp hồiqui: z Linearity: Có mối quan hệ tuyến tính giữabiếnphụ thuộc và các biến độclập – Test: quan sát scatter diagram hoặcma trậntương quan 46
  47. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Kiểm nghiệmcácgiả thuyếtcủapp hồi qui (tt): z Đacộng tuyến (Multicolinearity) – Giả thuyết: các biến độclập không có tương quan tuyến tính với nhau. – Khi bị vi phạm Æ Có hiệntượng đacộng tuyến, nghĩalà hiệnhữumốitương quan tuyến tính giữa ≥ 2 biến độc lập. – Đacộng tuyến gây ra: z Hạnchế giá trị r2, z Sai lệch/đổidấucáchệ số hồi quy – Test đacộng tuyến: hệ số Tolerance hoặcVIF 47
  48. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Kiểm nghiệmcácgiả thuyếtcủapp hồi qui (tt): z Phân phốichuẩn(Normality) củasaisố và củamỗibiến z Sai số hồi quy có variance không đổi (Constant Variance of the Error Term hay Homoscedasticity) z Tính độclậpcủacácsaisố hồi quy (Independence of the Error Terms) 48
  49. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Mộtsố lưuý khisử dụng multiple regression: z Phân tích hồi quy tuyếntínhchỉ có nghĩakhicótương quan TUYẾN TÍNH giữa các biến. z r2 không nói lên được quan hệ nhân quả giữa các biến z Có thể dựđoán sai nếunằm ngoài khoảntínhtoán 49
  50. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Mộtsố lưuý khisử dụng multiple regression (tt): z Để đảmbảo độ tin cậyphảicónhiềuhơn 10 điểmcho mỗibiến độclập đưavàophương trình (Æ yêu cầucở mẫu) z Khoảng dao động (range) các biếncóthểảnh hưởng đến ý nghĩaphương trình hồi quy. z Trường hợpbiến độclập là nominal thì có thể sử dụng dummy-variable. Khi đó: – số biến dummy = k-1 ; – vớik = số loạicủabiến nominal 50 – mỗibiến dummy chỉ nhậngiátrị 0 hoặc1
  51. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Thí dụ: – Bài toán tìm các yếutố quyết định sự thỏamãn của nhân viên trong Cty XYZ. – Biếnphụ thuộc: sự thỏamãncủa nhân viên Cty. z Biến độclập: thu nhập, điềukiệnlàmviệc, sự quan tâm củacấp trên, quan hệ với đồng nghiệp, cơ hộithăng tiến, cơ hộihọctập, 51
  52. 4. Phân tích đabiến (tt) z Hồi qui tuyến tính đabiến (tt): – Thí dụ: 52
  53. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Mục đích: Khảosátmối quan hệ giữa các biến độclậpvàphụ thuộc. – Đặc điểm: Tương tự như phân tích hồi quy, nhưng các biến độclậplàbiến nonmetric (nominal/ordinal). 53
  54. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Áp dụng: So sánh giá trị trung bình củamộtthuộc tính (biếnphụ thuộc/thang metric) thể hiện ảnh hưởng củamột hay nhiềuthuộc tính khác (biến độclập/thang nonmetric). – Nếu có nhiềubiến độclậpvới thang chỉ danh gọi là Factorial ANOVA. – Nguyên tắc: z Nếucósự khác biệt đáng kể giữa các nhóm thì “between-group variance > within-group variance” 54
  55. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Ví dụ về ANOVA: – Khảo sát 200 doanh nghiệpthuộc 3 ngành May mặc, Mỹ phẩmvàNhựagiadụng về chi phí dành cho khuyếnmãihằng năm. – Mục đích phân tích nhằm tìm xem có sự khác nhau đáng kể/ có ý nghĩathống kê giữa 3 ngành này về chi phí khuyến mãi không? 55
  56. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Ví dụ về ANOVA: 56
  57. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Ví dụ về ANOVA: – Bài toán này có thể so sánh giá trị trung bình của chi phí khuyến mãi theo từng cặp ngành (dùng t – test). Tuy nhiên, khi số treatment lớn Î số lượng so sánh sẽ rấtlớn. – Khi đó nên dùng ANOVA: – H0 : µ1 = µ2 = = µk = µ – Ha : có ít nhất1 giátrị µi khác những giá trị kia. 57 Với µ là trung bình củatổng thể
  58. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Ví dụ về ANOVA: – Bài toán này có thể so sánh giá trị trung bình của chi phí khuyến mãi theo từng cặp ngành (dùng t – test). Tuy nhiên, khi số treatment lớn Î số lượng so sánh sẽ rấtlớn. – Khi đó nên dùng ANOVA: – H0 : µ1 = µ2 = = µk = µ – Ha : có ít nhất1 giátrị µi khác những giá trị kia. 58 Với µ là trung bình củatổng thể
  59. 4. Phân tích đabiến (tt) z Phân tích ANOVA: – Ví dụ về ANOVA: – Bài toán này có thể so sánh giá trị trung bình của chi phí khuyến mãi theo từng cặp ngành (dùng t – test). Tuy nhiên, khi số treatment lớn Î số lượng so sánh sẽ rấtlớn. – Khi đó nên dùng ANOVA: – H0 : µ1 = µ2 = = µk = µ – Ha : có ít nhất1 giátrị µi khác những giá trị kia. 59 Với µ là trung bình củatổng thể
  60. 4. Phân tích đabiến (tt) z Phân tích nhân tố (FA – Factor Analysis) – Là phép rút gọndữ liệuvàbiếnbằng cách nhóm chúng lạivới các nhân tốđạidiện – Điềukiện: các biếnphải có thang đometric – Ứng dụng: z Xây dựng bộ thang đo Multiple – item z Xác định cấutrúcbộ dữ liệu z Giảmthứ nguyên trong tậpdữ liệu, rút gọndữ liệu 60
  61. 4. Phân tích đabiến (tt) z Phân tích nhân tố (FA – Factor Analysis) – Ví dụ: 61
  62. The End 62