Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

pdf 15 trang phuongnguyen 3350
Bạn đang xem tài liệu "Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_bai_4_cac_phep_bien_doi_du_lieu.pdf

Nội dung text: Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

  1. TIN H ỌC ỨNG D ỤNG PHÂN TÍCH D Ữ LI ỆU NGHIÊN CỨU V ỚI SPSS BÀI 4: CÁC PHÉP BI ẾN ĐỔ I DỮ LI ỆU MỤC TIÊU u ứ • Hi ểu và áp dụng đượ c các ph ươ ng pháp bi ến đổ i dữ li ệu phù hợp với yêu cầu nghiên cứu. u nghiên• c Hi ểu và áp dụng đượ c các ph ươ ng pháp xử lý lỗi ệ l i ữ phát sinh trong quá trình nh ập li ệu. i d đ ổ ự ả ỏ n • Tổ ch ức và làm vi ệc nhóm xây d ng b ng câu h i ế kh ảo sát, ti ến hành kh ảo sát, nh ập và xử lý dữ li ệu. ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 1
  2. NỘI DUNG u ứ • Xử lý dữ li ệu trên bi ến – Mã hóa bi ến với công cụ Recode u nghiên c ệ – Chuy ển đị nh dạng của bi ến l i ữ ị ủ ế ớ ụ i d – Tính toán giá tr c a bi n v i công c Compute đ ổ n ế –Xử lý câu hỏi có nhi ều lựa ch ọn tr ả lời ng: Bi • Làm sạch dữ li ệu ụ n g d –Dữ li ệu lỗi và các bi ện pháp kh ắc ph ục ứ c ọ – Các ph ươ ng pháp làm sạch dữ li ệu T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn CÁC PHÉP BI ẾN ĐỔ I D Ữ LI ỆU u ứ • Mục đích –Xử lý sai sót trong quá trình mã hóa, nh ập li ệu u nghiên c ệ – Bi ến đổ i dữ li ệu để phát hi ện mối quan hệ gi ữa các bi ến l i ữ i d • Phân lo ại đ ổ n ế –Xử lý dữ li ệu trên bi ến ng: Bi – Làm sạch dữ li ệu ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 2
  3. XỬ LÝ D Ữ LI ỆU TRÊN BI ẾN u ứ • Mã hóa bi ến với công cụ Recode • Chuy ển đị nh dạng của bi ến u nghiên c ệ ị ủ ế ớ ụ l i • Tính toán giá tr c a bi n v i công c Compute ữ i d đ ổ • Xử lý câu hỏi có nhi ều lựa ch ọn tr ả lời n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn MÃ HÓA BI ẾN V ỚI RECODE u ứ • Mục đích – Bi ến đổ i tr ị số dữ li ệu bằng cách mã hóa lại chúng u nghiên c ệ • Điều ki ện áp dụng l i ữ i d – Gi ảm số bi ểu hi ện của một bi ến đị nh tính xu ống ch ỉ còn đ ổ n hai ho ặc ba lo ại bi ểu hi ện cơ bản ế – Chuy ển bi ến đị nh lượ ng thành bi ến đị nh tính ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 3
  4. MÃ HÓA BI ẾN V ỚI RECODE u ứ • Quy trình th ực hi ện –Gọi th ực hi ện ch ức năng Transform -> Recode -> Into Different Variables (gi ữ nguyên bi ến gốc, tạo bi ến mới) u nghiên c ệ l i ữ – Ch ọn bi ến mu ốn mã hóa lại i d đ ổ – Đặ t tên và nhãn cho bi ến mới, nh ấn nút Change để xác n ế nh ận ng: Bi ấ để đị ự ể ụ – Nh n nút Old and New Values xác nh s chuy n đổ i giá tr ị gi ữa bi ến cũ và bi ến mới n g d ứ c ọ – Gán các nhãn giá tr ị cho bi ến vừa tạo T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn MÃ HÓA BI ẾN V ỚI RECODE u ứ u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 4
  5. CHUY ỂN ĐỊ NH D ẠNG C ỦA BI ẾN u ứ • Mục đích – Chuy ển bi ến dạng phân lo ại Category nhi ều tr ị số thành bi ến phân lo ại Dichotomy có hai tr ị số u nghiên c ệ l i ữ • Ví dụ i d đ ổ n – BankAccount là bi ến phân lo ại, cho bi ết tên ngân hàng ế qu ản lý tài kho ản lươ ng của ng ườ i đượ c hỏi ng: Bi ụ – SalaryThrBank là bi ến phân lo ại, cho bi ết ng ườ i đượ c n g d hỏi có nh ận lươ ng qua ngân hàng VCB hay không ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn CHUY ỂN ĐỊ NH D ẠNG C ỦA BI ẾN u ứ • Quy trình th ực hi ện –Gọi th ực hi ện ch ức năng Transform -> Count u nghiên c ệ – Khai báo tên và nhãn của bi ến Dichotomy l i ữ ấ ế ớ ế i d – Cung c p (các) bi n Category có liên quan t i bi n đ ổ Dichotomy n ế – Cung cấp tr ị số mã hóa của (các) bi ến Category có liên ng: Bi ớ ế ụ quan t i bi n Dichotomy n g d ị ủ ế ứ – Gán nhãn các giá tr c a bi n Dichotomy c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 5
  6. CHUY ỂN ĐỊ NH D ẠNG C ỦA BI ẾN u ứ u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU u ứ • Dữ li ệu lỗi và các bi ện pháp kh ắc ph ục • Các ph ươ ng pháp làm sạch dữ li ệu u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 6
  7. DỮ LI ỆU L ỖI u ứ • Lỗi mã hóa dữ li ệu • Lỗi nh ập dữ li ệu u nghiên c ệ ỗ ề ấ ủ ữ ệ l i • L i v tính nh t quán c a d li u ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LỖI MÃ HÓA D Ữ LI ỆU u ứ • Mô tả –Dữ li ệu nh ập không ph ản ánh đúng ý ngh ĩa của thông tin do ng ườ i đượ c hỏi cung cấp u nghiên c ệ l i ữ • Nguyên nhân i d đ ổ n – Mã hóa sai thông tin do ng ườ i đượ c hỏi cung cấp ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 7
  8. LỖI NH ẬP D Ữ LI ỆU u ứ • Mô tả –Dữ li ệu nh ập không đúng với bảng mã theo thông tin do ng ườ i đượ c hỏi cung cấp u nghiên c ệ l i ữ • Nguyên nhân i d đ ổ n – Mã đọ c sai ế – Mã đọ c đúng nh ưng lỗi do đánh máy ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LỖI NH ẤT QUÁN D Ữ LI ỆU u ứ • Mô tả – Không nh ất quán gi ữa các câu tr ả lời của cùng một đố i tượ ng đượ c hỏi u nghiên c ệ l i ữ • Nguyên nhân i d đ ổ n –Lỗi mã hóa dữ li ệu ế –Lỗi nh ập dữ li ệu ng: Bi ụ –Lỗi do đố i tượ ng đượ c hỏi cung cấp sai thông tin n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 8
  9. KH ẮC PH ỤC L ỖI MÃ HÓA VÀ NH ẬP LI ỆU u ứ • Nh ập toàn bộ số li ệu hai lần bởi hai ng ườ i độ c lập • Nh ập toàn bộ số li ệu một lần, nh ập lần hai 20% bộ u nghiên c số li ệu (ch ọn ng ẫu nhiên) bởi hai ng ườ i độ c lập ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU u ứ • Sự cần thi ết –Xử lý các lỗi phát sinh trong quá trình mã hóa dữ li ệu, nh ập dữ li ệu u nghiên c ệ l i ữ – Đả m bảo tính nh ất quán của dữ li ệu i d đ ổ ệ ă ừ n • Các bi n pháp ng n ng a ế – Thi ết kế bảng câu hỏi rõ ràng, dễ tr ả lời ng: Bi ụ – Ch ọn lọc và hu ấn luy ện điều tra viên n g d ứ c ả ỏ ầ ể ử ỗ ướ ậ ọ – Các b ng câu h i c n ki m tra, x lý l i tr c khi nh p T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 9
  10. LÀM S ẠCH D Ữ LI ỆU u ứ • Kết hợp sử dụng MS Excel và SPSS để phát hi ện, xử lý lỗi và làm sạch dữ li ệu u nghiên c –Sử dụng Excel (Max, Min, Auto Filter, Scatter) ệ l i ữ –Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots) i d đ ổ n • Quy trình th ực hi ện ế – Dùng công cụ để phát hi ện giá tr ị “l ạ” của mỗi bi ến ng: Bi ụ – Tìm bản ghi ch ứa giá tr ị “l ạ” n g d ứ c ọ – Ch ỉnh sửa/lo ại bỏ bản ghi ch ứa giá tr ị lạ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU V ỚI MS EXCEL u ứ • Ví dụ –Sử dụng hàm MIN, MAX đố i với bi ến Age u nghiên c ệ –Sử dụng công cụ AutoFilter đố i với bi ến Gender l i ữ ử ụ đồ ị đố ớ ế i d –S d ng th Scatter i v i bi n Childrens đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 10
  11. LÀM S ẠCH D Ữ LI ỆU V ỚI MS EXCEL u ứ • Sử dụng hàm MIN, MAX đố i với bi ến Age – Đố i với dữ li ệu ng ườ i tiêu dùng, độ tu ổi kh ảo sát từ 18 đế n 60 u nghiên c ệ l i ữ – Giá tr ị nằm ngoài vùng 18 – 60 là dữ li ệu lỗi i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU V ỚI MS EXCEL u ứ • Sử dụng công cụ AutoFilter đố i với bi ến Gender – Bi ến Gender ch ỉ có hai giá tr ị Male và Female, nh ững giá tr ị khác (ho ặc để tr ống) là lỗi nh ập li ệu u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 11
  12. LÀM S ẠCH D Ữ LI ỆU V ỚI MS EXCEL u ứ • Sử dụng đồ th ị Scatter đố i với bi ến Age u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU V ỚI MS EXCEL u ứ • Sử dụng đồ th ị Scatter đố i với bi ến Age u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 12
  13. LÀM S ẠCH D Ữ LI ỆU V ỚI SPSS u ứ • Ví dụ –Sử dụng công cụ Frequencies đố i với bi ến Gender u nghiên c ệ –Sử dụng công cụ Charts đố i với bi ến Literacy l i ữ ử ụ ụ đố ớ ế i d –S d ng công c Histogram i v i bi n Age đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU V ỚI SPSS u ứ • Sử dụng công cụ Frequencies đố i với bi ến Gender u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 13
  14. LÀM S ẠCH D Ữ LI ỆU V ỚI SPSS u ứ • Sử dụng công cụ Frequencies đố i với bi ến Gender u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU V ỚI SPSS u ứ • Sử dụng công cụ Charts đố i với bi ến Literacy u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 14
  15. LÀM S ẠCH D Ữ LI ỆU V ỚI SPSS u ứ • Sử dụng công cụ Charts đố i với bi ến Literacy u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn LÀM S ẠCH D Ữ LI ỆU V ỚI SPSS u ứ • Sử dụng công cụ Histogram đố i với bi ến Age u nghiên c ệ l i ữ i d đ ổ n ế ng: Bi ụ n g d ứ c ọ T i n h nh ững b ướ c ch ập ch ững vào th ế gi ới s ố namth@buh.edu.vn 15