Bài giảng Phân tích và xử lý dữ liệu với R - Bài thực hành 3: Phân tích mô tả dữ liệu - Học viện Ngân hàng

pptx 12 trang phuongnguyen 7980
Bạn đang xem tài liệu "Bài giảng Phân tích và xử lý dữ liệu với R - Bài thực hành 3: Phân tích mô tả dữ liệu - Học viện Ngân hàng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptxbai_giang_phan_tich_va_xu_ly_du_lieu_voi_r_phan_3_phan_tich.pptx

Nội dung text: Bài giảng Phân tích và xử lý dữ liệu với R - Bài thực hành 3: Phân tích mô tả dữ liệu - Học viện Ngân hàng

  1. Phân tích dữ liệu với R Phần 3 Phân tích mô tả dữ liệu
  2. Nội dung ▪ 1. Quy trình phân tích ▪ 2. Dữ liệu thực tế ▪ 3. Phân tích mô tả biến liên tục ▪ 4. Phân tích mô tả biến phân nhóm (categorical)
  3. 1. Quy trình phân tích ▪ Kiểm tra các số liệu “bất thường” ▪ Xác định mục tiêu phân tích, thông điệp muốn chuyển tải ▪ Xác định biến số cần thiết (trong dataframe) ▪ Xác định Phương pháo thống kê ▪ Xác định lệnh/hàm trong R.
  4. Kiểm tra số liệu “bất thường” ▪ Xem xét số tối đa và tối thiểu ▪ Tính hợp lý (validity)- Không có nhân viên nào có mức lượng 100.000$ 1 tháng ▪ Tính nhất quán (consistency) – giáo viên không thể có trình độ trung cấp ▪ Coi chừng lẫn lộn biến
  5. Mục tiêu phân tích ▪ Mô tả hay kiểm định giả thuyết ▪ Muốn người đọc nhận những thông điệp chính nào ▪ Phác họa bảng số liệu và biểu đồ muốn có → Đòi hỏi thời gian suy nghĩ
  6. Xác định biến số ▪ Biến số có liên quan đến mục tiêu (trong dataframe) là gì. ▪ Biến liên tục (continous) hay phân nhóm (categorical)
  7. Xác định phương pháp thống kê ▪ Phương pháp tùy thuộc vào mục tiêu và biến số ▪ Mô tả: mean, standard deviation, median, proportion, ▪ Tương quan: Regression models ▪ So sánh hai nhóm
  8. Xác định hàm/lệnh trong R ▪ Chỉ cần một số hàm/lệnh căn bản ▪ Hàm có thể tìm trong các package ▪ Mỗi phương phấp phân tích có thể thực hiện bằng nhiều hàm ▪ Có khi chỉ cần một lệnh từ một package
  9. Ví dụ nghiên cứu ▪ Nghiên cứu về thu nhập và trình độ nhân viên tại một công ty A dựa trên file số liệu “salary.csv” chứa những thông tin sau: id EMPLOYEE CODE mã nhân viên salbeg BEGINNING SALARY Lương khởi điểm sex SEX OF EMPLOYEE giới tính của nhân viên (0 - nam, 1- Nữ) time JOB SENIORITY Thâm niên làm việc (tháng) age AGE OF EMPLOYEE tuổi của nhân viên (năm) salnow CURRENT SALARY lương hiện tại edlevel EDUCATIONAL LEVEL trình độ học vấn work WORK EXPERIENCE kinh nghiệm làm việc (năm) loại công việc (1: văn thư, tạp vụ ; 2: Tập sự văn phòng ; 3: nhân viên bảo vệ ; 4: nhân viên có trình ĐH ; 5: lao động phổ thông ; 6: nhân viên có trình độ từ ths ; 7.nhân jobcat EMPLOYMENT CATEGORY viên kỹ thuật)
  10. Package “psych” và “Hmisc” ▪ Package “psych” và “Hmisc” rất có ích cho phân tích mô tả ▪ Hmisc có hàm describe ▪ “psych” có hàm ● describe ● describe.by (tên dataframe, tên biến chia nhóm, tùy biến khác)// có thế dùng lệnh? Describe.by() để tìm hiểu về hàm này
  11. Phân tích mô tả bằng R >data= read.csv(“D:/salary.csv”,header = T) >Attach(data) // lấy dataframe data ra phân tích >library(psych) // nếu chưa có gõ lệnh instal.library(psych) >describe(data) >mean(age) // tính tuổi trung bình >median (age)// tính median của tuổi >describe(data)// biểu hiện tất cả các giá trị mô tả các biến có trong data
  12. Sử dụng R cho phân tổ dữ liệu ▪ Library (gmodels) ▪ CrossTable (sex, digits =3) // phân tích số lượng, tỉ lệ nhân viên theo giới tính ▪ CrossTable (sex,jobcat, digits =3)//phân tích số lượng, tỉ lệ nhân viên theo giới tính