Bài giảng Phân tích và xử lý dữ liệu với R - Bài thực hành 2: Nhập liệu với R - Học viện Ngân hàng

pptx 25 trang phuongnguyen 3190
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Phân tích và xử lý dữ liệu với R - Bài thực hành 2: Nhập liệu với R - Học viện Ngân hàng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptxbai_giang_phan_tich_va_xu_ly_du_lieu_voi_r_phan_2_nhap_lieu.pptx

Nội dung text: Bài giảng Phân tích và xử lý dữ liệu với R - Bài thực hành 2: Nhập liệu với R - Học viện Ngân hàng

  1. Phân tích và xử lý dữ liệu với R Phần 2 Nhập liệu với R
  2. Nhập liệu với R 1. Giao diện và tương tác với R 2. Nhập Dữ liệu cho R từ file excel 3. Nhập dữ liệu cho R từ file .sav (trong spss) 4. Biên tập dữ liệu
  3. 1. Giao diện và tương tác với R 1.1 Giao diện R 1.2 R như là một calculator 1.3 Đối tượng (object) 1.4 Vector và Dataset
  4. 1.1 Giao diện R Trình thực hiện qua tương tác
  5. 1.2 R như là một canculator ▪ Các hàm phổ biến: sqrt, log, lũy thừa Thực hiện qua tương tác
  6. 1.3 Object ▪ Mỗi đối tượng phải có một tên ▪ Tên có thể được viết bằng chữ thường, con số và các ký hiệu ▪ Tên của các đối tượng phân biệt chữ hoa chữ thường Tương tác
  7. 1.4 Vector và Dataset ▪ Vector là tập hợp nhiều số liệu ▪ Vector có thể coi là cột dữ liệu hay biến số (variable) ▪ Khai báo 1 vector Tên đối tượng = c(danh sách số liệu) VD: x = c(1,5, 80,90,91) Tương tác
  8. Dataset ▪ Nhiều vector hợp thành một Dataset ▪ Dataset = matrix(dòng và cột) ▪ data.frame(danh sách các vector) →tạo dataset VD: id= c(“1”,”2”,”3”,”4”,”5”,”6”) Y = c(10, 16, 34,40, 50,26) Data = data.frame(id,Y)
  9. Tính toán thống kê ▪ Những hàm phổ biến mean, median, var, sd, leghth, min, max, rangeme ▪ Biểu đồ cơ bản hist,plot
  10. Nhập liệu với R 1. Giao diện và tương tác với R 2. Nhập Dữ liệu cho R từ file excel 3. Nhập dữ liệu cho R từ file .sav (trong spss) 4. Biên tập dữ liệu
  11. 2. Nhập liệu dữ liệu từ Excel vào R ▪ B1: Dùng lệnh “save as” trong Excel lưu số liệu dưới dạng file “.csv” ▪ B2: dùng lệnh Data = read.csv (đường dẫn file, header = TRUE) Để lưu dữ liệu vào đối tượng data ▪ B3: Báo cho R biết: lấy Data ra phân tích attach(Data)
  12. 3. Nhập liệu dữ liệu từ 1 file .sav (SPSS) ▪ B1: gọi thư viện: library(foreign) ▪ B2: dùng lệnh Data = read.spss( đường dẫn file, to.data.frame = TRUE) Để lưu dữ liệu vào đối tượng data ▪ B3: Báo cho R biết: lấy đối tượng Data ra phân tích attach(Data)
  13. Nhập liệu với R 1. Giao diện và tương tác với R 2. Nhập Dữ liệu cho R từ file excel 3. Nhập dữ liệu cho R từ file .sav (trong spss) 4. Biên tập dữ liệu
  14. 4. Biên tập dữ liệu (phần 1) ▪ Toán tử (Operators) ▪ Tạo biến mới ▪ Hàm có sẵn ▪ Sắp xếp dữ liệu ▪ Hoán chuyển dữ liệu
  15. Toán tử số học Toán tử Mô tả + Addition - Cộng - Subtraction – Trừ * Multiplication – Nhân / Division – Chia ^ hoặc Exponentiation – lũy thữa X%%Y chia x cho y lấy phần dư( a = 5%%2 → a =1) X%/%Y Chia lấy phần nguyên ( a = 5%/%2 → a=2)
  16. Toán tử logic Toán tử Mô tả Lớn hơn >= Lớn hơn hoặc bằng == Bằng != Không bằng !x Không x X|Y X hoặc Y X&Y X và Y isTRUE Kiểm tra xem
  17. Hàm số Hàm Mô tả Abs(x) Gía trị tuyệt đối Sqrt (x) Căn bậc 2 Cos( x), sin (x) Tan(x) Log10(x) Logarithm Exp(x) e^x
  18. Tạo biến mới ▪ DataFrame có tên: Data ▪ Nếu DataFrame có 2 cột (biến) x1 và x2 // Khởi tạo biến x1,x2 x1 = c(1,3,4,7) x2 = c(4,6,8,3) // Gán dữ liệu vào biến Data Data = data.frame(x1,x2)
  19. Tạo biến mới x1 = c(1,3,4,7) x2 = c(4,6,8,3) Data = data.frame(x1,x2) ▪ Chúng ta có thể tạo ra một biến mới là tổng số của 2 cột sum = x1+x2 ▪ Nhưng biến sum sẽ không nằm trong Data → giải pháp
  20. Giới thiệu dấu $ ▪ Dùng dấu $ để tạo biến mới và kết nối với một dataframe Data$sum = Data$x1+Data$x2 // Kiểm tra giá trị của Data Data Bây giờ dataframe Data có 3 biến x1,x2 và sum.
  21. Tạo biến mới qua coding (mã hóa) id = c(1,2,3,4,5) gender = c(“male”,”female”,”male”,”male”,”male”) Mục tiêu: Tạo ra biến mới là sex với 1= male, 2= female
  22. Tạo biến mới qua coding id = c(1,2,3,4,5) gender = c(“male”,”female”,”male”,”male”,”male”) dat = data.frame (id,gender) // giải quyết vấn đề dat$sex[gender == “male”] = 1 dat$sex[gender ==“female”]=2 // kiểm tra giá trị hiện tại của dat dat
  23. Tạo biến mới qua coding id = c(1,2,3,4,5) gender = c(“male”,”female”,”male”,”male”,”male”) Mục tiêu: Tạo ra biến mới là group nếu id = 1,2,3 thì group = “A” nếu id = 4,5 thì group =“B”
  24. Tạo biến mới qua coding > id = c(1,2,3,4,5) > dat$group[id>=1 & id gender = > dat$group[id>=4 & id dat > dat = data.frame(id,gender) id gender sex group > dat$sex[gender=="male"]=1 1 1 male 1 A > dat$sex[gender=="female"]=2 2 2 female 2 A 3 3 male 1 A > dat 4 4 male 1 B id gender sex 5 5 male 1 B 1 1 male 1 2 2 female 2 3 3 male 1 4 4 male 1 5 5 male 1
  25. Hoán chuyển dữ liệu ▪ Chuyển từ numeric sang text/character ▪ As.numeric(), as.character() Ví dụ id1 = as.character(id)