Bài giảng Khai phá dữ liệu - Chương 3: Tiền xử lý dữ liệu
Bạn đang xem tài liệu "Bài giảng Khai phá dữ liệu - Chương 3: Tiền xử lý dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bai_giang_khai_pha_du_lieu_chuong_3_tien_xu_ly_du_lieu.pdf
Nội dung text: Bài giảng Khai phá dữ liệu - Chương 3: Tiền xử lý dữ liệu
- Bài giảng môn học KHAI PHÁ DỮỆ LI U CHƯƠ NG 3. TI Ề N X Ử LÝ D Ữ LI Ệ U December 27, 2012 Khai phá dữ liệu: Chương 3 1
- Tài liệu tham khảo [HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition), Morgan Kaufmann. Chapter 2. Data Preprocessing [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection. [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for the Global Biodiversity Information Facility, Copenhagen [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen [Hai02] Đoàn An Hả i (2002). Learning to Map between Structured Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award). [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000) và mộ t s ố tài li ệ u khác December 27, 2012 2
- Chapter 3: Tiền xử lý dữ liệu Hiểu dữ liệu và chuẩn bị dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm December 27, 2012 3
- Những vấn đề cơ bản để hiểu dữ liệu Cách thu thập được dữ liệu cần thiết để mô hình hóa: Data Acquisition Cách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data Integeation. Mô tả dữ liệu Data Description Đánh giá chất lượng (sự sạch sẽ) của dữ liệu Data Assessment December 27, 2012 4
- Thu thập dữ liệu Cách thu thậ p d ữ li ệ u c ầ n thi ế t đ ể mô hình hóa Data Acquisition: Trích chọn dữ liệu theo câu hỏi từ CSDL tới tập tin phẳng Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL Kết nối mức thấp để truy nhập trực tiếp CSDL Loạ i b ỏ ràng bu ộ c không gian/th ờ i gian khi di chuy ể n kh ố i lượ ng l ớ n d ữ li ệ u Hỗ tr ợ vi ệ c qu ả n lý và b ả o qu ả n d ữ li ệ u t ậ p trung hóa Rút gọ n s ự tăng không c ầ n thi ế t c ủ a d ữ li ệ u Tạềệ o đi u ki n qu ảịữệốơể n tr d li u t t h n đ đáp ứ ng m ố i quan tâm đúng đắ n December 27, 2012 5
- Tích hợp dữ liệu Cách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data Integeation. December 27, 2012 6
- Mô tả dữ liệu Giá trị kỳ v ọ ng (mean) Xu hướ ng trung tâm c ủ a t ậ p d ữ li ệ u Độ l ệ ch chu ẩ n (Standard deviation) Phân bố dữ liệu xung quanh kỳ vọng Cực tiểu (Minimum) Giá trị nhỏ nhất Cực đại (Maximum) Giá trị lớn nhất Bảng tần suất (Frequency tables) Phân bố tần suất giá trị của các biến Lược đồ (Histograms) Cung cấp kỹ thuật đồ họa biểu diễn tần số giá trị của một biến December 27, 2012 7
- Mô tả d ữ li ệ u, so sánh v ớ i phân b ố chu ẩ n (chủ y ế u trong mi ề n [0,10]) December 27, 2012 8
- Đánh giá và lập hồ sơ dữ liệu Đánh giá dữ li ệ u Địịộấề nh v m t v n đ trong d ữệầảế li u c n gi i quy t: Tìm ra và quy ếị t đ nh cách nắ m b ắ t v ấ n đ ề Mô tả d ữ li ệ u s ẽ làm hi ệ n rõ m ộ t s ố v ấ n đ ề Kiể m toán d ữ li ệ u: l ậ p h ồ s ơ d ữ li ệ u và phân tích ả nh h ưở ng c ủ a d ữ liệ u ch ấ t l ượ ng kém. Lập hồ sơ dữ liệu (cơ sở căn cứ: phân bố dữ liệu) Tâm củ a d ữ li ệ u Các ngoạ i lai ti ề m năng b ấ t kỳ Số l ượ ng và phân b ố các kho ả ng trong trong m ọ i tr ườ ng h ợ p Bấ t c ứ d ữ li ệ u đáng ng ờ , nh ư mã thiế u (miscodes), dữ li ệ u họ c, dữ liệ u test, hoặ c ch ỉ đ ơ n gi ả n dữ li ệ u rác Nhữ ng phát hi ệ n nên đ ượ c trình bày d ướ i d ạ ng các báo cáo và li ẹ t k ế như các m ố c quan tr ọ ng c ủ a k ế ho ạ ch December 27, 2012 9
- Những vấn đề cơ bản để chuẩn bị dữ liệu Cách thứ c làm s ạ ch d ữ li ệ u: Data Cleaning Cách thứ c di ễ n gi ả i d ữ li ệ u: Data Transformation Cách thứ c n ắ m b ắ t giá tr ị thi ế u: Data Imputation Trọ ng s ố c ủ a các tr ườ ng h ợ p: Data Weighting and Balancing Xử lý d ữ li ệ u ngo ạ i lai và không mong mu ố n khác: Data Filtering Cách thứ c n ắ m b ắ t d ữ li ệ u th ờ i gian/chu ỗ i th ờ i gian: Data Abstraction Cách thứ c rút g ọ n d ữ li ệ u đ ể dùng: Data Reduction Bả n ghi : Data Sampling Biế n: Dimensionality Reduction Giá trị : Data Discretization Cách thứ c t ạ o bi ế n m ớ i: Data Derivation December 27, 2012 10
- Chapter 3: Tiền xử lý dữ liệu Hiểu dữ liệu và chuẩn bị dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm December 27, 2012 11
- Tính quan trọng của tiền xử lý Không có dữ liệu tốt, không thể có kết quả khai phá tốt! Quyết định chất lượng phải dựa trên dữ liệu chất lượng Chẳng hạn, dữ liệu bội hay thiếu là nguyên nhân thống không chính xác, thậm chí gây hiểu nhầm. Kho dữ liệu cần tích hợp nhất quán của dữ liệu chất lượng Phân lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon . Dữ liệu có chất lượng cao nếu như phù hợp với mục đích sử dụng trong điều hành, ra quyết định, và lập kế hoạch December 27, 2012 12
- Các vấn đề về chất lượng dữ liệu [RD00] - (Thiế u l ượ c đ ồ toàn v ẹ n, thi ế t k ế s ơ đ ồ s ơ sài) đ ơ n tr ị , toàn v ẹ n tham chi ế u - (Lỗ i nh ậ p d ữ li ệ u) sai chính t ả , d ư th ừ a/sao, giá tr ị mâu thu ẫ n - (Mô hình dữ li ệ u và thi ế t k ế s ơ đ ồ không đ ồ ng nh ấ t) xung đ ộ t tên, c ấ u trúc - (Dữ li ệ u ch ồ ng chéo, mâu thu ẫ n và không nh ấ t quán) không nh ấ t quán tích h ợ p và thờ i gian [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Engineering Bulletin, 23(4): 3-13, 2000. December 27, 2012 13
- Độ đo đa chiều chất lượng dữ liệu Khung đa chiều cấp nhận tốt: Độ chính xác (Accuracy) Tính đầy đủ (Completeness) Tính nhất quán (Consistency) Tính kịp thời (Timeliness) Độ tin cậy (Believability) Giá trị gia tăng (Value added) Biểu diễn được (Interpretability) Tiếp cận được (Accessibility) Phân loại bề rộng (Broad categories): Bản chất (intrinsic), ngữ cảnh (contextual), trình diễn (representational), và tiếp cận được (accessibility). December 27, 2012 14
- Các bài toán chính trong tiền XL DL Làm sạch dữ liệu Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quán Tích hợp dữ liệu Tích hợp CSDL, khối dữ liệu hoặc tập tin phức Chuyển dạng dữ liệu Chuẩn hóa và tổng hợp Rút gọn dữ liệu Thu được trình bày thu gọn về kích thước những sản xuất cùng hoặc tương tự kết quả phân tích Rời rạc dữ liệu Bộ phận của rút gọn dữ liệu nhưng có độ quan trọng riêng, đặc biệt với dữ liệu số December 27, 2012 15
- Các thành phần của tiền xử lý dữ liệu (Bảng 2.1) December 27, 2012 16
- Chapter 3: Tiền xử lý dữ liệu Hiểu dữ liệu và chuẩn bị dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm December 27, 2012 17
- Làm sạch dữ liệu Là quá trình xác đị nh tính không chính xác, không đ ầ y đ ủ /tính b ấ t h ợ p lý c ủ a d ữ liệ u chỉ nh s ử a các sai sót và thi ế u sót đ ượ c phát hi ệ n nâng cao chấ t l ượ ng dữ li ệ u. Quá trình bao gồ m kiể m tra đ ị nh d ạ ng, tính đ ầ y đ ủ , tính h ợ p lý, mi ề n gi ớ i h ạ n, xem xét dữ li ệ u đ ể xác đ ị nh ngo ạ i lai (đ ị a lý, th ố ng kê, th ờ i gian hay môi trườ ng) ho ặ c các l ỗ i khác, đánh giá dữ li ệ u c ủ a các chuyên gia mi ề n ch ủ đ ề . Quá trình thườ ng d ẫ n đ ế n loạ i b ỏ , l ậ p tài li ệ u và ki ể m tra liên ti ế p và hi ệ u ch ỉ nh đúng b ả n ghi nghi ngờ . Kiể m tra xác nh ậ n có th ể đ ượ c ti ế n hành nh ằ m đ ạ t tính phù h ợ p v ớ i các chuẩ n áp d ụ ng, các quy lu ậ t, và quy t ắ c. December 27, 2012 18
- Nguồn dữ liệu đơn: mức sơ đồ (Ví dụ) December 27, 2012 19
- Nguồn dữ liệu đơn: mức thể hiện (Ví dụ) December 27, 2012 20