Ứng dụng giải thuật “máy học” trong điều khiển và giám sát nhà thông minh

pdf 13 trang phuongnguyen 60
Bạn đang xem tài liệu "Ứng dụng giải thuật “máy học” trong điều khiển và giám sát nhà thông minh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfung_dung_giai_thuat_may_hoc_trong_dieu_khien_va_giam_sat_nha.pdf

Nội dung text: Ứng dụng giải thuật “máy học” trong điều khiển và giám sát nhà thông minh

  1. ỨNG DỤNG GIẢI THUẬT “MÁY HỌC” TRONG ĐIỀU KHIỂN VÀ GIÁM SÁT NHÀ THƠNG MINH 1Nguyễn Cơng Hồng 1Khoa Cơ Khí, Trường Cao Đẳng Kỹ Thuật Cao Thắng, Việt Nam TĨM TẮT Với mục tiêu cải tiến chất lượng hoạt động của hệ thống điều khiển và giám sát nhà thơng minh, tác giả tiến hành áp dụng thuật tốn máy học để khai phá tập dữ liệu từ ngơi nhà. Trong bài báo này, hệ thống điều khiển và giám sát nhà thơng minh được phát triển dựa trên ba giải thuật máy học: cây quyết định, nạve bayes và mạng Nơron. Quá trình khai phá dữ liệu được thực hiện trên các tập dữ liệu khác nhau và rút ra các tri thức dưới dạng qui luật áp dụng vào điều khiển và giám sát nhà thơng minh. Kết quả thực nghiệm cho thấy thuật tốn cây quyết định phù hợp với tập dữ liệu nhà thơng minh và đạt độ chính xác tốt nhất khi phân lớp dữ liệu mới đến 96.5%. Từ khĩa: nhà thơng minh, máy học, khai phá dữ liệu ABSTRACT With the aim of improving the quality of the monitoring and control system, the author applied the Machine Learning algorithm in data mining from the smart home. In this paper, the monitoring and control system was developed by using three different Machine Learning algorithms: decision tree, nạve bayes and nueral network. The data minning was implemented with different datasets then getting the rules for applying in monitoring and control the smart home. The result of experiments showed that decision tree algorithm get the most accurate new data to 96.5% when classifying datasets of the smart home. Key word: smart home, machine learning, data mining I. Giới thiệu Nhà thơng minh khơng những mang lại cho con người cảm giác thoải mái, tiện nghi mà cịn giúp kiểm sốt tiêu thụ điện năng một cách tự động và hiệu quả. Trái tim của hệ thống nhà thơng minh là hệ thống điều khiển và giám sát, hệ thống cung cấp các phương thức điều khiển linh hoạt như điều khiển bằng thiết bị điều khiển từ xa, điều khiển trên PC, laptop và đặc biệt là điều khiển thơng qua internet ở bất kỳ nơi nào [1], [2], [3]. Một trong những nghiên cứu về hệ thống nhà thơng minh cĩ thể kể đến là nghiên cứu của tác giả Sakari Stenudd, hệ thống điều khiển và giám sát nhà thơng minh dựa trên nền tảng Smart-M3 IOP [4], với việc ứng dụng thuật tốn Mạng Nơron trong dự đốn tình huống xảy ra trong nhà giúp hệ thống thích nghi nhanh với các tình huống thay đổi, tuy nhiên vẫn cịn các dự đốn sai khi các thơng số thay đổi. Hệ thống 1
  2. nhà thơng minh MavHome được nghiên cứu bởi nhĩm tác giả Diane J. Cook và Michael Youngblood [5], trong hệ thống sử dụng các thuật tốn dự báo để dự đốn hành vi tiếp theo của người sử dụng, kết quả thực nghiệm với tập dữ liệu thật từ nhà thơng minh cho thấy độ chính xác cao trong quá trình dự báo nhưng nghiên cứu vẫn cịn mặt hạn chế là số hành vi dự đốn ít nên tập dữ liệu đơn giản. Trong bài báo [6], nhĩm tác giả đã phát triển hệ thống nhà thơng minh ứng dụng thuật tốn Support Vector Machines để nhận dạng các hoạt động hằng ngày của người sử dụng, kết quả độ chính xác của thuật tốn là 88%. Ngồi ra cũng cĩ nhiều thuật tốn được nghiên cứu và áp dụng vào hệ thống nhà thơng minh. Qua khảo sát một số đề tài nghiên cứu cho thấy việc áp dụng các thuật tốn vào hệ thống điều khiển và giám sát nhà thơng minh chưa tốt hoạt động với độ chính xác chưa cao và tập dữ liệu chưa dược khai thác hiệu quả. Ngày nay phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thơng tin ẩn con người cĩ thể trích rút ra các quyết định nghiệp vụ thơng minh. Ví dụ mơ hình phân lớp dự báo thời tiết cĩ thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thơng số về độ ẩm, sức giĩ, nhiệt độ, của ngày hơm nay và các ngày trước đĩ. Phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như Máy học (Machine Learning), hệ chuyên gia (expert system), thống kê (statistics). Các nghiên cứu [7], [8], [9] cho thấy thuật tốn máy học được áp dụng trên nhiều tập dữ liễu khác nhau và cho kết quả phân lớp cao trên 90% trong quá trình khai phá dữ liệu. Với khả năng ứng dụng rộng rãi của thuật tốn máy học trong lĩnh vực khai phá dữ liệu và cho kết quả phân lớp cao với các tập dữ liệu khác nhau điều đĩ cĩ vẻ thuật tốn máy học phù hợp với tập dữ liệu nhà thơng minh. Tác giả đề xuất phát triển hệ thống điều khiển và giám sát nhà thơng minh dựa trên việc áp dụng thuật tốn máy học trong khai phá dữ liệu. Hệ thống điều khiển và giám sát gồm 2 phần. thứ nhất, hệ thống thu thập dữ liệu được xây dựng với cấu trúc mạng Wireless Sensor Network dữ liệu được truyền qua sĩng RF gồm 3 nút mạng: 2 nút mạng con kết nối với cảm biến và thiết bị và 1 nút mạng chủ. Thứ hai, hệ thống quản trị nhà thơng minh được áp dụng kết quả của quá trình khai phá dữ liệu, hệ thống quản trị được xây dựng trên máy tính cĩ kết nối internet nên người dùng cĩ thể điều khiển và giám sát ở bất cứ đâu cĩ internet. 2
  3. II. Khai phá dữ liệu nhà thơng minh A. Thu thập dữ liệu Hệ thống thu thập dữ liệu nhà thơng minh mơ tả trong hình 1 được xây dựng dựa trên cấu trúc Wireless Sensor Network [10]. Hệ thống gồm cĩ 3 nút mạng: 2 nút mạng con sử dụng vi điều khiển Arduino Uno và 1 nút mạng chủ Arduino Mega. Dữ liệu được truyền qua sĩng RF sử dụng module nRF24L01+. Thu phát RF Vi điều khiển Arduino Uno Internet Cảm biến Phần mềm quản Thu phát RF trị openHAB Ethernet PC Vi điều khiển Cơ sở dữ liệu Arduino Mega Thu phát RF MySQL Vi điều khiển Arduino Uno Thiết bị Hình 1 Sơ đồ khối hệ thống điều khiển và giám sát nhà thơng minh. Tập dữ liệu được xây dựng với 9 thuộc tính là giá trị của các cảm biến: nhiệt độ, độ ẩm, PIR, rị rỉ ga, ánh sáng, rị rỉ nước, dịng điện và 1 thuộc tính là trạng thái của ngơi nhà được gọi là nhãn của tập dữ liệu. Nhãn của tập dữ liệu gồm 7 trạng thái cĩ thể xảy ra của ngơi nhà: SS (Safe Sleeping), SA (Safe Away), SH (Safe Home Activity), AL (Alarm), EMR (Emergency), DP (Departure), AR (Arrival). Ví dụ ngơi nhà ở trạng thái SH khi nhiệt độ trong nhà lớn hơn 15 độ và nhở hơn 35 độ, độ ẩm lớn hơn 30% và nhỏ hơn 80%, cảm biến PIR1 ở phịng khách phát hiện cĩ chuyển động trong nhà, khí ga ở mức lớn hơn 0% và nhỏ hơn 15%, cảm biến ánh sáng ở mức 1, cảm biến phát hiện rị rỉ nước cĩ giá trị lớn hơn 0% và nhỏ hơn 10%, dịng điện lớn hơn 0mmA và nhỏ hơn 1000mmA. 3
  4. B. Phân lớp dữ liệu với thuật tốn Máy học Phân lớp dữ liệu nhà thơng được thực hiện bằng thuật tốm Máy học, thuật tốn Máy học là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kỹ thuật cho phép máy tính cĩ thể “học”. Máy học được xem là phương pháp tạo ra các chương trình máy tính sử dụng kinh nghiệm, quan sát hoặc dữ liệu trong quá khứ để cải thiện cơng việc của mình trong tương lai. Trong bài báo, 3 thuật tốn máy học được sử dụng đĩ là Cây quyết định, Nạve bayes và Mạng Nơron. 1. Thuật tốn Decision Tree Cây quyết định (Decision tree) là một trong những hình thức mơ tả dữ liệu trực quan nhất, dễ hiểu nhất đối với người dùng. Cấu trúc của một cây quyết định bao gồm các nút và các nhánh. Nút dưới cùng được gọi là nút lá, trong mơ hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút con, đây cịn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp. Mỗi một nhánh của cây xuất phát từ một nút nào đĩ ứng với một phép so sánh dựa trên miền giá trị của nút đĩ. Nút đầu tiên gọi là nút gốc của cây. Xem xét một ví dụ về cây quyết định được thành lập từ tập dữ liệu chơi hay khơng chơi tennis [11]. Bảng 1 Tập dữ liệu ảnh hưởng của khí hậu đến việc chơi tennis Thời tiết Nhiệt độ Độ Ẩm Giĩ Chơi tennis Nắng Nĩng Cao Khơng Khơng Nắng Nĩng Cao Khơng Khơng U_ám Nĩng Cao Khơng Cĩ Mưa Ấm_áp Cao Khơng Cĩ Mưa Mát Vừa Khơng Cĩ Mưa Mát Vừa Cĩ Khơng U_ám Mát Vừa Cĩ Cĩ Nắng Ấm_áp Cao Khơng Khơng Nắng Mát Vừa Khơng Cĩ 4
  5. Mưa Ấm_áp Vừa Khơng Cĩ Nắng Ấm_áp Vừa Cĩ Cĩ U_ám Ấm_áp Cao Cĩ Cĩ U_ám Nĩng Vừa Khơng Cĩ Mưa Ấm_áp Cao Cĩ Khơng Mơ hình cây quyết định được xây dựng dựa trên dữ liệu bảng 1 mơ tả như hình 2. Hình 2 Mơ hình cây quyết định chơi tennis Cây quyết định của ví dụ trên cĩ thể được giải thích như sau: các nút lá chứa các giá trị của thuộc tính phân lớp (thuộc tính “Chơi tennis”). Các nút con tương ứng với các thuộc tính khác thuộc tính phân lớp, nút gốc cũng được xem như là một nút con đặc biệt, ở đây chính là thuộc tính “Thời tiết”. Các nhánh của cây từ một nút bất kỳ tương đương một phép so sánh cĩ thể là so sánh bằng, so sánh khác, nhỏ hơn lớn hơn nhưng kết quả các phép so sánh này bắt buộc phải thể hiện một giá trị logic (đúng hoặc sai) dựa trên một giá trị nào đĩ của thuộc tính của nút. Lưu ý cây quyết định trên khơng cĩ sự tham gia của thuộc tính “Nhiệt độ” trong thành phần cây, các thuộc tính như vậy được gọi chung là thuộc tính dư thừa bởi vì các thuộc tính này khơng ảnh hưởng đến quá trình xây dựng mơ hình của cây. Từ cây quyết định hình 2 cĩ thể đưa ra các luật quyết định như sau: IF (Thời tiết = Mưa) và (Giĩ = Khơng) THEN (Chơi tennis = Cĩ) IF (Thời tiết = Mưa) và (Giĩ = Cĩ) THEN (Chơi tennis = Khơng) 5
  6. IF (Thời tiết = U ám) THEN (Chơi tennis = Cĩ) IF (Thời tiết = Nắng) và (Độ ẩm = Cao) THEN (Chơi tennis = Khơng) IF (Thời tiết = Nắng) và (Độ ẩm = Vừa) THEN (Chơi tennis = Cĩ) 2. Thuật tốn Nạve Bayes Naive Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 sau đĩ trở nên phổ biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm, các bộ lọc email [12]. Thuật tốn Naive Bayes dựa trên định lý Bayes được phát biểu như sau 푃( 푌) 푃( |푌)푃(푌) 푃(푌| ) = = 푃( ) 푃( ) (1) Áp dụng trong bài tốn phân lớp dữ liệu, các dữ kiện gồm cĩ: D: tập dữ liệu huấn luyện đã được vector hĩa dưới dạng x =(x_1,x_2, ,x_n) Ci: phân lớp i, với i = {1,2, ,m}. Các thuộc tính độc lập điều kiện đơi một với nhau. Theo định lý Bayes: 푃( | )푃( ) 푃( │ ) = 푖 푖 (2) 푖 푃( ) Theo tính chất độc lập điều kiện 푛 푃( | 푖) = ∏ 푃( | 푖) (3) =1 Trong đĩ: . 푃( 푖| ) là xác suất thuộc phân lớp i khi biết trước mẫu X. . 푃( 푖) là xác suất phân lớp i. . 푃( | 푖) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i. 6
  7. Các bước thực hiện phân lớp dữ liệu với thuật tốn Naive Bayes . Bước 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính 푃( 푖) và 푃( | 푖) 푛푒푤 . Bước 2: Phân lớp = ( 1, 2, , 푛), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước Xnew. Xnew được gán vào lớp cĩ xác suất lớn nhất theo cơng thức 푛 max (푃( 푖) ∏ 푃( | 푖)) (4) 푖∈ =1 3. Thuật tốn Mạng Nơron Mạng trí tuệ nhân tạo (Artificial Neural) - thường được gọi là một mạng Nơron - là một cơng cụ để mơ hình hĩa các mối quan hệ phức tạp giữa đầu vào và ngõ ra. Các mối quan hệ giữa đầu vào và ngõ ra được biết, một mạng Nơron cĩ thể thực hiện như phân loại để dự đốn ngõ ra với ngõ vào mới. Mạng Nơron là mơ hình mạng lưới, nơi các Nơron được nối với nhau bằng các lớp thần kinh mơ phỏng theo cấu trúc của não bộ. Mạng Nơron bao gồm các lớp tế bào thần kinh; một lớp đầu vào, một hoặc nhiều lớp ẩn, và một lớp ra [13]. Hình 3 Ví dụ về một mạng lưới Nơron với 1 lớp ẩn. Số lượng các đầu vào là 4, số lượng tế bào thần kinh ẩn là 5, và số lượng các tế bào thần kinh đầu ra là 3 7
  8. III. Kết quả thực nghiệm và phân tích Để đánh giá độ chính xác của các thuật tốn trên, một mơ hình nhà thơng minh mơ tả trong hình 4 được xây dựng với hệ thống thu thập dữ liệu Wireless Sensor Network. Hệ thống các cảm biến sẽ liên tục lấy các thơng số gửi về cho hệ thống lưu trữ và phần mềm quản trị giúp người dùng giám sát ngơi nhà. Từ cơ sở dữ liệu MySQL thành lập các tập dữ liệu: dataset1, dataset2, dataset3 và dataset 4, trong đĩ dataset1, dataset2, dataset3 được xây dựng làm tập dữ liệu huấn luyện để xây dựng mơ hình phân lớp cịn dataset4 làm tập dữ liệu kiểm tra để đánh giá độ chính xác của mơ hình tạo ra. Hình 4 Mơ hình thực nghiệm nhà thơng minh Quá trình khai phá dữ liệu nhà thơng minh được mơ tả trong hình 5 và quá hình xây dựng, kiểm tra mơ hình phân lớp được mơ tả trong hình 6. Quá trình khai phá dữ liệu gồm 6 bước: chuẩn bị dữ liệu, trích chọn dữ liệu, làm sạch dữ liệu, chuyển đổi dữ liệu, phân lớp dữ liệu và kiểm tra đánh giá. 8
  9. Hình 5 Quá trình khai phá dữ liệu nhà thơng minh Mơ hình phân lớp dữ liệu được tiến hành dựa trên các tập dữ liệu huấn luyện và kiểm tra mơ tả như hình 6. Áp dụng 3 thuật tốn Cây quyết định, Nạve bayes và Mạng Nơron để xây dựng mơ hình phân lớp dữ liệu nhà thơng minh. Kết quả thực nghiệm cho thấy thời gian xây dựng mơ hình của 3 thuật tốn dữa trên 3 tập dữ liệu huấn luyện: dataset1, dataset2, dataset3 được mơ tả trong hình 7 và độ chính xác của các thuật tốn khi phấn lớp dữ liệu trên tập dataset4 được mơ tả trong hình 8. Tập dữ Thuật tốn Trích chọn Tiền xử liệu huấn 100% Machine thuộc tính lý dữ liệu luyện Learning Xây dựng mơ hình phân lớp sử dụng tập dữ liệu huấn luyện Tri thức Tập dữ 100% Tiền xử Mơ hình phân liệu kiểm Trích chọn lý dữ liệu lớp tra thuộc tính Sử dụng dữ liệu kiểm tra độ chính xác mơ hình Luật phân lớp phân lớp Hình 6 Mơ hình phân lớp dữ liệu nhà thơng minh 9
  10. Thời gian xây dựng mơ hình (s) Dataset 3 Dataset 2 Dataset 1 0 0.5 1 1.5 2 2.5 Dataset 1 Dataset 2 Dataset 3 Mạng Nơron 1.05 1.56 2.1 Nạve Bayes 0.01 0.01 0.01 Cây quyết định 0.07 0.06 0.04 Hình 7 Thời gian xây dựng mơ hình Phân lớp của các tập dữ liệu 99% 96% 93% 90% 87% 84% 81% 78% 75% 72% Độ chính Độ chính khi phân xác lớp 69% 66% 63% 60% Dataset 1 Dataset 2 Dataset 3 Cây quyết định 89% 96.50% 95% Nạve Bayes 66% 82.50% 89% Mạng Nơron 85.50% 89.50% 89.50% Hình 8 Độ chính xác của mơ hình phân lớp theo thực nghiệm 3 Quan sát hình 7 và 8 thời gian xây dựng mơ hình nhanh nhất là 0.01s của thuật tốn nạve bayes và độ chính xác tốt nhất của thuật tốn Cây quyết định 96.5% khi sử dụng tập dữ liệu dataset 2. Kết quả phân lớp dữ liệu mới của thuật tốn Cây quyết định được miêu tả trong ma trận ở bảng 2. 10
  11. Bảng 2 Phân lớp dữ liệu với thuật tốn Cây quyết định Kết quả phân lớp các trạng thái SS SH SA AR DP AL EMR SS 44 SH 28 1 ế SA 48 c t c ự AR 17 Th DP 24 AL 1 23 3 EMR 2 9 IV. Kết luận Hệ thống điều khiển và giám sát nhà thơng minh được tìm hiểu và xây dựng dựa trên 3 thuật tốn máy học: Cây quyết định, Nạve bayes và Mạng Nơron. Kết quả thực nghiệm cho thấy thuật tốn Cây quyết định phù hợp với tập dữ liệu nhà thơng và cĩ độ chính xác khi phân lớp dữ liệu là 96.5%. TÀI LIỆU THAM KHẢO [1] Lei Wang, Dunlu Peng and Ting Zhang, "Design of Smart Home System Based on WiFi Smart Plug," International Journal of Smart Home, 2015. [2] T. D. P. Mendes, Radu Godina and Eduardo M. G, "Smart Home Communication Technologies and Applications:," Energies 2015, 2015. [3] O. Bingol and Kubilay Tasdelen, "Web-based Smart Home Automation: PLCcontrolled Implementation," Acta Polytechnica Hungarica, 2014. [4] S. Stenudd, "Using machine learning in the adaptive control of a smart enviroment," Technical Research Center of Finland, Oulu, 2010. [5] D. J. Cook and Michael Youngblood, "MavHome: An Agent-Based Smart Home," University of Texas at Arlington. [6] A. Fleury, Michel Vacher and Norbert Noury, "SVM-Based Multimodal Classification of Activities of Daily Living in Health Smart Homes: Sensors, Algorithms, and First Experimental Results," IEEE Transactions on Information Technology in Biomedicine , 2010. [7] J. Furnkranz, "Machine Learning and Data Mining," in Foundations of Rule Learning, 2012. 11
  12. [8] F. Sebastiani, "Machine learning in automated text categorization," ACM Computing Surveys, 2002. [9] G. E. A. P. A. Batista and Ronaldo C. Prati, "A study of the behavior of several methods for balancing machine learning training data," ACM SIGKDD Explorations Newsletter, 2004. [10] Basma M. and Sherine M., "Smart Home Design using Wireless Sensor Network and Biometric Technologies," International Journal of Application or Innovation in Engineering & Management, 2013. [11] L. Rokach and O. Maimon, "Decision Tree," in Data mining and knowlegde discovery handbook, 2010. [12] T. M. Mitchell, "Machine Learning," in GENERATIVE AND DISCRIMINATIVE CLASSIFIERS:NAIVE BAYES AND LOGISTIC REGRESSION, 2015. [13] D. Shiffman, "The Nature of Code: Simulating Natural Systems with Processing," December 13, 2012. Thơng tin liên hệ tác giả chính (người chịu trách nhiệm bài viết): Họ tên: Nguyễn Cơng Hồng Đơn vị: Trường Cao Đẳng Kỹ Thuật Cao Thắng Điện thoại: 0905 730 451 Email: hoangnc2012@gmail.com Tp. Hồ Chí Minh, ngày .tháng .năm 2016 Giảng viên hướng dẫn (Ký & ghi rõ họ tên) TS.Vũ Quang Huy 12
  13. BÀI BÁO KHOA HỌC THỰC HIỆN CƠNG BỐ THEO QUY CHẾ ĐÀO TẠO THẠC SỸ Bài báo khoa học của học viên cĩ xác nhận và đề xuất cho đăng của Giảng viên hướng dẫn B n ti ng Vi t ©, T NG I H C S PH M K THU T TP. H CHÍ MINH và TÁC GI Bản quếy n táệc ph mRƯ ãỜ cĐ bẠ o hỌ b Ưi Lu tẠ xu t Ỹb n vàẬ Lu t S hỒ u trí tu Vi t Nam. NgẢhiêm c m m i hình th c xu t b n, sao ch p, phát tán n i dung khi c a cĩ s ng ý c a tác gi và ả ng ề i h ẩ pđh đưm ợK thuả tộ TP.ở H ậChí Mấinh.ả ậ ở ữ ệ ệ ấ ọ ứ ấ ả ụ ộ hư ự đồ ủ ả Trườ Đạ ọCcĨ Sư BÀI BạÁO KHỹ OA ậH C T ồT, C N CHUNG TAY B O V TÁC QUY N! ĐỂ Ọ Ố Ầ Ả Ệ Ề Th c hi n theo MTCL & KHTHMTCL h c 2017-2018 c a T vi n ng i h c S ph m K thu t Tp. H Chí Minh. ự ệ Năm ọ ủ hư ệ Trườ Đạ ọ ư ạ ỹ ậ ồ